关键词:
深度学习
目标说话人提取
Conformer
双路径网络
多任务学习
摘要:
目标说话人提取指从混合语音中提取出特定目标说话人的语音,而忽略其他干扰音及背景噪声。这一技术在语音信号处理领域具有重要的实际意义和广泛的应用价值。本文提出了一种基于双路Conformer的目标说话人提取网络。该网络由编码器、说话人编码器、语音提取器和解码器四部分组成。首先,将目标说话人的参考语音送入编码器和说话人编码器,提取出目标说话人的特征,这些特征表征了目标说话人的个性化信息。接着,将混合语音送入编码器,得到相应的语音特征。再将混合语音的语音特征送入到语音提取器,同时嵌入目标说话人的特征,通过这一步骤,语音提取器可以估计出与目标说话人对应的掩码。将获得的掩码与语音特征进行逐元素相乘,即可分离出目标说话人的语音特征。最后,将分离出的目标语音特征送入解码器进行解码,即可恢复出目标说话人的清晰语音。实验结果表明,与主流的语音分离网络Conv-TasNet、DPRNN以及目标说话人提取网络SpEx+相比,该网络在尺度不变信号失真比上分别提升了41.4%,24.9%,4.1%,在短时客观可懂度上分别提升了8.9%,6.2%,1.2%。