关键词:
语音识别
说话人识别
深度学习
移动计算环境
边缘智能
摘要:
语音信号处理方法赋予电子设备感知、分析和生成人类语音的能力,是众多语音应用软件的核心技术。智能语音助手是普及率最高的一类语音应用,能够提供设备控制、信息检索和日志记录等服务功能,在智慧家居、智慧客服、智能驾驶等领域得到广泛应用。说话人识别和语音识别方法是智能语音助手的关键技术,分别用于认证用户身份和识别用户语音内容。基于深度学习的说话人识别和语音识别方法取得了领先传统方法的卓越性能,却也消耗大量计算资源。因此,智能语音助手软件大多采用“云-端”应用架构,使用移动终端设备采集用户语音和展示处理结果,在高性能的云计算设备执行计算密集的语音处理任务。在实际应用场景中,此类应用架构难以满足用户对于泛在性、实时性和隐私安全的要求。
随着边缘智能的兴起,语音信号处理领域开始探究如何将基于深度学习的说话人识别和语音识别方法从云端迁移至智能手机、笔记本电脑、平板电脑等移动终端设备。然而,在深度学习方法的性能与移动终端设备有限的计算资源之间进行平衡并非易事。更具挑战性的是,领域偏移效应、非平稳环境噪声等干扰因素会加剧这一矛盾。针对上述难题,围绕移动计算环境下的说话人识别和语音识别方法,本文旨在协调好模型性能和计算资源消耗量,削弱干扰因素对于识别性能的不良影响,提高模型推断过程的实时性。为了达到上述目的,本文从说话人表征提取方法和流式语音识别方法着手展开研究,取得如下创新成果:
(1)提出了基于多通道时频注意力的说话人表征提取器增强方法。从通道、时间和频率三个视角衡量隐状态特征的重要性,帮助说话人表征提取器聚焦重要信息。利用小型卷积和全局池化算子计算注意力权重,以轻量级的方式增强说话人表征提取器的学习能力。在该方法的基础上,针对移动终端设备,设计了一个低计算复杂度的说话人表征提取器。实验结果表明,基于多通道时频注意力的说话人表征提取器增强方法能够有效提升性能,适用于说话人识别领域的多个主流深度神经网络,具有良好的泛用性和较低的计算复杂度。设计的说话人表征提取器能够在性能和计算资源消耗之间取得更好的平衡,并且具备优异的数据处理实时性。
(2)提出了基于多域分离空间的域不变说话人表征学习方法。学习多个领域特定的说话人表征空间,将复杂的多域问题分解成多个易于解决的两域问题。在领域特定的表征空间中减小每对源域和目标域之间的Wasserstein距离,并将目标域作为锚点来拉近多个源域,提升了说话人表征对于领域偏移的鲁棒性。进一步地,利用知识蒸馏方法将域不变性从大模型迁移至小模型,在模型性能和复杂度之间取得平衡。实验结果表明,相较于现有方法,基于多域分离空间的域不变说话人表征学习方法在16种复杂的多域自适应任务上取得了更好的性能结果。
(3)提出了基于声音环境自适应的移动端流式语音识别方法。将声音环境的时频特征模式编码成低维特征向量,利用环境噪声信息优化识别性能,提升流式语音识别模型对于环境噪声的鲁棒性。构造了环境表征查找表,利用已知声音环境的表征来建模未知声音环境,提升流式语音识别模型对于新环境的泛化能力。设计了轻量级的深度神经网络,降低了方法的整体计算复杂度。实验结果表明,基于声音环境自适应的移动端流式语音识别方法在多项评估指标方面优于现有最好的方法,具备性能实用、计算资源消耗量低、实时性高的优点。
综上所述,本文围绕移动计算环境下的语音信号处理方法展开研究,聚焦于基于深度学习的说话人识别和语音识别方法,将它们的推断过程从云端服务器迁移至移动终端设备。在此过程中,本文提出了创新的解决思路和方法,一方面降低了语音信号处理模型的计算资源消耗,另一方面提升其鲁棒性和普适性。