关键词:
语音关键词唤醒
低功耗
神经网络
硬件设计
摘要:
随着物联网等移动终端的大规模普及,对语音人机交互的需求日益增长。语音关键词唤醒通常作为人机交互的入口,需要保持长时间开启,为后续更为复杂的语音内容识别等应用提供开关控制,因此,实现低功耗的语音关键词唤醒具有重要意义。传统的语音关键词唤醒技术主要基于传统机器学习,存在准确率较低的问题,随着深度学习技术的兴起,神经网络技术开始应用于语音关键词唤醒任务,大幅提升了其准确率。然而,神经网络技术的计算复杂度较高,导致了较高的处理功耗和较大的硬件开销。针对这一问题,本文重点研究基于神经网络的低功耗语音关键词唤醒硬件设计。首先,本文对国内外的相关工作进行了调研,对现有语音关键词唤醒算法进行了分析和对比,包括基于传统机器学习和基于神经网络的方法,总结了现有方法面临的问题,并对本文的章节结构做出了介绍。其次,针对现有问题,在算法层面,本文提出了一种低复杂度的语音关键词唤醒算法,基于深度可分离卷积神经网络,在保证算法准确率的同时,大幅减少了算法模型的参数量和计算量。同时,本文还对网络结构做出了有利于低功耗硬件设计的调整。通过以上优化,大幅降低了基于神经网络的语音关键词唤醒算法的参数量和计算量,为在硬件层面降低处理功耗和硬件开销奠定了基础。接着,在硬件层面,本文提出了事件驱动式的硬件架构、近似计算技术、混合精度乘法计算技术等,并在FPGA和ASIC上分别进行了实现。具体工作包括:设计了一种事件驱动式的硬件架构,用复杂度极低的语音过滤算法滤除了短噪声、长时间静音等状态,极大降低了后续特征提取和神经网络的计算功耗;设计了近似计算技术,跳过了计算过程中的近零值的读写与运算,减少了存储单元和计算单元的动态功耗;设计了混合精度乘法计算技术,减少了低精度的特征数据计算过程,进一步地降低了计算单元的动态功耗。通过以上技术,大幅降低了语音关键词唤醒的处理功耗和硬件开销。最后,对设计的基于神经网络的低功耗语音关键词唤醒硬件进行了测试与分析,通过分析发现,提出的低复杂度语音关键词唤醒算法相比已有算法减少了20~200倍的参数量和计算量,针对谷歌命令数据集下的10个关键词分类准确率高达90.31%。此外,基于40nm工艺的ASIC芯片面积为0.318)8),关键词分类时间为200ms,动态功耗为3.15u W,静态功耗为4.90u W。该设计可广泛应用于物联网智能终端设备,为其提供语音人机交互的关键技术支撑。