关键词:
模式识别
语音情感
卷积神经网络(CNN)
特征优选准则
特征降维
摘要:
针对语音信号认知中需要对语音情感快速精准的解析问题,提出了一种基于卷积神经网络(CNN)学习的特征降维方法。在原始语音情感数据提取大量特征的基础上,通过对不同维度特征进行归正获得其相应的特征矩阵。应用CNN对特征矩阵进行学习,对收敛后的CNN网络全连接层的权值进行分析,根据网络学习特性定义基于CNN的特征筛选准则(FR-CNN),即通过对比每类特征激活权值的不同,计算选择出最有利于分类的特征,得到降维高效的语音情感认知特征集F。在中国科学院自动化研究所提供的多模态情感数据库CHEAVD上,提取全部8类情感数据进行了实验测试,使用全体特征集构建的CNN分类器的类平均识别错误率相比基线减少了2.1%,而本文方法得到的降维后特征集F通过相同的CNN分类器的类平均错误率相比基线减少了9.4%。在对大量特征进行降维筛选的基础上,仅使用原特征集15%的特征,不仅有效增加了分类器的收敛速度,还使得识别错误率有所减小,同时在构筑实际语音情感识别系统时能够减少系统的复杂程度。本研究综合了数据的不同类型的特征信息,采用CNN网络学习特性进行特征二次优选与降维,为语音情感的特征提取问题提供了一个新的思路。