关键词:
语音识别
DTW算法
音频处理
摘要:
语音识别字面上理解就是可以让计算机或者其他机器听到人所说的话并且做出一定的判断,本质上来说它属于模式匹配,它的根本目的就是要研究具有听觉功能的装置,让其通过语音的输入,理解说话人的意图并做出与命令相对应的响应。语音识别是一门很复杂的交叉性学科,涉及到语言学,声学,计算机科学,生理学,数字信号处理学等等学科。本文在系统分析了网络中开源的语音识别程序、语音信号分析和动态时间规整算法原理的基础上,针对特定词特定人的模式匹配构建了一个具有简单功能的语音识别系统。论文主要内容包括:首先简单介绍了语音识别的基本概念和算法原理及少量系统处理模块,国内外语音识别发展的历程和研究现状,阐明了本论文的研究背景和意义。分析语音识别系统的特点、结构和类型,以及语音识别应用所面临的问题,粗略介绍了目前比较运用较广的几种算法。根据本文语音识别系统自身所用的读入方式,介绍了音频格式,其中,详细介绍了 WAV格式音频文件的存储原理和文件格式。研究了语音信号的产生模型、数字化与预处理、在时域和频域中得到并分析音频信号的特征参数。详细介绍了 DTW(动态时间规整)算法以及对算法进行改进。对程序做大量测试并记录,在每次实现预期功能基础上新增更多的功能,在实验出错的情况下换一个角度开发出新的可行功能。预测出可以进一步实现的功能,可聚类出口音方言识别,添加GUI图形用户界面,嵌入式程序应用等等。基于DTW算法的语音识别在端点检测上具有很大的优势,可以较快较准的检测到有效语音的端点位置,提高了识别准确性和识别速度。本文在MATLAB环境中仿真了语音的预处理、端点检测、特征参数提取、模型训练、模型匹配和识别语音等过程。并且自建了多套声音模板,通过多次语音识别测试了程序语音识别功能的合理性。最后对语音识别的研究前景做出了展望。