关键词:
多媒体会议系统
音频处理
视频码率控制
峰值信噪比
语音混合算法
率失真模型
摘要:
多媒体通讯系统中,高效的语音激活检测可以减少背景噪声的传输,确保在声音完美的基础上,大大提高带宽利用率;码率控制技术可以使得视频在具有较高峰值信噪比同时获得稳定的码流,对于H.264,这点特别重要。与MPEG—4不同的是,在H.264协议中没有定义基于对象的编码,没有利用视频画面由不同对象组成这一基本特性,那是否可以通过基于对象的编码提高PSNR呢?从目前了解的文献来看,未见这方面的研究,所以该问题在H.264的码率控制策略中也显得格外重要。\n 本文研究了静音检测、语音混合算法。提出基于变分辨率频谱MFCC参数及两个感觉参数的语音特征的静音检测方法,使用多门限过零率检测首先对纯静音进行预判,然后用支持向量机对语音特征进行分类。相比于G.729B中的静音检测技术和基于MFCC+SVM静音检测技术,在噪声比较大的情况下仍能达到比较高的语音识别率。\n 作为视频通讯系统混音器的重要组成部分,本文采用SAW混音算法对各路解压音频进行混音,听觉测试比较优秀,并且通过对算法结构进行优化,获得了比较低的混音延时,即使是对20路音频混音,其运算延时仍很低,可以满足实时传输的要求。将新的静音检测技术与SAW混音技术使用在视频会议系统后,MCU的混音计算量大大小于采用G.729B静音检测技术的视频会议系统MCU,同样设备条件允许更多的客户端连接服务器参加语音讨论。\n 文中全面的分析了码率控制模型,首先对图像DCT变换系数的统计特征进行探讨,证明交流系数具有拉普拉斯分布,并介绍了推导过程。其次,基于DCT变换的视频编码器中,实现比特分配的一般手段是调整各个宏块的量化步长。本文从理论上讨论了基于宏块的率失真模型和二次率失真模型,得出量化步长与码率之间的关系。\n 本文对基于图片、视频的文字提取算法进行了总结,重点分析了一些代表性算法:颜色分割以及纹理分割等。并提出了一种基于多分辨率的视频文字提取算法,在多分辨率情况下依据梯度信息提取文字候选块,并使用SVM进行最后候选块的鉴别。另外基线的引入更加准确的定位了文字,提高了判别的准确度。而使用了连续帧检测,则降低了误判的概率。结果表明对于复杂背景下的文字也能得到了很好的分割的效果,并且有效的抑制了复杂纹理导致的误判,对中英文文字均有较好的效果。\n 通过对率失真模型和文字提取算法的研究,本文提出H.264中多个核心算法:十字MAD预测模型、帧码率分配、基于文字对象的宏块码率分配等,并将基于宏块的率失真模型应用在H.264的宏块层控制中,实验表明,相比于MAD线性预测模型,十字MAD预测方法具有运算简单、误差低的优点;我们比较了基于宏块的率失真模型与基于二次模型的H.264码率控制算法,前者具有更好的PSNR,缓冲能保持在一个较平稳状态,缓冲占用率不高;在对具有文字字幕的序列进行测试时,我们使用了自适应的宏块码率分配方法,当字幕区域获得相对较少比特时,视频的PSNR有所提高,PSNR与帧实际比特数均无明显波动。