关键词:
音频处理
基于内容的
音频归类
音频分段
事件检测
体育比赛
足球
MPEG-7低层音频描述
摘要:
随着计算机技术的快速发展和网络的蓬勃兴起,人们生活中能够接触到的数字多媒体内容也越来越多。相应地,人们迫切需要新的技术来实现对海量的数字多媒体资源进行有效的管理和检索。音频是多媒体内容的一个重要组成部分,通过对音频的分析可以有效地提取出多媒体内容的语义信息。同视频相比,音频上的处理还具有计算量小的优点。因此,近年以来,基于内容的音频的分段、归类和提取成为了研究热点。\n本文主要探讨音频内容提取和管理的一个重要的研究方向:电视体育比赛的音频内容的结构化,即从音频的角度对电视体育比赛的内容结构进行分析。\n本文的主要工作和研究包括方面:\n1. 用于电视体育比赛内容分析的音频特征提取:本文提取了MPEG-7标准中的低级音频描述作为特征集,并应用在了电视体育比赛的内容分析中。另外,我们还提取了传统上得到广泛应用的MFCC特征,并通过实验对比了MFCC和MPEG-7特征集在音频内容分析中的性能。\n2. 电视体育比赛的归类和分段算法的研究:在对电视体育比赛进行按内容归类和分段时,本文利用了SVM算法和图像处理中经常使用的AdaBoost算法。在构造AdaBoost分类器时,本文中提出了一种利用K-L变换和GMM模型构建弱分类器组的方法,并应用在了我们的工作中,收到了良好的效果。\n3. 电视体育比赛中的事件检测:本文主要分析了欢呼声、哨声和解说员的激动语音这三种体育比赛中常见的音频事件的频谱特征和检测方法,并提出了一种类似于检测基音的哨声的检测方法。\n4. 基于音频的体育比赛内容分析系统的可移植性的初步研究:由于体育比赛的内容分析中不可避免地应用了相应比赛项目的域知识(高层规则),因此,对于不同的体育项目来说,其内容分析系统是不能通用的。本文中为了增强内容分析系统对不同体育项目的兼容性,就高层规则的规范化输入的形式进行了初步研究。\n5. 相关领域的研究工作:介绍了作者在相关的领域的研究工作,包括两个项目的工作:音乐的按情绪分类和基于音频的电视新闻节目的主题提取和聚类。