关键词:
头相关传输函数
虚拟听觉重放
张量分解
数据降维
摘要:
头相关传输函数(HRTF)是自由场条件下点声源到双耳的声学传输函数,是头部、耳廓和躯干等生理结构对声波的散射或综合滤波的结果。一般情况下,HRTF是个体、声源距离、方向及频率的函数。这种多变量特征使得完整的HRTF数据很复杂,尤其是与声源距离有关的近场HRTF。实验测量和数值计算是获取个性化HRTF最直接的方法。但在实际应用中,获取高方向分辨率的个性化HRTF数据存在一定的难度,特别是不同声源距离的近场HRTF。基函数分解的方法可以用于简化(降维)HRTF数据,并从少量方向的远场HRTF数据重构高方向分辨率的HRTF,以及简化虚拟听觉重放(VAD)中的信号处理算法。常用的基函数分解的方法可分为谱形状基函数分解(如主成分分析PCA或奇异值分解SVD)和空间基函数分解(如球贝塞尔-球谐函数分解,空间PCA)两大类。但这些基函数分解方法要么效率不够高,要么不完全适应HRTF(特别是近场)的多变量特征,因而在应用上不一定能得到理想的效果。作为传统PCA的高阶推广,张量分解考虑了多变量之间的相互作用,将HRTF分解为各变量的独立模态变化,可得到其更高效的低维表示。本文的工作是将Tucker张量分解的方法应用于简化HRTF的获取与虚拟听觉重放信号处理,主要工作包括以下四方面。第一是研究基于张量分解的近场HRTF物理特征分析方法。利用三阶张量分解,特定个体(KEMAR人工头)的近场HRTF幅度可分解为与距离相关、方向相关和频率相关模态的组合。通过分析不同的模态变化及其相互作用,揭示了近场HRTF幅度一些与距离、方向和频率相关的特性。分析结果表明,2个距离模态、8个方向模态和6个频率模态可以分别代表HRTF超过99%的该模态相关的能量变化。特别是,虽然近场HRTF包含有距离变化维度,但近场HRTF幅度随距离的变化并不是特别复杂,可用少量模态变化表示。同时,通过模态的截断,实现了近场HRTF数据的有效压缩。第二是基于张量分解,提出了一种从少量方向的远场HRTF数据重构全空间个性化远场HRTF的方法,从而简化了远场HRTF数据的获取。利用三阶张量分解,将个性化远场HRTF数据分解为方向、频率和少量个体模态的组合。通过对已有的包含足够个体的基线远场HRTF数据库进行统计分析,可得到公共(与个体无关)的方向模态矩阵、频率模态矩阵、和核心张量。对于基线数据库外的任意新个体,只要少量方向计算或测量的HRTF即可估计出个体模态的变化,并重构出个性化的高方向分辨率的HRTF数据。对两种远场HRTF数据库的计算表明,11个个体模态即可表示超过98%的个体相关的HRTF能量变化,并可以从约30个方向的计算或测量HRTF幅度重构出高方向分辨率(624个)的HRTF幅度,且重构总平均相对误差低于-17 d B。相应的心理声学实验验证重构和原始HRTF在听觉上没有明显差异。相对于现有的空间PCA或空间谐波分析等方法,在简化远场HRTF测量和改善精度方面有较大的提高。第三是基于更高阶的张量分解,进一步提出了一种从少量方向的计算或测量远场HRTF数据重构高方向分辨率个性化近场HRTF的方法,从而避免了直接获取近场HRTF的困难。利用四阶张量分解,将个性化近场HRTF分解为距离、方向、频率和少量个体相关模态的组合。通过对包含足够个体的基线近场HRTF数据库进行统计分析,可得到公共(与个体无关)的方向、距离、频率模态矩阵及核心张量。对于基线数据库外的任意新个体,只要少量方向的远场HRTF数据即可估计出个体模态的变化,并重构出其高分辨率的近场HRTF数据。对两种近场HRTF数据库的分析表明,15或14个个体模态即可表示超过98%的个体相关的近场HRTF幅度能量变化,并可以从少量方向(约30个)的计算或测量HRTF幅度重构出高方向分辨率(2520或865个)的HRTF幅度,且重构的总平均相对误差低于-15 d B。心理声学实验结果表明,重构的近场HRTF可以达到与原始HRTF相似的方向定位和距离感知效果,并且在听觉上没有明显差异。与现有方法如球谐函数近场HRTF重构相比,大大提高了测量或计算效率。第四是基于张量分解,提出了一种改善动态虚拟听觉重放(VAD)中双耳合成效率和性能的算法。首先利用三阶张量分解,特定个体(KEMAR人工头)的一组近场头相关脉冲响应(HRIR)分解为距离相关、方向相关和时间相关模态的组合。然后,通过一组与时间相关的公共卷积器(或滤波器)以及方向、距离相关的权重级联来实现VAD中的双耳合成。通过刷新权重而不是刷新HRIR的卷积器来生成动态双耳信号,从而实现虚拟源方向和距离的独立控制,同时避免了传统算法中刷新HRIR滤波器可能带来的可听缺陷。具体实例表明,每个耳采用一组8个公共卷积器(或滤波器)就能以足够的精度合成双耳信号,且总平均相对误差低于-20 d B。