关键词:
自动语音识别系统
生成对抗网络
对抗攻击
语音对抗样本生成
标签映射
摘要:
针对现有面向自动语音识别系统的对抗攻击方法难以捕捉不同语音尺度之间的相关性、导致攻击成功率低的问题,提出一种类别条件生成对抗网络的语音对抗样本生成方法。通过目标标签映射模块,将攻击目标标签转化为独热向量,作为条件输入到构建的类别条件生成对抗网络中,以此控制语音样本类别的生成。该类别条件生成对抗网络中的生成器,采用设计的NReSidual U-block网络模块与U-Net相融合,可以更好地学习不同时间尺度的语音特征,以及提升语音特征的表示能力,从而可以针对特定语音类别生成对抗样本;判别器采用卷积块和全连接层相结合的网络结构,将错误损失通过梯度反向传播至生成器,能有效保留语音信号的时序信息,并解决数据分布不稳定问题。在通用的谷歌命令数据集和音乐流派数据集上进行实验,结果表明,所提语音对抗样本生成方法的攻击成功率与主流方法相比,分别提高了3.47%、5.1%,平均信噪比提升了3.2、1.49 dB,该方法具有较好的攻击效果和语音质量。