关键词:
多模态情感分析
深度学习
自然语言处理
图像处理
音频处理
摘要:
情感分析的出现,使机器产生理解人类行为的途径,为人工智能、自然语言处理、图像处理、音频处理等研究方向提供了新的思路。然而随着世界的发展和大数据时代的到来,世界变得越来越复杂,单一模态的数据信息在情感分析任务中存在局限性,利用单模态数据信息已经不能理解这些复杂的情感。多模态情感分析的出现刚好解决了这一问题,多模态情感分析同时从两个或两个以上的模态数据中分析其情感,拥有更高准确度的同时,又从多角度对数据进行分析,为情感分析任务提供更多应用场景。
本文主要研究对象是面向文本、图像、语言的多模态情感分析,基于现有多模态情感分析模型的理论与方法,结合现有研究中还未解决的问题,提出了多模态情感分析中面临的几个问题。
1.融合后的特征往往导致重要信息遗失;
2.融合后的每个特征的隶属度是没有精确定义和计算;
3.多模态情感分析模型复杂度往往太大,难以用于实际问题的应用;
4.模型往往不会考虑各模态间的联系与影响。
对于上述问题,本文分别提出了两个模型(BLR-双重融合模型与M-S主、副双通道融合模型)解决。
首先采用BLR-双重融合模型利用Transformer融合机制对文本及图像模态的信息进行融合,其主要目的为:
1.将送入模型的特征两两融合,最大限度保证特征不缺失;
2.对融合后的每个特征根据其重要程度赋予权值。
此模型很好的解决了上述问题1与问题2,并且在2个数据集上对比5个基线模型,准确度均有提升,说明本文提出的融合方法在理论上是可行的。
其次采用M-S主、副双通道融合模型可以同时对文本、图像和音频模态的信息进行特征提取并对数据情感分析,其主要目的为:
1.采用轻量化模型,减小模型规模,加快模型运行时间,使得模型更加方便应用;
2.考虑三个不同模态之间的关系,引入跨模态注意力机制,多角度充分利用多模态信息,方便解决实际问题。
此模型在BLR-双重融合模型的基础上进行升级,解决了问题3、问题4,在1个数据集中对比6个基线模型都有所提升,表明本文提出的模型在准确度、适用场景、处理效率均有提升。