多模态在情感识别中的研究与应用.pdf

资源描述

1、DOI:10.11991/yykj.202306017网络出版地址：https:/ 3 种模态特征，使多模态数据之间的格式统一并对齐；其次，为了挖掘各模态之间的关联关系，融合文本、音频与视频 3 个模态的特征，根据提取的融合特征间的互补信息解决噪声干扰问题；在此基础上，利用注意力机制与双向循环神经网络进一步充分捕获融合特征及不同情感话语中的上下文信息，得到更加丰富的融合特征表示；最后，搭建下游任务模块，利用丰富的融合特征表示，提升下游任务情感识别的识别效果。利用本文所提出的网络模型分别在 3 个数据集上进行了实验，实验结果表明多模态比单一模态效果更好，基于模态融合的情感识别网络在识别性能上有较

2、好的表现，本文结论可用于指导话语情感识别过程。关键词：深度学习；情感识别；多模态；多模态融合；循环神经网络；双向门控网络；全连接神经网络；注意力机制中图分类号：TP391.4文献标志码：A文章编号：1009671X(2024)01005109Research and application of multimodality in emotion recognitionWENPeiyu1,NIEGuohao1,WANGXingmei1,2,WUPeiran11.CollegeofComputerScienceandTechnology,HarbinEngineeringUniversity,Ha

3、rbin150001,China2.NationalKeyLaboratoryofUnderwaterAcousticTechnology,HarbinEngineeringUniversity,Harbin150001,ChinaAbstract:Inordertosolvevariousnoiseinterferencesuchastypos,grammaticalerrors,andspecialwordsofnetworkculture,this paper studies the emotional recognition method of multi-modal fusion,a

4、nd proposes an emotionalrecognitionnetworkmodelbasedonmodalfusion.Firstly,threemodalfeaturesareextractedtounifyandaligntheformatsbetweenmultimodaldata.Andthen,inordertominetherelationshipbetweenthemodalities,thefeaturesofthethreemodalitiesoftext,audioandvideoarefused,andthereby,thenoiseinterferencep

5、roblemissolvedaccordingtothecomplementary information between the extracted fusion features.On this basis,the attention mechanism and thebidirectionalrecurrentneuralnetworkareusedtofurtherfullycapturethefusionfeaturesandthecontextinformationindifferentemotionaldiscourses,obtainingaricherfusionfeatur

6、erepresentation.Finally,thedownstreamtaskmoduleisbuilt,usingrichfusionfeaturerepresentationtoimprovetherecognitioneffectofdownstreamtaskemotionrecognition.Experimentshavebeencarriedoutonthreedatasetsusingthenetworkmodelproposedinthispaper.Theexperimentalresultsshowthatthemulti-modaleffectisbettertha

7、nthesingle-modaleffect,andtheemotionrecognitionnetworkbasedonmodalfusionhasbetterperformanceinrecognitionperformance.Keywords:deeplearning;emotionrecognition;multimodal;multimodalfusion;recurrentneuralnetwork;bi-directionalgatedrecurrentunit;fullyconnectedneuralnetwork;attentionmechanism情感识别技术的研究开始于

8、 20 世纪 80 年代，但直到近年来才得到广泛关注和应用。情感识别技术对于了解社会舆情、预测用户需求、改善服务质量等方面具有重要意义。目前，情感识别已经应用到社交网络、舆情分析等领域中，并收稿日期：20230620.网络出版日期：20231204.基金项目：重点实验室开放基金项目（KY10600220048）.作者简介：文培煜，男，硕士研究生.王兴梅，女，教授，博士.通信作者：王兴梅，E-mail：.第51卷第1期应用科技Vol.51No.12024年1月AppliedScienceandTechnologyJan.2024取得了显著的成果。例如，在舆情分析方面，情感识别技术可以帮助政府和媒

9、体准确了解公众对某一事件或政策的态度和情绪，为舆论引导和政策制定提供参考。情感识别存在不同粒度级别，包括篇章、词、句子。本文着重于句子级别的情感识别。张悦1基于时延神经网络和双向编码器表示提出ECAPA-TDNN-LSTM(emphasized-channel-attention,propagationandaggregationinTDNN，LSTM)，并将其应用于语音情感识别；郑艳等2提出了一种结合一维卷积以及门控循环单元模型(convolutiongatedrecurrentunit,CGRU)，缓解了模型过拟合问题；Wang 等3提出了一种断开的递归神

10、经网络(recursiveneuralnetwork，RNN)，将信息流限制在固定的步长；Lin 等4在句子建模过程中运用了自注意机制；Wang 等5采用了基于胶囊网络的方法，利用一个积极和一个消极的胶囊来捕捉相应的情感特征，许多外部资源，包括词性标注工具、情感词典、句法等，通常可以为情感分类提供补充信息。由于情感词汇包含情感词的一般和准确的情感得分，Teng 等6将它们与上下文敏感权重相结合，以确定最终的情感得分。与此不同的是，Tay 等7将情感词汇作为词级先验，利用对积极词汇和消极词汇的注意机制来改进情感特征提取；Socher 等8在解析树上应用递归自编码器和递归神经张量网络；Tai 等9

11、和 Zhu 等10用树形拓扑对基本长短期记忆网络(longshort-termmemory,LSTM)进行了扩展。然而，越来越多的网络网站允许用户上传视频和图片来表达自己，这使得只关注文本的方法是不够的。因此，人们提出和进行了大量的研究工作来理解多模态数据中的情感。这些工作不仅为使用多模态数据可以获得更好的性能提供了证据，而且还探索了如何有效地利用多模态数据，这仍然是多模态情感分析中需要解决的关键问题。如何有效地融合多模态特征以充分利用多模态数据是目前研究的热点。Chen 等11提出了带时间注意的门控多模态嵌入长短期记忆网络(gated multimodal embedded long and

12、 short-termmemory networks with temporal attention,GME-LSTM(A)，解决了话语级特征的融合会使词级特征中包含的大量局部信息丢失这个问题。GME-LSTM(A)采用门机制对多模态特征进行细化，并在词级上进行融合。Zadeh 等12设计了记忆融合网络(memoryfusionnetwork,MFN），该网络捕获了跨越不同模式和时间的相互作用。范习健等13提出一种融合听觉模态和视觉模态信息的两模态情感识别方法。Xu 等14提出了包含 2 个交互记忆网络的多交互记忆网络(multi-interactionmemory network conta

13、ining 2 interaction memorynetworks,MIMN)来监督给定目标的文本和视觉信息。这些工作都表明有效地融合图像信息可以帮助模型获得更好的性能。林子杰等15为了通过辅助任务学习更多情感倾向的视频和语音表征，提高多模态融合的效果，提出了一种基于多任务学习的多模态情感识别方法。上述方法存在计算量较大、仅限于时序数据的问题以及没有考虑使用更多的模态数据，为了解决以上问题且同时利用文本、视频、音频 3 种模态解决噪声干扰，提升情感识别的精确度与鲁棒性，本文提出一种基于模态融合的情感识别方法，融合文本、视频、音频 3 种模态数据并挖掘其中的互补信息，然后利用双向循环神经网络以

14、及注意力机制捕捉融合特征的上下文信息得到丰富的新的特征表示，解决单模态情感识别信息不全面、容易受噪声干扰等问题，从而提高情感识别的精确度。1基于模态融合的情感识别网络模型本文提出了基于模态融合的情感识别网络，其网络结构分为特征提取模块、特征融合模块、特征增强模块和下游任务模块 4 个部分。特征提取模块用于提取模态特征；特征融合模块可以得到多模态融合特征；随后，搭建了特征增强模块获得信息更加丰富的新的特征表示；最后，搭建了下游任务模块，接受新的特征表示并输出情感分类结果。基于模态融合的情感识别网络结构如图 1所示。52应用科技第51卷文本音频视频文本音频视频.音频数据文本数据视频数据BiGRUB

15、iGRU双向门控双向门控可训练数据全连接层激活层与掩码矩阵相乘全连接层与掩码矩阵相乘全连接层与掩码矩阵相乘全连接层全连接层Softmax预测值BiGRUBiGRUBiGRU.*h1*h2h2hnh1*hnr2rnr1注意力权重 n注意力权重 n注意力权重 2注意力权重 1注意力权重 1BiGRU双向门控图1基于模态融合的情感识别网络结构1.1特征提取模块特征提取模块分为 3 个部分，分别是提取文本、视频、音频 3 个不同模态的单模态特征。提取特征时，分别将单一模态数据输入模型进行提取。因为文本、音频与视频均是连续不断的序列模态，所以本实验中采取的是双向门控网络(bi-directionalga

16、tedrecurrentunit,BiGRU)来分别提取单模态特征。BiGRU 和 LSTM 或双向长短期记忆网络(bi-directionalongshort-termmemory,BiLSTM)是常见的深度学习模型。BiGRU 和 LSTM/BiLSTM在情感识别方面的共同之处是它们能够处理序列数据并捕捉上下文信息。它们具备记忆能力，能够在输入序列中保留并利用先前的信息。LSTM 是一种经典的循环神经网络，通过遗忘门、输入门和输出门的机制来控制信息的传播和遗忘，从而更好地处理长期依赖关系。在情感识别任务中，LSTM 能够捕捉文本中的上下文信息，有助于对情感进

17、行分类。BiLSTM 是 LSTM 的变种，它通过在模型中引入反向传播来获取更全面的上下文信息。BiLSTM 能够同时利用过去和未来的信息，对文本语境进行更好的建模。BiGRU 是另一种循环神经网络结构，与 BiLSTM类似，能够在模型中同时利用过去和未来的信息。与 LSTM/BiLSTM 相比，BiGRU 具有更简化的门控机制，使其计算效率更高，BiGRU 通常能够提供更全面的上下文信息，有助于提高情感识别的性能。由于文本、音频与视频均可看作是序列模态，所以模型主体仍采用 BiGRU 网络。BiGRU 是一种特殊的循环神经网络(recurrentneuralnet

18、work,RNN)。具体来说，BiGRU 解决了传统 RNN 的梯度消失问题，同时对远程依赖关系进行建模。目前的研究表明，在分类过程中使用这种网络来整合上下文信息是有好处的。BiGRU 的优点在于其具有较强的建模能力，能够捕捉到长距离依赖关系，同时也比传统的 RNN 模型有更快的训练速度和更好的鲁棒性。BiGRU 是由 2 个方向不同的门控循环单元(gatedrecurrentunit,GRU)层组成的神经网络，其中一个从前向后读取输入序列，另一个从后向前读取输入序列。每个 GRU 层包含了 1 个重置门、1 个更新门和 1 个隐藏状态。重置门为网络提供了从历史信息中遗忘不重要信息的能力，而更

19、新门则提供了从新信息中选择需要保留的信息的能力。BiGRU 将正向和反向的输出拼接在一起，形成最终的输出向量表示，该表示捕获了整个序列的上下文信息。BiGRU 中的每个时间步可以用如下公式计算:前向 GRU 单元：第1期文培煜，等：多模态在情感识别中的研究与应用53zft=(Wfzxt+Ufzhft1+bfz)rft=(Wfrxt+Ufrhft1+bfr)ehft=tanh(Wfhxt+Ufh(rfthft1)+bfh)hft=(1zft1)hft1+zftehft后向 GRU 单元计算公式与前向一致。sigmoidtanhxttWbUW Ub式中：为函数，为双曲正切激活函数，为对应位置相乘，

20、为输入序列的第个时间步的向量表示，和为输入的权重矩阵和偏置向量，为隐藏状态的权重矩阵。在 BiGRU 中，前向和后向 GRU 单元的参数是独立的，所以它们各自拥有一组、和。tanh进行单模态特征提取时，首先分别将文本、音频、视频 3 种单模态可训练数据输入 BiGRU 网络；然后将 BiGRU 网络最终输出的向量表示经过一个大小为 100 的全连接层；之后经过激活层，再乘以一个掩码矩阵；最后将所得结果以一定概率进行选择性丢弃(dropout)，得到的结果作为文本、音频、视频的单模态特征。经过特征提取的 3 种单模态特征的维度全部被调整一致。1.2特征融合模块特征融合模块的作用是将特征提取模

21、块所提取的 3 种单模态特征进行多模态融合操作，将3 种单一模态特征转换为一种比任何单一模态具有更加丰富信息的多模态融合特征。文中为了体现注意力融合的效果，采取 2 种融合方法，分别是直接拼接与基于注意力的多模态融合。tanhsoftmax对于输入的 3 种模态的特征数据，若采用直接拼接的融合方式，则是直接将 3 种模态特征数据按列拼接在一起；若采用基于注意力的多模态融合方式，则是利用注意力机制进行融合。首先将 3 种模态按列拼接在一起，然后循环处理每一句话语的 3 种模态特征（此时每句话语的 3 种模态特征已被拼接在一起），将每句话语的拼接特征经过一个大小为 100 的全连接层，然后经过一个

22、层激活，将激活值与一个服从标准差为0.01、正态分布的维度为（100，1）的矩阵进行矩阵相乘，将相乘结果经过层得到注意力权重向量，将注意力权重向量与拼接特征进行矩阵相乘得到的就是每句话语的多模态融合特征。F注意权重向量和融合后的多模态特征向量的计算方法如下：PF=tanh(WFB)=softmax(TFPF)F=BTBWF RddF Rd R3F Rd式中：为 3 种单模态特征按列拼接在一起得到的多模态特征，为全连接层的权重矩阵,为服从正态分布的矩阵，,。1.3特征增强模块所有周围的话语在目标话语的情感分类中并不是具有相同相关性的。为了放大上下文丰富话语的贡献，本模块使用了注意力机制与双向循

23、环神经网络 BiGRU。MFx RdMMxx=x1,x2,xMxt Rdt 1,Mxt本文将个话语级特征序列（由上一模块得到的融合特征或单模态特征）输入 BiGRU。设输入到 BiGRU 网络，其中为视频中的话语数。矩阵可以表示为，其中，是每条话语的多模态融合特征。H R2dMHH=h1,h2,hM ht R2dht该 BiGRU 网络的输出表示为，即根据多模态融合特征得到语境感知的话语表示特征，其中，是每条话语的融合特征经过 BiGRU 网络得到的新的特征表示。httrtrtHthtrtrththtrththtM图 2 中第 2、5 行的圆圈表示经由 BiGRU 网络得

24、到的话语表示特征，第 4 行的圆圈表示注意权重向量，第 3 行的圆圈表示加权隐藏表示。是由话语表示特征与注意权重向量进行对应位置相乘操作所得到的，其目的是将计算得到的注意力权重赋予话语表示，得到的是结合了经过注意力机制放大后的上下文信息的表示特征，上下文的相关性在上得到充分体现。为了不损失原本话语表示特征中包含的话语特征信息，将与分别乘以权重矩阵后进行矩阵相加得到网络最终的输出，包含了原本话语的特征信息，同时又综合了整个视频中所有条话语的上下文信息。具体网络结构如图 2 所示。*h1h1h2hnr1*h2r2rn*hnBiGRUBiGRUBiGRU.注意力权重 1注意力权重 2注意力权重

25、 n图2基于注意力的双向网络结构AthtAttrt设表示以表示的话语的注意力网络。的注意力机制产生一个注意权重向量和一个加权隐藏表示，其表达式如下：54应用科技第51卷Pt=tanh(WhtH)t=softmax(tTPt)rt=HTtPt R2dMt RMrt R2dWh RM2d2d RM2dWhtttt 1,M式中：，,。其中，、是权重矩阵，和被第个注意力模型使用，。ht最后，将该话语的 BiGRU 表示修改为ht=tanh(Wptrt+Wxtht)ht R2dWpWx RM2d2dt 1,M式中：和，为训练时需要学习的权重矩阵；。1.4下游任务模块Softmax下游任务模块接收特征增

26、强模块中的每个输出，进行情感分类。分类网络主体由 3 个大小为200 的全连接层和 1 个大小与数据集情感种类数相同的全连接层构成，最后连接 1 个层进行分类，输出预测结果。1.5损失函数本文损失函数设计分为 2 步。SoftmaxCrossEntropy 是一种常用的损失函数，用于多类别分类任务，SoftmaxCrossEntropy 损失函数适用于具有多个类别的分类问题。它通过将模型输出的原始分数转换为概率分布，并计算模型预测值与真实标签之间的差异，从而对分类任务进行优化和训练。它对于模型参数的优化提供了可导的梯度信息，这使得可以使用基于梯度的优化算法（例如梯度下降）来迭代地调整参数值，逐

27、渐减小损失函数的值，从而提高模型的性能。SoftmaxCrossEntropy 损失函数在优化的过程中，通过最小化不同类别的预测概率与真实标签之间的差异，鼓励模型在概率输出上更好地区分不同的类别。这帮助模型更好地学习到类别之间的边界和特征差异，提高分类的准确度。此外，在计算损失时，SoftmaxCrossEntropy 损失函数自动考虑了多个类别之间的关系。通过 Softmax 函数将原始分数转换为概率分布，确保所有类别的概率之和为1。这有助于解决分类问题中的多义性和不确定性，使模型输出更加合理和可解释。因此本实验采用 SoftmaxCrossEntropy 方法为主体，计算损失。将网络最后一

28、个全连接层的 softmax 操作单独提取出来，可得到针对一个 batch 的预测值(而非预测概率值)的 SoftmaxLoss 为Lsoftmax=1NNi=1logezi|C|j=1ezj|C|式中为标签数量。L2其次，利用范数计算每个可训练参数的误差，防止过拟合，计算公式如下：Aoutput=12sum(t2)tsumAoutput式中：为张量，为求和函数，为结果。总的损失函数公式为LLoss=LsoftmaxM+Ki=1AoutputiKMK式中：为超参数，为一个 batch 内的话语总数，为可训练参数（张量）的总数。可以通过调整来防止过拟合。2实验结果分析2.1情感识别实验设置2.1

29、.1实验数据集本文所用到的数据集是 3 个多模态公开数据集，分别是 CMU-MOSI、CMU-MOSEI、IEMOCAP。3 个数据集划分如表 1。表1实验数据集划分数据集训练集视频数测试集视频数视频内最大话语数种类CMU-MOSI6231632CMU-MOSEI2250678983IEMOCAP1203111062.1.2实验性能评价指标本文使用了 3 个评估指标，分别是分类精确度（accuracy）、F1 得分和损失收敛速度，从这 3 个方面衡量实验效果的指标。由于精确度仅取决于分类结果是否与标签一致，因此如果样本分布不均衡，正确率不能很好地反映分类效果以及网络的性能。在样本不均衡的情形下

30、，精确度过高的意义是不大的，因此精确度指标的参考意义可能会下降，因此，本文采用平均类型为 macro 的 F1 分数，这是一种用于多分类问题的性能评价指标，它综合了对每个类别的预测准确率和召回率，计算出一个在各个类别上的平均得分且更注重各个类别之间的平衡性。2.2情感识别实验结果与分析2.2.1消融实验本文对文本、音频、视频 3 个不同的单模态以及不同的多个模态组合在 3 个数据集上进行实验。首先分别在 3 个数据集的测试集上对 3 个不同单模态和多模态组合进行实验并记录 50 轮次的精确度，本文绘制了 3 个单模态和多模态组合第1期文培煜，等：多模态在情感识别中的研究与应用55的每次实验的精

31、确度曲线图，如图 3 所示。文本音频视频文本+音频文本+视频音频+视频文本+音频+视频01020304050600.30.40.50.60.70.80.9精确度轮次图3CMU-MOSI 数据集上精确度曲线图 3 中，文本模态特征的精确度最终收敛约为 75%，在各种模态之间，文本模态的表现优于其他 2 种模态，文本加其他模态的表现也较为突出，因此可以认为文本模态为主要模态，同时视频加音频模态的表现不如文本模态，可能是特征提取的方式出现问题，需要改进音频和视频模态的特征提取方法。多模态组合的精确度均优于 3 个单一模态的精确度。其中 3 种模态的组合精确度最高，精确度最终收敛约为 80%。图 4

32、为 IEMOCAP 数据集上精确度曲线图，多模态组合的精确度均优于 3 个单一模态的精确度。文本模态特征的精确度约 62.8%，音频模态的精确度约 55%，视频模态的精确度约 36.0%，而2 种多模态组合均可达到约 63%的精确度，其中3 种模态的组合精确度最终收敛约为 65%。0.250.350.450.550.650.75精确度文本音频视频文本+音频文本+视频音频+视频文本+音频+视频0102030405060轮次图4IEMOCAP 数据集上精确度曲线图 5 中，多模态组合的精确度均优于 3 个单一模态的精确度。文本模态特征的精确度约69.0%，音频模态的精确度约 66.9%，视频模态的

33、精确度约 65.3%，而多模态组合平均可达到约70%的精确度，其中 3 种模态的组合精确度最终收敛约为 76%。01020304050600.30.40.50.60.70.8精确度轮次文本音频视频文本+音频文本+视频音频+视频文本+音频+视频图5CMU-MOSEI 数据集上精确度曲线本文还以 F1 得分为判断标准，对比每组实验结果，来证明在本文的情感分析任务中使用多模态的效果优于单模态（T 为文本、A 为音频、V 为视频）。表 24 为 3 个数据集上的 F1 得分。表2CMU-MOSI 上拼接融合的 F1 得分%模态得分T77.6A55.8V60.3T+A80.5T+V79.4A+V77.8

34、T+A+V80.1表3IEMOCAP 上拼接融合的 F1 得分%模态得分T60.9A49.4V31.9T+A62.6T+V62.0A+V61.7T+A+V63.0表4CMU-MOSEI 上拼接融合的 F1 得分%模态模态融合方式T71.9A55.4V61.9T+A72.6T+V73.6A+V72.1T+A+V74.3由表 24 可知，多个模态组合的 F1 得分均优于单一模态，其中 3 种模态组合的得分最高。综上，结合精确度与 F1 得分，本文利用实验证明了多个模态的表现比单一模态表现更好，识别的效果更高。同时也注意到采用了 3 种模态融合方法后比采用单一文本模态识别的 F1 得分高了约 2 个

35、百分点，在此给出分析。首先，模型的训练数据量和质量对于融合模态的效果影响很大。如果融合模态的数据集规模较小，或者其中某些模态的数据质量不高，可能限制了整体的效能提升。其次，3 种模态的信息是否互补也是影响融合效果的关键因素。如果音频、视频和文本中的56应用科技第51卷信息存在大量冗余或相似性较高，那么融合的效果可能会受到限制。此外，文本模态更易于处理和分析、更具有可解释性、更易于获取和标注，可能导致文本模态表现较好，成为主导模态。最后，融合多种模态的模型相对于单一文本模式的模型更为复杂。对于这个任务，参数配置对于效果提升较为重要，后续继续调整参数可能对性能有一定提升。2.2.2融合方法对比实验

36、由于在上面的实验中的多个模态的融合方式都是直接拼接，因此本文将注意力机制加入模态融合，利用注意力机制的优势放大 3 个模态中重要的信息，获取具有更加丰富信息的融合特征，提升识别效果。首先分别在 3 个数据集的测试集上对 3 个模态的不同融合方式进行实验并记录 50 轮次的精确度，本文绘制了 3 个模态 2 种融合方式的每次实验的精确度曲线图，如图 68 所示。0.60.70.80.9拼接基于注意力0102030405060轮次精确度图6CMU-MOSI 数据集上拼接与注意力融合精确度曲线0.450.500.550.600.650.70精确度拼接基于注意力0102030405060轮次图7IEM

37、OCAP 数据集上拼接与注意力融合精确度曲线0.50.60.70.8精确度0102030405060轮次拼接基于注意力图8CMU-MOSEI 数据集上拼接与注意力融合精确度曲线由图 68 可以看出，将注意力机制应用于融合，在一定程度上可以提高识别精确度，并且能够缩短收敛时间。计算二者的 F1 得分指标，比较识别性能。表57 为模型在3 个数据集上的F1 得分。表 5CMU-MOSI 上的 F1 得分%模态不同融合方式得分拼接注意力T+A80.580.9T+V79.479.7A+V77.878.1T+A+V80.181.0表 6IEMOCAP 上的 F1 得分%模态不同融合方式得分拼接注意力T+

38、A62.663.3T+V62.062.8A+V61.762.1T+A+V63.063.4表 7CMU-MOSEI 上的 F1 得分%模态不同融合方式得分拼接注意力T+A72.673.7T+V73.674.1A+V72.172.5T+A+V74.375.1如表 57 所示，通过计算得到的 F1 得分也可以看出基于注意力融合相较拼接融合而言 F1 得分指标在3 个数据集上分别提升了0.9%、0.4%和0.8%，即情感识别效果优于拼接融合特征。本文继续对 2 种融合方式进行实验，以loss 收敛速度作为评价指标。当训练模型的损失曲线收敛的越快，代表模型学习到了数据中更多的信息

39、，从而在相同数量的迭代次数下，使模型的训练误差更小。这也意味着模型可以更好地泛化到未见过的数据上，因为模型已经学会了数据中的共性特征，而不是只学习了数据集本身的特定属性。实验绘制了在拼接融合和基于注意力融合在训练学习时的 loss 损失函数的前 50 轮的损失函数曲线。图 911 为训练损失曲线。00.20.40.60.81.01.21.4损失拼接基于注意力102030405060轮次图9CMU-MOSI 数据集上训练损失曲线00.61.21.8损失102030405060轮次拼接基于注意力图10IEMOCAP 数据集上训练损失曲线第1期文培煜，等：多模态在情感识别中的研究与应用57拼接基于注

40、意力10203040506001234损失轮次图11CMU-MOSEI 数据集上训练损失曲线由图 911 可见，训练学习时本文所使用的方法都可以使模型收敛，然而，基于注意力融合的特征进行训练的损失更小，且其收敛点出现的更早，说明对于同一个模型而言，基于注意力融合特征比直接拼接的特征有着更快的收敛速度，效果更好。2.2.3模型对比实验本文还在 CMU-MOSI 数据集上与支持向量机(supportvectormachines,SVM)、LSTM 进行了对比实验。F1 得分结果如表 8 所示。表 8CMU-MOSI 上的 F1 得分%模态方法SVMLSTM基于注意力的BiGRU拼接拼接注意力融合拼

41、接注意力融合T75.577.277.6A58.159.555.8V53.454.960.3T+A75.878.579.180.580.9T+V76.778.779.179.479.7A+V58.661.461.877.878.1T+A+V77.980.180.680.181.0LSTM 在对比实验中的表现均优于 SVM 的表现，这是因为 SVM 在对话语进行分类时无法掌握话语的上下文信息，无法感知话语存在的语境信息。从表 8 可以看出，基于注意力的 BiGRU 在单模态与拼接模态的实验中总体优于 LSTM。这再次证实，尽管 2 个网络都可以访问上下文信息，但基于注意力的 BiGRU 较 LST

42、M 能力更强，能够捕获上下文中的关键信息。表 8 中还证明了不同融合方式对结果也存在影响，在同一模型下，基于注意力融合的表现强于拼接融合，可以得到更有效的融合特征。表 8 的数据还体现了多模态的表现是优于单一模态的，不同模态通过互补信息，能够得到效果更好的融合特征。3结论本文对多模态在情感识别中的应用进行了研究，提出了一个基于模态融合的情感识别网络模型，通过多模态融合构建融合特征，从而获得更好的分类效果。对模型进行实验并得出结论如下：1）将多模态学习应用在情感识别邻域，多模态效果均好于单一模态，其中同时利用 3 个模态的效果最优。2）本文提出了一种基于模态融合的情感识别网络框架。特征融合模块中

43、基于注意力融合能够得到表现良好的多模态融合特征。在特征增强模块中，将注意力机制与双向循环网络 BiGRU 结合，充分地捕捉多模态融合特征的上下文信息，得到信息更加丰富且全面的新表示。3）本文提出的网络模型的 F1 得分均高于SVM 和 LSTM，达到了 81.0%。本文提出的基于模态融合的情感识别网络在识别性能上有较好的表现，有一定的应用价值。参考文献：张悦.基于深度学习的语音情感识别 D.成都:电子科技大学,2022.1郑艳,陈家楠,吴凡,等.基于 CGRU 模型的语音情感识别研究与实现 J.东北大学学报(自然科学版),2020,41(12):16801685.2WANG Baoxin.Di

44、sconnected recurrent neural networksfortextcategorizationC/Proceedingsofthe56thAnnualMeetingoftheAssociationforComputationalLinguistics.Melbourne:Association for Computational Linguistics,2018:23112320.3LIN Zhouhan,FENG Minwei,et al.A structured self-attentivesentenceembeddingC/Conferencepaperin5thI

45、nternational Conference on Learning Representations.Toulon:ICLR,2017.4WANGYequan,SUNAixin,HANJialong,etal.Sentimentanalysis by capsulesC/Proceedings of the 2018 WorldWide Web Conference.Lyon:International World WideWebConferencesSteeringCommittee,2018:11651174.5TENGZhiyang,VODT,ZHANGYue.Context-sens

46、itivelexicon features for neural sentiment analysisC/Proceedingsofthe2016ConferenceonEmpiricalMethodsinNaturalLanguageProcessing.Austion:AssociationforComputationalLinguistics,2016:16291638.6 下转第 97 页 58应用科技第51卷KLANNGA,BRTHRL,BIESIADNYTJ.Temperaturedistortiongeneratorforturboshaftenginetesting:NASA-

47、TM-83748R.NASA,1984.7RICHARDA,ROBERTJ.Theeffectofinlettemperaturedistortion on the performance of a turbo-fan enginecompressorsystem:AIAA70625R.AIAA,1970.8李志平,陈家辉,朱星宇,等.压力温度组合畸变下航空发动机失速/喘振适航审定 J.航空动力学报，2023,28(12):30503062.9李丹.进口流场温度畸变对航空发动机性能影响研究D.成都:电子科技大学,2009.10黄顺洲.压力温度组合畸变对发动机稳定性影响的数值研究 J.燃气涡轮试

48、验与研究,2002(1):2832.11高杨,王铁军,佟尧,等.一种基于卡尔曼滤波改善控制器的温度畸变控温系统设计 J.电子器件,2022,45(3):658664.12张骏,朱玲,石建成,等.小流量离心压气机温度畸变器设计和试验 J.航空动力学报,2022,37(1):173180.13张宇浩,钟易成.偏流板对舰载机进气道温度畸变影响研究 C/中国航天第三专业信息网第四十届技术交流会暨第四届空天动力联合会议论文集S10 发动机内外流一体化相关技术.昆明:昆明理工大学,2019:1321.14罗玛,李建中,向立军,等.小流量温度畸变发生器工作特性试验研究 J.推进技术,2017,38(12):

49、28362842.15本文引用格式：佟尧,刘旭峰,刘潇.航空发动机进气试验台畸变数值模拟研究 J.应用科技,2024,51(1):9297.TONGYao,LIUXufeng,LIUXiao.AnumericalsimulationstudyontheinletdistortionofaeroenginetestrigJ.Appliedscienceandtechnology,2024,51(1):9297.上接第 58 页 TAY Y,TUAN L A,HUI S C,et al.Attentive gatedlexiconreaderwithcontrastivecontextualco-

50、attentionforsentiment classificationC/Proceedings of the 2018Conference on Empirical Methods in Natural LanguageProcessing.Brussels:Association for ComputationalLinguistics,2018:34433453.7SOCHERR,PERELYGINA,WUJY,etal.Recursivedeep models for semantic compositionality over asentimenttreebankC/Proceed

展开阅读全文