收藏 分销(赏)

基于深度学习的视听多模态情感识别研究_李倩倩.pdf

上传人:自信****多点 文档编号:291034 上传时间:2023-07-08 格式:PDF 页数:5 大小:1.13MB
下载 相关 举报
基于深度学习的视听多模态情感识别研究_李倩倩.pdf_第1页
第1页 / 共5页
基于深度学习的视听多模态情感识别研究_李倩倩.pdf_第2页
第2页 / 共5页
基于深度学习的视听多模态情感识别研究_李倩倩.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年第 3 期计算机与数字工程收稿日期:2022年8月10日,修回日期:2022年9月19日基金项目:贵州省科学技术基金项目“基于深度图像的原生态民族舞蹈典型动作识别研究”(编号:黔科合基础 20201Y262);贵州省教育厅青年科技人才成长项目“基于语言值计算的数字动漫产品情感化配乐技术研究”(编号:黔教合KY字 2018 112);贵州大学引进人才项目“基于语义驱动的音乐与图像情感识别技术研究”(编号:贵大人基合字(2018)16号)资助。作者简介:李倩倩,女,研究方向:情感计算,数字化设计。王卫星,男,博士研究生,副教授,研究方向:人机交互计算与分析,数字化设计,情感计算。杨勤,

2、男,教授,研究方向:设计思维与方法,人机工程学。陈治灸,女,研究方向:产品创新设计。秦晴,女,研究方向:图像处理。1引言随着移动设备的发展,图像和视频数据近年来呈爆炸式增长,这种现象使视觉媒体内容的计算理解成为一个热门话题。在传统的研究中,研究者往往侧重于对象检测和场景识别等方向的研究。近基于深度学习的视听多模态情感识别研究李倩倩王卫星杨勤陈治灸秦晴(贵州大学机械工程学院贵阳550025)摘要情感在同一情境下通常是逐渐变化的,而目前视听情感识别研究大部分集中在融合静态人脸图像特征和语音特征上,忽略了视频图像序列之间的时序关系,也忽略了姿态的作用。因此论文结合卷积神经网络(VGG)和长短期记忆网

3、络(LSTM)构建了一个基于深度神经网络的视听多模态情感识别模型,整合了表情、姿态和语音的特征来进行视听情感识别。首先,使用VGG提取人脸图像和姿态图像的视觉特征,然后使用LSTM提取人脸图像序列和姿态图像序列的时序特征,同时使用opensmile提取音频特征,最后将提取的人脸、姿态和音频特征用DNN网络进行多特征的拼接融合以及情感分类。实验证明,与融合静态人脸图像特征与语音特征进行视听情感识别的方法相比,论文模型取得了更好的识别率,而加上姿态特征后,准确率又提升了6.1%。关键词深度学习;情感识别;视觉特征;时序特征;特征融合中图分类号TP39DOI:10.3969/j.issn.1672-

4、9722.2023.03.029Research on Audiovisual Multimodal Emotion Recognition Based onDeep LearningLI QianqianWANG WeixingYANG QinCHEN ZhijiuQIN Qing(School of Mechanical Engineering,Guizhou University,Guiyang550025)AbstractEmotions usually change gradually in the same context.At present,most research on a

5、udio-visual emotion recognition focuses on the fusion of static facial image features and voice features,ignoring the temporal relationship between video imagesequences and the role of gestures.Therefore,this paper combines convolutional neural network(VGG)and long short-term memory network(LSTM)to

6、construct an audio-visual multimodal emotion recognition model based on deep neural network,which integrates the features of expression,posture and speech to perform audio-visual emotion recognition.Firstly,VGG is used to extractthe visual features of face images and pose images,then LSTM is used to

7、 extract the time series features of face image sequencesand pose image sequences,and opensmile is used to extract audio features.Finally,the extracted face,pose,and audio featuresDNN network performs multi-feature splicing and fusion and emotion classification are used.Experiments show that compare

8、d withthe method of fusing static facial image features and voice features for audiovisual emotion recognition,the model in this paperachieves a better recognition rate,and after adding gesture features,the accuracy rate is increased by 6.1%.Key Wordsdeep learning,emotion recognition,visual features

9、,time-series features,feature fusionClass NumberTP39总第 401期2023 年第 3期计算机与数字工程Computer&Digital EngineeringVol.51No.3695第 51 卷年来,越来越多的研究者开始关注视频中情感的识别,这是因为情感能够引起观众强烈的共鸣,在观看过程中起着至关重要的作用1。虽然近几年视频的情感识别研究取得了一些成果,但由于情感的复杂性和多样性,以及视频数据的异构性,国内外在视频情感识别方面的研究成果还是相对较少且识别率不高。传统的情绪识别方法是基于某一时刻的静态图像手工设计的特征进行识别24,缺点较为明

10、显,仅使用某一时刻的静态图像进行情感识别缺乏动态时域信息且准确率低。随着大数据集的可用性,深度学习已经成为机器学习的一种通用方法,在许多计算机视觉和自然语言处理任务中产生了最先进的结果5。早期深度学习技术在情感识别领域的研究主要集中在人脸表情识别方向 610。近年来,一些研究开始将深度学习应用于视听情感识别。Zhang S等11提出了基于多模态深度卷积神经网络(DCNN)方法,在深度模型中融合语音和人脸数据进行视听情感识别。D.S.Ortega等12提出了一种基于迁移学习和多模态融合的视频情感识别方法。通过预训练的CNN从视频帧中提取面部特征,并将这些特征与从受试者的声音中提取的特征相融合识别

11、视频情感。Zhang S13采用混合深度模型来进行情感识别任务,该模型首先利用 CNN和3D-CNN分别学习音频和视觉特征,然后将视听片段特征融合到深度信念网络(DBNs)中进行视听情感识别。Ma Y14提出了一种基于深度加权融合的多模态情感识别模型。用 2DCNN和 3DCNN分别提取语音和面部表情图像的情感特征,然后利用DBN对上述两个特征提取器学习到的情感特征进行融合,最后利用支持向量机进行情感分类。Zhang Y15等引入因子分解双线性池(FBP)来深度融合音频和视频的特征。通过嵌入的注意机制从不同的模式中选择特征,得到音频和视频的情感相关特征。然后提取的特征融合到一个FBP块中,预测

12、最终的情感。尽管通过深度学习挖掘视听情感信息已经取得了重大进展,但是现有的方法在视频情感建模中表达的时间关系仍然不够有效,并且大多视听情感识别研究都是融合人脸和语音数据,忽略了姿态的作用。因此本文采用多模型融合的混合神经网络来预测视频情感,框架如图1所示。该模型可以概括为预处理、特征提取、特征融合和分类器四个部分。将视频进行分离音频、提取视频帧等预处理后,使用 VGG-LSTM 分别对预处理后的人脸序列图像和姿态序列图像的视觉特征与时序进行提取,使用opensmile提取音频特征,然后将提取的人脸、姿态和语音特征拼接并输入DNN,由DNN网络进行多特征的拼接融合以及情感分类。利用GEMEP三模

13、态情感数据集和Video Blooper数据集测试该模型识别的准确率,以验证其在情感识别任务中的性能。OpenSMILE视频帧序列预测结果视频帧序列预处理预处理VGG16VGG16LSTMLSTM音频图1VGG-LSTM多模态深度学习模型2方法描述2.1预处理在提取特征之前,通常需要对视频进行一些预处理。常见的视频预处理任务包括分离音频、提取帧、识别人脸和姿态、裁剪人脸和姿态图像、删除背景等。2.1.1表情预处理使用 OpenCV 工具将视频样本转变为视频帧序列,检测人脸并将图像进行灰度化处理,最后使用 Dlib工具进行面部图像尺寸归一化到 224224大小。处理过程及结果如图2所示。李倩倩等

14、:基于深度学习的视听多模态情感识别研究6962023 年第 3 期计算机与数字工程图像灰度化 尺寸归一化人脸检测视频帧提取图2人脸预处理处理2.1.2姿势预处理由于数据集的限制,本文姿态特征部分只使用两个数据集都能可见的鼻子,耳朵,眼睛,脖子,肩膀和手臂关节。使用OpenPose识别并输出人体上半身骨骼点,然后以颈部关节为中心在过滤后的关节中绘制一个骨架,并将此骨架插入尺寸为224224的黑色背景框架中。处理过程及结果如图3所示。尺寸归一化提取骨架图3姿态图像预处理2.1.3语音预处理要识别视频中语音的情感,首先将视频中的音频提取出来进行预处理,对音频信号的预处理包含以下步骤:预加重、分帧、加

15、窗等。然后利用开源工具 opensmile 从音频中提取音频特征,如响度、音高、基音频率、基音范围、共振峰、梅尔频率倒谱系数、语音强度和语音速率等特征。2.2VGG-LSTM特征提取模型由于神经网络对不同类型数据的良好适用性,因此选择VGG网络来实现图像视觉特征的提取。为了更有效地提取人脸和姿态的视觉特征,设置了两种VGG网络模型。针对人脸的特征提取,使用了 VGGface 模型,此模型是在 VGG16 的基础上通过人脸数据集LFW(Labeled Faces In the Wild)训练得到的,适用于人脸识别16。针对姿态特征提取使用了VGG16网络。VGG模型只用于提取图像的视觉特征,因此

16、去掉了softmax层。将经过VGG网络提取的视频图像视觉特征按时间顺序输入到LSTM中以提取图像序列的时序特征。LSTM在处理时序相关的输入时,有着很大的优势17。LSTM采用双向循环卷积网络的架构,对特征图在时间轴前后的依赖关系进行建模。LSTM中引入三个门:输入门it,输出门ot,遗忘门ft。对输入的信息做保留和筛选,具体式如下所示:ft=(xt*Uf+ht-1*Wf)(1)it=(xt*Ui+ht-1*Wi)(2)ot=(xt*Uo+ht-1*Wo)(3)Ct=ft*Ct-1+it*C?t(4)C?=tanh(xt*Uc+ht-1*Wc)(5)ht=ot*tanh(Ct)(6)其中,x

17、t、ht-1分别是指t时刻的输入和输出,Ct-1是上一时间步的神经元状态,C?是输入的中间状态,Ct表示利用Ct-1与C?更新的得到的当前神经元状态信息。Wf、Wc、Wi、Wo、Uf、Uc、Ui、Uo分别指不同控制门的权重矩阵,指代sigmoid激活函数;tanh指代双曲正切激活函数。2.3特征融合深度神经网络(Deep Neural Network,DNN)数据融合领域已经有了较为广泛的应用18。本文使用 DNN 网络进行多特征的拼接融合以及情感分类,图4给出了特征融合的网络结构。将提取的人脸、姿态和语音特征进行拼接处理,输入到DNN网络中进行预测。DNN网络有3层,包含两个隐藏层和一个输出

18、层。分别含有1024、128、5个神经元。最后一层由softmax激活,其他层由Relu激活。人脸特征姿态特征语音特征特征拼接10241285图4DNN特征融合网络结构3实验及分析3.1实验数据集1)GEMEP三模态情感数据集该数据集是Automatic Face&Gesture Recognition and Workshops 在 2011 年的 IEEE InternationalConference上提供的一个数据集19。整个集中包含有145段长度为1s2s的视频,每段视频中都包含有表情、肢体动作、语音三个模态的信息。该数据集包含17种情感。手动将这17种情感类别归类成了5种:高兴、悲

19、伤、害怕、厌恶、生气。2)Video Blooper 数据集该数据集是通过使用诸如“bloopers”、“green697第 51 卷screen”等关键字从YouTube视频中选择包含视频bloopers的视频构建的20。数据集分为训练、测试和验证集。由于GEMEP三模态情感数据集视频片段多在1s2s,而Video Blooper数据集中视频的长度在1s4s,因此将超过2s的视频剪辑为两段,合并两个数据集。最终得到的数据集有560例,其中高兴132例,悲伤 111 例,害怕 95 例,生气 117 例,厌恶 105例。3.2实验环境配置本文模型在 NVIDIA GTX 1080 ti平台上进

20、行训练及测试。在我们的实验中,70%的样本用作训练集,15%的样本用作验证集,其余15%的样本则用作测试集。在训练过程中,模型的训练采用Adam优化器进行优化,MSE设置为loss函数。偏置初始化为零,学习率设置为0.001,Dropout设置为0.5。3.3评价指标以准确率(Accuracy Rate,AR)作为深度学习网络的视听多模态情感识别模型的评价指标,表达式如下:Accuracy=TP+TNTP+TN+FP+FN(7)其中,TP 为被模型正确预测为正例的样本数量。TN为被模型正确预测为负例的样本数量,FP为被模型错误预测为正例的样本数量,FN为被模型错误预测为负例的样本数量。3.4实

21、验结果及分析为了验证本文模型的有效性,将本文模型与前人的研究以及几种多模态融合模型进行对比,结果见表1。从实验结果可以看出,只融合人脸图像特征和语音特征进行视听情感识别时,本文方法与文献 21、15、23 相比,准确率有了一定的提升。与传统学习模型SVM相比,基于深度学习模型准确率更高。与 LSTM-DNN模型和 CNN-DNN模型相比,本文模型准确率最高,说明经过VGG-LSTM提取人脸图像的视觉特征和时序特征后融合语音特征进行视听情感识别能获得更高的识别准确率。最终,融合人脸图像特征、姿态特征和语音特征后,SVM模型、CNN-DNN模型、LSTM-DNN模型还有本文模型,准确率都分别提高了

22、5.1%、4.7%、5.2%和6.1%,说明姿态在视听情感识别中是有作用的。综上所述,可以说明本文模型能够有效地进行视听情感识别分类,同时也说明了跨模态、跨时间的信息整合是提高视听情感识别性能的一种有效方法。表1不同模型的分类精度模态文献 21文献 15文献 23SVMCNN-DNNLSTM-DNN本文模型人脸+语音0.6180.6240.6840.4830.6140.6760.709人脸+姿态+语音-0.5340.6610.7280.770图5显示了本文模型的混淆矩阵。该分类器的准确率为77.10%,高兴和悲伤在五种情绪中的识别准确率最高,分别为87%和81%。而害怕的识别准确率较低,只达到

23、65%。这可能是由于数据集中“害怕”样本数量较少,导致模型无法充分学习害怕的特征进行情绪分类。但召回率基本都在60%以上。可以说明本文模型在视听情感识别方面的有效性。高兴悲伤害怕厌恶生气高兴悲伤害怕厌恶生气1.00.80.60.40.20.00.870.030.110.070.040.000.780.090.110.060.000.010.650.020.030.030.060.020.740.060.000.110.130.060.81图5多模态深度学习模型混淆矩阵4结语本文从人脸表情、姿态和语音三个模态分析和识别了视频的情感,强调了动态情感识别的重要性。与目前大部分视听情感识别研究不同,本

24、文还考虑了姿态的作用。未来的工作将考虑融合文字、生理信号等更多的模态来提高视频情感识别模型的性能,以及调查视听信息之间的相互关系。参 考 文 献1Nie W,Yan Y,Song D,et al.Multi-modal feature fusionbased on multi-layers LSTM for video emotion recognitionJ.Multimedia Tools and Applications,2020(prepublish):1-10.2Ebrahimi Kahou S,Michalski V,Konda K,et al.Recurrent neural n

25、etworks for emotion recognition in video C/Proceedings of the 2015 ACM on International Conference李倩倩等:基于深度学习的视听多模态情感识别研究6982023 年第 3 期计算机与数字工程on Multimodal Interaction,2015:467-474.3Wang J,Li B,Hu W,et al.Horror movie scene recognition based on emotional perception C/2010 IEEE International Confere

26、nce on Image Processing.IEEE,2010:1489-1492.4You Z H,Lei Y K,Zhu L,et al.Prediction of protein-protein interactions from amino acid sequences withensemble extreme learning machines and principal component analysisC/BMC Bioinformatics.BioMed Central,2013,14(S8):S10.5Liu M,Wang R,Li S,et al.Combining

27、multiple kernelmethods on riemannian manifold for emotion recognitionin the wild C/Proceedings of the 16th International Conference on Multimodal Interaction,2014:494-501.6Fan Y,Lam J C K,Li V O K.Video-based emotion recognition using deeply-supervised neural networksC/Proceedings of the 20th ACM In

28、ternational Conference onMultimodal Interaction,2018:584-588.7Lee J,Kim S,Kim S,et al.Context-aware emotion recognition networks C/Proceedings of the IEEE InternationalConference on Computer Vision,2019:10143-10152.8Hu M,Wang H,Wang X,et al.Video facial emotion recognition based on local enhanced mo

29、tion history imageand CNN-CTSLSTM networks J.Journal of Visual Communication and Image Representation,2019,59:176-185.9Abdulsalam W H,Alhamdani R S,Abdullah M N.Facialemotion recognition from videos using deep convolutionalneural networksJ.International Journal of MachineLearning and Computing,2019,

30、9(1):14-19.10Zhang T,Zheng W,Cui Z,et al.Spatial-temporal recurrent neural network for emotion recognition J.IEEETransactions on Cybernetics,2018,49(3):839-847.11Zhang S,Zhang S,Huang T,et al.Multimodal deepconvolutional neural network for audio-visual emotionrecognition C/Proceedings of the 2016 AC

31、M on International Conference on Multimedia Retrieval,2016:281-284.12Ortega J D S,Cardinal P,Koerich A L.Emotion recognition using fusion of audio and video featuresC/2019IEEE International Conference on Systems,Man and Cybernetics(SMC).IEEE,2019:3847-3852.13Zhang S,Huang T,et al.Learning affective

32、featureswith a hybrid deep model for audiovisual emotion recognition J.IEEE Transactions on Circuits and Systemsfor Video Technology,2017,28(10):3030-3043.14Ma Y,Hao Y,Chen M,et al.Audio-visual emotion fusion(AVEF):A deep efficient weighted approachJ.Information Fusion,2019,46:184-192.15Zhang Y,Wang

33、 Z R,Du J.Deep fusion:An attentionguided factorized bilinear pooling for audio-video emotion recognition C/2019 International Joint Conferenceon Neural Networks(IJCNN).IEEE,2019:1-8.16Huang G B,Mattar M,Berg T,et al.Labeled Faces inthe Wild:A Database for Studying Face Recognitionin Unconstrained En

34、vironments C/Month,2008.17卿粼波,熊文诗,周文俊,等.基于多流CNN-LSTM网络的群体情绪识别 J.计算机应用研究,2018,35(12):3828-3831.QING Linbo,XIONG Wenshi,ZHOU Wenjun,et al.Crowdemotionrecognitionbasedonmulti-streamCNN-LSTM networks J.Application Research of Computers,2018,35(12):3828-3831.18张红,程传祺,徐志刚,等.基于深度学习的数据融合方法研究综述 J.计算机工程与应用,20

35、20,56(24):1-11.ZHANG Hong,CHENG Chuanqi,XU Zhigang,et al.Survey of Data Fusion Based on Deep Learning J.Computer Engineering and Applications,2020,56(24):1-11.19Bnziger T,Mortillaro M,Scherer K R.Introducing theGeneva multimodal expression corpus for experimentalresearch on emotion perception J.Emot

36、ion,2012,12(5):1161.20Carlos ToxtliEB/OL.https:/ blooper dataset for automatic video edition21Liu C,Tang T,Lv K,et al.Multi-feature based emotion recognition for video clipsC/Proceedings of the20th ACM International Conference on Multimodal Interaction,2018:630-634.22Birhala A,Ristea C N,Radoi A,et al.Temporal aggregation of audio-visual modalities for emotion recognitionC/2020 43rd International Conference on Telecommunications and Signal Processing(TSP).IEEE,2020:305-308.699

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服