基于注意力双向GRU网络的多模态脑电情感识别_陈景霞.pdf

资源描述

1、第4 1卷第3期陕西科技大学学报 V o l.4 1N o.3 2 0 2 3年6月 J o u r n a l o fS h a a n x iU n i v e r s i t yo fS c i e n c e&T e c h n o l o g y J u n.2 0 2 3*文章编号:2 0 9 6-3 9 8 X(2 0 2 3)0 3-0 1 9 2-0 8基于注意力双向G R U网络的多模态脑电情感识别陈景霞,刘洋,张鹏伟,雪雯(陕西科技大学电子信息与人工智能学院,陕西西安 7 1 0 0 2 1)摘要:脑电(E l e c t r o e n c e p h a

2、 l o g r a m,E E G)等生理信号凭借其独有的客观性,在情感识别领域已经成为热门的研究对象.针对单一模态特征不够完备的问题,本文提出一种基于注意力双向门控循环单元(G a t e dR e c u r r e n tU n i t,G RU)神经网络的多模态脑电情感识别方法,用M u l-AT-B i G RU表示.该方法首先通过注意力机制融合脑电、眼动这两种模态的三种不同特征,实现不同模态特征间的全局交互,再将得到的多模态融合特征输入带有注意力机制的双向G RU网络进行深度语义特征提取和情感分类.该方法通过挖掘不同模态数据间的互补关系,使学习到的深层情感相关特征更具判别性.所提

3、方法在多模态数据集S E E D-I V上进行实验,被试内平均分类准确率达到9 5.1 9%,比三种单一模态特征的平均分类准确率分别提升了2 0.2 2%、2 0.0 4%和1 7.5%;被试间的平均分类准确率达到6 2.7 7%,优于目前一些同类方法,验证了所提方法在多模态脑电情感识别上的有效性和泛化性.关键词:脑电;情感识别;多模态特征融合;双向G RU;注意力机制中图分类号:T P 3 1 1 文献标志码:AM u l t i m o d a lE E Ge m o t i o nr e c o g n i t i o nb a s e do na t t e n t i o nb i

4、d i r e c t i o n a l g a t e dr e c u r r e n tu n i tn e t w o r kCHE NJ i n g-x i a,L I UY a n g,Z HANGP e n g-w e i,XU E W e n(S c h o o l o fE l e c t r o n i c I n f o r m a t i o na n dA r t i f i c i a l I n t e l l i g e n c e,S h a a n x iU n i v e r s i t yo fS c i e n c e&T e c h n o l o

5、 g y,X i a n7 1 0 0 2 1,C h i n a)A b s t r a c t:P h y s i o l o g i c a l s i g n a l s s u c ha s e l e c t r o e n c e p h a l o g r a m(E E G)h a v eb e c o m ep o p u l a r r e-s e a r c ho b j e c t s i nt h e f i e l do f e m o t i o nr e c o g n i t i o nd u e t o t h e i ru n i q u eo b j

6、e c t i v i t y.T os o l v e t h ep r o b l e mt h a t t h e s i n g l em o d a l f e a t u r e i sn o t c o m p l e t e e n o u g h,t h i sp a p e rp r o p o s e s am u l t i m o-d a lE E Gb a s e de m o t i o nr e c o g n i t i o nm e t h o db yu s i n ga t t e n t i o nb i d i r e c t i o n a lG

7、a t e dR e c u r r e n tU n i t(G RU)n e u r a l n e t w o r k,w h i c h i s r e p r e s e n t e db yM u l-AT-B i G RU.A t f i r s t,t h e a t t e n t i o nm e c h a n i s mi su s e dt of u s et h r e ed i f f e r e n tf e a t u r e so ft w om o d a l i t i e si n c l u d i n gE E Gs i g n a l sa n

8、de y em o v e m e n td a t a t oa c h i e v eg l o b a l i n t e r a c t i o nb e t w e e nd i f f e r e n tm o d a l f e a t u r e s.T h e n,t h eo b t a i n e dm u l t i m o d a l f u s e df e a t u r e sa r e i n p u t i n t ot h eM u l-AT-B i G RUn e t w o r kf o rd e e pe m o t i o n a l f e a

9、t u r e e x t r a c t i o na n dc l a s s i f i c a t i o n.T h eM u l-AT-B i G RUm o d e lm a k e s t h e l e a r n e dd e e pe m o t i o n-r e l a t e df e a t u r e sm o r eo b v i o u sa n dd i s c r i m i n a t i v eb ym i n i n gt h ec o m p l e m e n t a r y*收稿日期:2 0 2 2-1 2-2 0基金项目:国家自然科学基金项

10、目(6 1 8 0 6 1 1 8);陕西科技大学博士科研启动基金项目(2 0 2 0 B J-3 0)作者简介:陈景霞(1 9 7 9),女,新疆石河子人,副教授,博士,研究方向:机器学习、脑电信号处理、脑机接口、情感计算DOI:10.19481/ki.issn2096-398x.2023.03.015第3期陈景霞等:基于注意力双向G R U网络的多模态脑电情感识别r e l a t i o n s h i p sb e t w e e nd i f f e r e n tm o d a ld a t a,t h u s i m p r o v e st h ee m o t i o nr

11、e c o g n i t i o np e r f o r m-a n c e.T h ec o m p a r a t i v ee x p e r i m e n t sa r ec a r r i e do u to nt h em u l t i m o d a ld a t a s e tS E E D-I V.T h ee x p e r i m e n t a l r e s u l t ss h o wt h a tt h ea v e r a g ei n t r a-s u b j e c te m o t i o nc l a s s i f i c a t i o n

12、a c c u r a c yo ft h ep r o p o s e dm e t h o dr e a c h e s9 5.1 9%,w h i c hi s2 0.2 2%,2 0.0 4%a n d1 7.5%h i g h e rt h a nt h a t o n t h r e e s i n g l e-m o d a l f e a t u r e s,r e s p e c t i v e l y.T h e a v e r a g e i n t e r-s u b j e c t c l a s s i f i c a t i o na c c u-r a c yo

13、 f t h ep r o p o s e dm e t h o dr e a c h e s6 2.7 7%,w h i c ha l s oo u t p e r f o r m so t h e ra v a i l a b l es i m i l a rc o m p a r a t i v em e t h o d s,v e r i f y i n gt h ee f f e c t i v e n e s sa n dg e n e r a l i z a t i o no ft h ep r o p o s e dm e t h o df o rm u l t i m o d

14、 a lE E Gb a s e de m o t i o nr e c o g n i t i o n.K e yw o r d s:E E G;e m o t i o nr e c o g n i t i o n;m u l t i m o d a l f e a t u r e f u s i o n;B i G RU;a t t e n t i o nm e c h a-n i s m0 引言情感在我们日常生活中的方方面面都起着重要的作用.随着人工智能的出现,1 9 9 5年情感计算这一概念首次被P i c a r d教授1提出,经过几十年的发展,如今情感人工智能已经变成2 1项新兴技

15、术之一.就目前来看,情感计算还面临着情感相关信息获取困难,情感识别精度不高等诸多挑战.人类的情感涉及主观经历、生理反应和行为反应,通过表情、言语和肢体动作等多种模态进行表达.因此,情感识别也包含了多种模态,即行为模式识别和生理模式识别2.行为识别是通过摄像头等设备采集人的面部表情和声音等外部信息进行情感识别,而生理模式识别是通过传感器采集人的脑电、眼电和肌电等信息进行情感识别.生理信号相比于外部行为信号具有不易伪装,更真实可靠等特点,因而用生理信号进行情感识别更加客观有效.近年来,脑电波(e l e c t r o e n c e p h a l o g r a m,E E G)已经越来越多地

16、用于情感识别并取得了很大的进展.陈景霞等3曾提出了一种基于深度卷积神经网络的E E G情感识别方法,在效价和唤醒度上的情感二分类的性能都比传统分类器有较大提升.Q i u等4提出了一种自监督的神经网络G C C捕获E E G脑网络拓扑特征,该方法的分类精度最高可达到8 1.1%.X i n g等5提出了一种多通道脑电情感识别框架,利用脑电特征序列的上下文相关性提高分类精度,该方法在D E A P数据集进行情感二分类实验效价维度准确率可达8 1.1%,唤醒度维度可达7 4.3 8%.上述基于脑电等单一模态的情感识别方法虽然取得了较大的进展,但单一模态的生理信息很容易受到

17、各种噪声的影响,很难完整的反映情感状态,识别精度不高,所以使用多种模态信息来进行情感识别是很有必要的.早期的多模态情感识别大多是通过手工特征提取和传统机器学习分类器进行,近年来随着深度学习的不断发展,越来越多的研究人员将其应用在多模态情感识别领域.例如,L u等6使用一种多模态情感识别框架分别在特征级和决策级对E E G数据和眼动数据进行融合,并通过实验证明了多模态情感识别准确率相较于单一模态得到显著提高.Q i u等7提出了一种相关注意网络(C AN)的多模态情感识别模型,通过计算不同门控递归单元的相关性及引入注意力机制,将E E G和眼动两个模态数据进行特征融合和深度学习,实验结果表明,该

18、方法在S E E D数据集上情感三分类的平均准确率为9 4.0 3%.T z-i r a k i s等8提出了一种端对端的多模态情感识别模型,在语音和视频两种模态进行训练,在效价和唤醒度两个维度上都取得了很好的效果.T a n等9提出了一种用于人机交互(HR I)系统的多模态情感识别方法,将E E G数据和面部表情数据进行融合,最终识别准确率达到了8 3.3 3%.Wu等1 0提出一种关键子网络选择算法来研究脑功能特征,通过深度典型相关分析将脑电和其他生理信号相结合来进行情感识别,最终识别平均准确率可达到9 5.0 8%.Z h a o等1 1提出了基于双向L S TM和注意力机制的表情-脑电

19、情感识别模型,采用双线性卷积网络融合表情和脑电两个模态的特征,然后通过带有注意力网络的双向L S TM进行情感识别,在D E A P数据集效价和唤醒度上的准确率分别为8 6.2%和8 6.8%.尽管近年来研究者们提出了诸多多模态情感识别的研究方法,但依然存在两个方面的问题需要改善:一是不同模态数据之间差异较大,如何选择更有效的模态特征并将不同模态间的特征进行有效的融合.二是如何构建更加有效的深度模型来学习更具判别性的情感相关特征以提升情感分类精391陕西科技大学学报第4 1卷度.为解决这两大问题,本文从不同模态的特征选择、特征融合及深度模型构建这三个方面提出了新的方法.1 多模态特征融合及深度

20、模型构建多模态特征融合分为数据级融合、特征级融合、决策级融合和模型级融合四种方式1 2.其中,特征级融合分别提取不同单一模态的特征,使用贝叶斯决策理论、注意力机制等方法在特征层面进行融合,能够更好的实现不同特征间的交互,从而得到更多不同模态间的互补信息.本文从特征层面对多模态信息使用注意力机制进行融合,并构建基于注意力机制的双向门控循环单元(B i-d i r e c t i o n a lG a t e dR e c u r r e n tU n i t,B i G RU)模型,其具体结构如图1所示,对融合特征进行深度学习与情感分类.图1 M u l-AT-B i G RU模型1.1

21、多模态特征融合1.1.1 多模态特征选择和提取本文采用三种在单一模态中情感分类性能较好的E E G特征:微分熵(D i f f e r e n t i a lE n t r o p y,D E)特征、功率谱密度(P o w e rS p e c t r a lD e n s i t y,P S D)特征及眼动特征进行多模态融合研究,这三种特征的特点及提取方法如下:脑电D E特征提取:微分熵定义了连续随机变量的熵,脑电D E特征重点分析脑电信号频率和能量等信息.D u a n等1 3发现D E特征更适合于情感识别任务且能够很好的反映E E G信号的能量变化.通常,E E G信号可以分为五个不同的

22、频带,即:(1-4H z)、(4-8H z)、(8-1 3H z)、(1 3-3 0H z)、(3 0-5 0H z).D E特征的提取将E E G信号特征由原始的时域转到频域,然后在以上各频带提取信号D E特征.脑电P S D特征提取:功率谱密度定义了在时间序列上的信号数值随频率分布的规律,脑电P S D特征重点分析脑电活动随时间变化的特性,且P S D特征提取对信号稳定性没有太多要求,对脑电这一非平稳信号十分友好.本文作者在之前的研究中1 4已经验证了P S D特征在情感识别中具有较高的分类性能.本实验在上述5个频带提取P S D特征,获得结果作为多模态E E G信号的另一种特征.

23、眼动特征提取:除了E E G信号外,眼动数据可以反映吸引人注意力的因素,观察人的无意识行为.B r a d l e y等1 5对眼动信号和情感之间的关系的研究表明,当处于不同的情感状态下,人的眼球运动和瞳孔直径等会发生不同的变化,具体提取的眼动特征细节如表1所示.表1 眼动特征眼动参数提取的特征瞳孔直径(水平和竖直)0-0.2H z、0.2-0.4H z、0.4-0.6H z、0.6-1H z四个频带眼电数据的均值、标准差和D E特征瞳孔离散度(水平和竖直)均值、标准差注视时间均值、标准差眼睛扫视眼跳重复次数和眼跳幅度的均值和标准差;峰值速度的均值和标准差、平均速度、峰值加速度、峰值减速度、平

24、均加速度事件统计注视频率;眼睛注视时间的最大值、最小值和平均值;瞳孔离散度的最大值、最小值和平均值(水平和竖直);扫视频率;眼跳持续时间和眼跳幅度的最大值最小值和平均值;平均眼跳潜伏时间扫视距离1.1.2 基于注意力机制的多模态特征融合并非所有模态特征在情感分类中都具有同等的相关性,为了优先考虑更重要的模态,本文使用在自然语言处理中应用广泛的AT融合注意力网491第3期陈景霞等:基于注意力双向G R U网络的多模态脑电情感识别络1 6,将脑电数据的D E特征、P S D特征及眼动特征进行融合.该网络的具体结构如图1特征融合层所示.在将三种模态特征输入该注意力网络之前,使用了一个全连接层将其连接

25、.使用X表示全连接层输出数据,输入层中Xd表示D E特征,Xp表示P S D特征,Xe表示眼动特征.然后将全连接层的输出作为注意力网络的输入,注意力网络中进行的计算如下:PF=t a nh(WFX)(1)f u s e=s o f tm a x(TFPF)(2)F=XTf u s e(3)式(1)(3)中:f u s e表示注意权重特征向量,WF、F是注意力模型在训练中的投影参数,F表示模型输出即融合后的多模态特征向量.1.2 多模态深层特征提取在脑电和眼动这两种生理数据的采集过程中,都是基于时间线对数据进行采集,因此数据在时序上存在密切的上下文联系,本文采用循环神经网络(R e c u r

26、r e n tN e u r a lN e t w o r k,R NN)对脑电和眼电时序特征进行建模.G RU是一种特殊的R NN,它适合学习预测时间序列中间隔较长的事件以及数据间的依赖信息.具体来说,它解决了传统R NN梯度消失的问题,同时能够对长期依赖进行建模.为了更好的学习时间前后上下文之间的联系和简化计算,本文使用双向G RU模型对融合后的多模态特征进行深层特征提取与情感分类,其具体结构如图2所示,该模型同时受到先序信息所带来的正向反馈和后序信息所带来的逆向反馈,且更多的控制单元门的使用能够更好的避免过拟合,并且更多信息的结合也更有利于提升模型的分类精度.使用x=x1,x2,xt,x

27、N 来表示G RU单元的输入矩阵,其中N表示输入样本总数,t的取值介于0-N之间.每个G RU单元计算公式如下:X=ht-1xt(4)zt=(Wzht-1xt)(5)rt=(Wrht-1xt)(6)h t=t a nh(wrtht-1xt)(7)ht=(1-zt)ht-1+zth t(8)式(4)(8)中:ht-1表示上个节点输出的隐状态,zt、rt表示更新和重置两个门控单元的输出,h t表示经过重置门后的记忆内容,ht表示经过了门控单元的遗忘和记忆更新后的输出,G RU的输出用H=h1,h2,hN 表示.图2 B i G RU模型结构为了进一步提高分类精度,本文在双向G RU的基础上加入了注

28、意力机制来强化输入序列的主要特征,具体结构如图1中的深层特征提取层所示.该注意力网络将上层双向G RU单元的输出作为该单元输入,具体计算过程如下:Pt=t a nh(Wht H)(9)t=s o f tm a x(tTPt)(1 0)rt=HTt(1 1)式(9)(1 1)中:H表示双向G R U的输出,t表示注意力权重向量,Wht 和ht 是注意力模型在训练中的投影参数,rt为注意力层的输出向量.最终,带有注意力机制的双向G R U层输出如下:h*t=t a nh(Wpt rt+Wxt ht)(1 2)式(1 2)中:h*t即为带有注意力机制的双向G RU的输出,Wpt 和Wxt 表示权重向

29、量.1.3 情感分类经过上述特征选择、特征融合和深层特征提取之后,使用S o f t M a x层进行最终的情感分类,具体计算如下:Zt=s o f tm a x(h*t)TWs o f tt+bs o f tt)(1 3)y t=a r gm a x(Ztj)(1 4)式(1 3)(1 4)中:h*t表示该层的输入,y t表示最终的预测结果.为了防止过拟合,该模型还加入了D r o p o u t层.模型采用的是A d a G r a d优化器,该优化器能够根据参数来调整学习率,有较好的鲁棒性.该模型的损失函数采用交叉熵函数,计算方式如下:l o s s=-ytl o gy t(1 5)式(

30、1 5)中:yt表示标签的真实值,y t表示预测的标签值.2 数据集及预处理2.1 数据集本文基于E E G多模态情感数据集S E E D-591陕西科技大学学报第4 1卷I V1 7展开实验以验证所提出的M u l-AT-B i G RU模型的有效性.该数据集是由上海交通大学B CM I实验室相关团队开发,包含E E G和眼动信号这两种生理信号,它记录了1 5个被试在不同时间观看7 2个能诱发快乐、悲伤、恐惧、中性这四种不同情感的电影片段的脑电信号和眼动信号.7 2个电影片段被分成3次实验,每次实验包含4种不同情感的电影片段各6个,共2 4个.2.2 多模态信号的预处理和特

31、征提取本实验需要从S E E D-I V数据集中提取脑电和眼动两种模态的三种不同特征:脑电D E特征、P S D特征和眼动特征.对于脑电特征来说,首先将数据集中6 2通道的E E G数据降采样到2 0 0H z,为避免噪声和消除伪迹,使用17 5H z的带通滤波器进行数据过滤,最后得到总时长为6 3s的E E G信号.之后分别在五个频带使用窗长为4s的短时傅里叶变换提取D E及P S D两种特征,最终,每个被试每次实验经过降采样和带通滤波处理后的脑电D E和P S D特征的数据格式都为6 2(c h a n-n e l s)8 5 1(s a m p l e s)5(f r e q u e n

32、 c yb a n d s).为了更好的学习通道间的特征,数据格式最终处理为42 2 5(s a m p l e s)6 2(c h a n n e l s)的数据格式.对于眼动特征的提取,就是根据不同的眼动参数提取眼动的各种特征,如表1所示.最终,对于每个被试每次实验提取到的眼动特征,其数据格式为3 1(c h a n n e l s)8 5 1(s a m p l e s),单模态实验将其作为所提模型的输入进行深层特征提取;在多模态实验中,为了将眼动特征和脑电特征五个频带分别进行对齐,将眼动特征扩充一个频带维度,其格式转换为3 1(c h a n n e l s)8 5 1(s a m p

33、 l e s)5(f r e q u e n c yb a n d s),其中每个频带都是复制同样的3 18 5 1的眼动特征.为了跟脑电特征格式保持一致,最终将眼动特征的格式转化为42 2 5(s a m p l e s)3 1(c h a n n e l s),其标签同样处理为由0,1,2,3 组成的大小为42 2 51的数组,这样就将两种模态数据的样本数对齐.然后,将对齐的脑电和眼动数据在通道维度上进行C o n c a t连接操作,得到最原始的多模态融合特征,其数据格式为42 2 5(s a m p l e s)9 3(c h a n n e l s).接下来基于上述三

34、种特征进行情感四分类实验.3 实验结果分析实验在G e F o r c eG T X 3 0 9 0G P U上基于t e n-s o r f l o w 1.1 8框架实现.实验首先验证了M u l-AT-B i G RU模型在多模态任务上的有效性,然后验证该模型在分类精度上较单层G RU、两层同向堆叠G RU有较大提升.本文还通过交叉被试实验验证了所提模型的泛化能力.3.1 被试内单模态和多模态对比实验首先,为了验证多模态融合特征的优势,分别将脑电的D E特征和P S D特征、眼动特征和三者经过AT-f u s i o n融合后的特征输入基于多注意力机制的双向G RU网络进行情感四分类实验

35、.实验首先在1 5个被试内进行,每个被试进行一次实验,每次实验取每个被试三次实验的所有数据,其中3 0%作为测试集,其余7 0%数据作为训练集.经过参数调优后将模型的b a t c h-s i z e设置为3 2,e p o c h在单模态下设置为5 0 0,多模态下e p o c h设置为1 0 0,初始学习率设置为0.0 0 01,d r o p o u t系数设置为0.5.模型的结构如图1所示,单模态和多模态分类对比结果如图3所示,被试内分类具体结果如表2所示.表2 被试内M u l-A T-B i G R U模型分类结果D EP S DE Y EMU LS u b10.7 1 070.

36、7 5 920.7 0 170.9 3 13S u b20.8 4 030.5 9 630.7 8 940.9 6 16S u b30.7 5 180.7 5 040.6 9 590.9 0 04S u b40.9 0 890.8 6 040.6 2 570.9 6 94S u b50.7 9 740.7 2 390.8 0 870.9 7 38S u b60.8 7 080.8 4 140.8 2 210.9 7 09S u b70.7 9 000.7 4 150.7 9 380.9 7 24S u b80.6 3 000.5 9 770.7 8 970.9 2 54S u b90.8 1

37、350.7 3 860.7 1 870.9 6 80S u b1 00.7 3 570.7 7 970.7 9 110.9 5 77S u b1 10.6 8 430.7 0 190.6 5 490.9 0 92S u b1 20.8 3 260.7 0 190.6 8 030.9 5 92S u b1 30.6 3 000.8 3 990.7 7 780.9 3 57S u b1 40.6 9 900.7 3 720.7 5 420.9 5 92S u b1 50.9 5 880.9 0 310.8 4 210.9 8 41ME AN0.7 7 690.7 5 150.7 4 970.9 5

38、 19 由表2可知,M u l-AT-B i G RU模型在多模态特征测试集平均分类准确率为9 5.1 9%,最高的分类准确率达到了9 8.4 1%.此外,从图3可以看出,对于每一名被试,多特征融合后的分类精度明显高于其他三种单一模态特征.多模态融合特征的分类精度相比于眼动、脑电P S D、脑电D E三种单一模态特征分别提升2 0.2 2%、2 0.0 4%和1 7.5%.可见,多模态融合特征能够捕获不同模态的信息进行相互补充,从而获得更多的情感相关的信息.691第3期陈景霞等:基于注意力双向G R U网络的多模态脑电情感识别图3 M u l-AT-B i G RU模型测试集分类结果统计图图4

39、为第1 5名被试在单一模态脑电D E特征上的训练曲线图.通过观察可以得知,在训练过程中,随着迭代轮数e p o c h的增加,训练准确率a c c整体不断向1趋近,最终在0.9 3附近达到收敛.平均误差l o s s虽然出现过几次骤然上升又急速下降的情况,但整体呈现下降并不断向0趋近的走向.e p o c h从0增至3 0 0期间,训练准确率a c c以螺旋梯度上升的方式,从0.2 6升至0.8 8,之后随着迭代轮数的增加,逐渐向1收敛;而在此期间,平均误差l o s s以螺旋梯度下降的方式,从1.5 5降低至0.2 8,随后随着迭代轮数的增加,逐渐向0收敛.在整个迭代过程中,l o s s在

40、不断收敛的同时,也在不间断的发生震荡,在此期间出现了四次幅度较大的变化,同时也伴随着a c c发生大幅度变化.产生这一现象的原因可能是由于在参数训练过程中,模型产生了局部最优解.在模型经历了大幅度的振荡,随着迭代次数的增加,A d a G r a d优化器不断将参数进行矫正,训练数据不断更新,最终随着e p o c h的增加,两条曲线都趋于平稳,直至拟合完成.图4 s u b 1 5D E特征训练过程示意图其他单模态特征的训练曲线类似于图4脑电D E特征训练曲线,随着迭代轮数的增加,l o s s逐渐向0趋近,a c c逐渐向1趋近.图5为第1 5名被试在多模态融合特征上的训练过程曲线.由图可

41、知,此次训练共经过了1 0 0多个e p o c h的迭代,平均训练误差l o s s整体呈下降的趋势并无限向0趋近,训练准确率a c c整体呈上升趋势并不断向1靠近.在训练期间,随着e p o c h的增大,l o s s首先以螺旋梯度下降的速度逐渐向0逼近,随着训练拟合到一定程度,l o s s下降速度变缓,最终收敛至0附近;而a c c首先以螺旋梯度上升的速度逐渐向1逼近,随着训练拟合到一定程度,a c c上升速度变缓,最终收敛至1附近.相比于单模态特征数据,多模态特征数据收敛速度更快而且震荡幅度较小,出现该现象的原因是单模态特征进行训练时,网络输入是原始的特征数据,网络训练所需时间更长

42、,拟合速度相对缓慢;而多模态特征进行训练时,特征已经经过注意力机制的调整和学习,故而网络训练时间更短,拟合速度也就更快.图5 s u b 1 5多模态特征训练过程示意图为了验证所提M u l-AT-B i G RU模型结构的优势,本文做了两种所提模型的变种,分别叫做M u l-AT-G RU和M u l-AT-s t a c k G RU.其中M u l-AT-G RU在循环网络层使用单层G RU,M u l-AT-s t a c k G RU在循环网络层使用双层同向堆叠的G RU.两个模型中其余参数设置和M u l-AT-B i G-RU相同,实

43、验结果如表3所示.表3 不同M u l-A T-B i G R U变种模型分类性能对比模型平均分类准确率/%M u l-AT-G RU8 7.9 0M u l-A T-s t a c k G RU9 0.4 8M u l-A T-B i G RU9 5.1 9 由表3可知,与M u l-AT-G RU和M u l-AT-s t a c k G RU相比,M u l-AT-B i G RU的分类精度分别提高了7.2 9%和4.7 1%.实验结果表明,所提模型791陕西科技大学学报第4 1卷的性能更优,这也证明了所提模型在结构上的优越性.从M u l-AT-G RU和M u l-AT-s t a

44、c k G RU的结果可以看出,两层堆叠的G RU比单层G RU分类效果更好,原因是随着网络层数的加深,网络能够学习到更多的特征参数用于优化网络.所提M u l-AT-B i G RU模型比使用堆叠G RU效果更好的原因是所提模型中双向G RU的使用能更好的学习时间前后的依赖关系,从而更好的优化模型参数.3.2 交叉被试实验为了验证模型的泛化能力,本文采用十折被试交叉验证来评估所提方法在被试间的情感识别准确率.具体来说,将1 5个被试数据分成十个大小相同的组,保证数据之间没有交叉,每次实验取其中一份数据作为训练集,其余数据作为测试集,以上过程重复十次,直到所有被试数据都经过测试.此次实验过程中

45、,调优以后的参数设置如下:e p o c h设置为2 0 0,b a t c h-s i z e设置为3 2,学习率设置为0.0 0 01,d r o p o u t系数设置为0.5.图6显示了在此次十折交叉验证中单模态和多模态对比结果,表4为十折交叉验证每一折具体分类结果.图6 M u l-A T-B i G R U模型十折交叉验证结果统计图表4 M u l-A T-B i G R U模型十折交叉被试验证结果F o l dD EP S DE Y EMU L10.4 2 310.3 5 570.3 4 370.6 2 9320.3 8 880.3 2 980.4 0 560.4 9 5130.

46、4 2 390.3 6 470.3 3 120.5 7 1140.4 0 840.3 5 410.4 3 220.6 3 8750.4 2 440.4 3 060.4 1 140.7 2 5360.4 0 250.3 8 230.3 2 750.6 3 8970.4 3 620.3 6 130.3 5 030.6 2 0380.3 9 470.3 3 290.3 7 770.6 5 2290.4 1 620.3 6 790.3 6 880.6 7 811 00.4 1 020.4 0 120.3 2 360.6 0 17ME AN0.4 1 310.3 6 440.3 6 720.6 2 77

47、由表4可知,本文提出的M u l-AT-B i G RU模型在被试间进行十折交叉验证的平均分类准确率达到了6 2.7 7%,且经过特征融合后的分类精度明显优于单一模态特征.可见本文所提模型不仅在被试内有着很高的分类准确率,在被试间也有着较高的分类精度,同时也验证了本文所提模型在被试间的泛化性.为了证明模型在交叉被试实验中的有效性,将5种现有的方法和本文提出的方法针对多模态特征的情感分类结果进行对比,结果如表5所示.表5 M u l-A T-B i G R U和其他模型分类性能对比模型平均分类准确率/%S VM1 83 7.9 9D G C NN1 95 2.8 2A-L S TM2 05 5

48、.0 3AT-f u s i o n+G RU5 0.7 7A T-f u s i o n+s t a c k G RU5 4.0 7M u l-A T-B i G RU6 2.7 7 由表5可以看出,本文所提方法较传统的机器学习分类算法S VM提升2 4.5 1%,较其它四种深度学习方法平均分类精度分别提高了9.6 8%,7.4 7%,1 1.7 3%,8.4 3%,本文所提M u l-AT-B i G-RU方法达到了更优的性能.出现此现象的原因可能是模型中两次注意力机制的加入,第一层注意力机制能够提取到更多不同模态间的互补信息,使得多模态融合特征含有更多的情感相关信息,第二层能够捕捉特征序

49、列时间前后的更多相关性,从而模型性能得以提升.4 结论本文提出了一种基于双向G RU的多模态脑电情感识别方法,将不同模态的多种特征使用注意力机制进行融合,得到情感信息更加丰富的多模态特征,同时还采用带有注意力机制的双向G RU网络来学习E E G等多模态数据深层上下文依赖关系,从而得到正负双向反馈信息.本文在多模态公开数据集S E E D-I V进行情感四分类实验,使用1 5名被试在脑电和眼动两个模态的数据,来评估所提M u l-AT-B i G RU的性能,被试内平均分类准确率可达9 5.1 9%,表明本文所提方法能够充分利用脑电和眼动两个模态的互补信息,提高了情感识别的准确性.同时进行交叉

50、被试实验,并与目前流行的深度模型进行横向对比,验证了该模型有着不错的准确率和泛化能力,该模型为多模态情感识别脑-机接口应用的开发提供了一种有效途径.由于不同被试间差异较大,这也就造成了交叉被试情感四分891第3期陈景霞等:基于注意力双向G R U网络的多模态脑电情感识别类实验特征学习较为困难,分类准确率也低于被试内实验.后续实验也会对融合特征及模型进行优化,缩小不同被试间的差异,进一步提高模型准确率和泛化能力.参考文献1P i c a r d R W.A f f e c t i v ec o m p u t i n gM.L o n d o n:M I TP r e s s,2 0 0 0.2

展开阅读全文