1、2023 年第 9 期212智能技术信息技术与信息化基于脑电情绪识别的域适应方法研究许雷财1 黎真成1 黄嘉扬1 朱源彬1XU Leicai LI Zhencheng HUANG Jiayang ZHU Yuanbin 摘要 近几年来,基于脑电信号的情绪识别一直是一个活跃的研究领域并且取得了巨大的研究进展。然而,受试者的个体差异性以及脑电信号的非平稳性,极大地降低了基于脑电信号的跨受试情绪识别模型的有效性和泛化性。随着迁移学习的发展,域适应算法技术的应用提高了跨受试情绪识别模型的性能,为训练跨受试情绪识别通用泛化模型提供了新的可能。但是目前的跨受试情绪识别实验设置中,不同受试者观看的视频是相同
2、的,所训练的跨受试情绪识别模型无法消除相同视频片段对情绪识别结果的影响。为了更加客观公平地评估不同域适应方法在跨受试情绪识别中的性能,采用新的跨受试情绪识别实验设置,在 SEED-IV 和 SEED-V 数据集上对不同的域适应方法进行对比。实验结果表明,多源域适应方法在 SEED-IV 和 SEED-V 数据集上取得了较好的结果,且高于单源域适应方法,表明了多源域适应方法在跨受试情绪识别中的潜力。关键词 脑电信号;情绪识别;跨受试;域适应;多源 doi:10.3969/j.issn.1672-9528.2023.09.0471.五邑大学 广东江门 529020 基金项目 2022 年五邑大学创
3、新创业基金项(2022CX16)0 引言情绪识别在人类日常活动的各个方面都具有重要的意义。在人机交互中,基于脑电的情绪识别具有广阔的应用前景。情绪识别在安全驾驶1、健康监测特别是心理健康2等诸多领域得到了广泛的应用并且起着至关重要的作用。人类情绪的检测方式可以分为两大类。(1)早期的情绪识别研究主要使用人类的面部表情3等物理信号进行情绪识别。这些信号易于采集,但当受试者在实验时不愿表达自己的真实情绪时,这些信号会受到受试者的主观影响,容易被受试者伪装,从而无法保证情绪识别模型的有效性和准确性。(2)现阶段的情绪识别是使用内部信号,即生理信号进行情绪识别,主要包括脑电图(electroencep
4、halogram,EEG)、心电图(electrocardiogram,ECG)、肌 电 图(electromyogram,EMG)、皮肤电反应(galvanic skin response,GSR)等生理信号。上述生理信号在进行情绪识别时更具有客观性和可靠性。但除脑电信号之外的生理信号中,采集的数据信号通常有较多的干扰信号,而脑电信号由于具有客观、真实、不可伪装性、数据的实时差异性以及容易采集等优点,已经成为情绪识别研究领域的主要数据来源,并在情绪识别研究领域取得了较好的效果。然 而,在 情 感 脑 机 接 口(aff ective brain computer interface,aBCI
5、)的实际应用中,受试者间的个体差异性和脑电信号的非平稳特性会导致数据偏差,相同情绪状态下不同个体获得的脑电信号在数据分布上也存在差异,所以训练一个泛化能力强的情绪识别模型仍然是基于脑电信号的情绪识别的一个重要挑战。近几年来,为了解决个体差异性的问题,许多基于脑电信号的情绪识别研究已经应用了迁移学习,尤其是领域适应(domain adaptation,DA),领域适应可以将已有标记的源域的知识迁移到未标记的目标域。例如,Wang等人提出了平衡分布适应方法,该方法可以自适应地调整边缘和条件分布的重要性,以此平衡边缘和条件分布适应4。Li 等人采用深度适应网络进行跨受试情绪识别5。Li 提出潜在表示
6、相似的域适应方法,通过优化最小化源上的分类误差,同时使源的潜在表示相似来提高情绪的分类效果6。Chen 等人关注基于脑电情绪识别中的多源域场景,提出了用于跨受试的多源边际分布适应(multisource marginal distribution adaptation,MS-MDA)方法,且同时结合了脑电信号的领域不变和领域特定特征7。上述提到的工作大多数都是采用单源域适应方法,但若源域与目标域的任务毫不相关,单源域适应方法可能会产生负迁移。而在情绪识别的实际应用中,经常包含多个源域数据,多源域适应方法也并没有得到广泛的应用。因此,进行 2023 年第 9 期213智能技术信息技术与信息化基于
7、脑电情绪识别域适应方法的对比研究,可以为以后的情绪识别研究提供参考。1 数据集本文选取了两个典型的情绪识别数据集进行域适应方法的对比研究,即 SEED-IV 和 SEED-V 数据集,两个数据集都包含了由 62 通道 ESI NeuroScan System 记录的脑电数据。1.1 SEED-IV 数据集SEED-IV 数据集首先在文献 8 中引用。SEED-IV 数据集选取了 72 个电影片段作为情绪诱发的刺激材料,包含了四种不同情绪的脑电信号,即高兴、悲伤、中性和恐惧。每种情绪都由六个电影片段来诱发。15 名受试者(男 7 名,女 8名)在不同的时间进行了三次数据采集实验,总共采集了三个会
8、话的数据,每个会话的每次实验包含了 24 个电影片段,每个受试者在每个会话中观看了不同的电影片段。1.2 SEED-V 数据集SEED-V 数据集首先在文献 9 中使用。SEED-V 数据集包含了五种不同情绪的脑电信号,即高兴、悲伤、中立、恐惧和厌恶。每种情绪都由三个电影片段来诱发。16 名受试者(男 6 名,女 10 名)在不同的时间进行了三次数据采集实验,总共采集了三个会话的数据,每个会话的每次实验包含了 15个电影片段。2 微分熵特征2.1 特征提取在本文的域适应对比实验中,采用微分熵特征来用于情绪识别中域适应方法的对比研究。采集到原始的脑电数据后,对原始的脑电信号进行预处理和特征提取,
9、为了提高提取特征的信噪比,首先将原始的脑电信号降采样到200 Hz,然后使用 1 75 Hz 的带通滤波器过滤噪声并去除伪影,最后通过非重叠汉宁窗的短时傅里叶变换在五个频带((1 4 Hz)、(4 8 Hz)、(8 14 Hz)、(14 31 Hz)、(31 50 Hz))内提取每个频带内的微分熵(DE)特征。提取的 DE 特征可以表示为一个 5T 的矩阵,其中 T 表示时间窗口,取决于刺激电影片段的时间长度,SEED-IV 的时间窗口范围为 12 64,而 SEED-V 的时间窗口范围为 13 74。两个数据库的一个会话中的一个受试者的一个数据可以表示为通道(62)试验(SEED-IV 为
10、24,SEED-V 为15)频带(5)的形式。然后将通道与波段合并,形式就变为试验 310(625)。对于 SEED-IV,三个会话分别包含 24 次试验的 851/832/822 个样本。对于 SEED-V,三个会话分别包含 24 次试验的 681/541/601 个样本。最后,SEED-IV 数据集和 SEED-V 数据集所有数据分别形成851/832/822 310、681/541/601310 的形式,生成的标签向量分别为 851/832/8221、681/541/6011。2.2 微分熵微分熵特征可以通过公式(1)计算:(1)式中:随机变量 x 服从高斯分布,和 e 是常数。3 域适
11、应方法域适应10是假设有两个分布 s 和 t,一组标记数据和一组未标记数据,其中 m 代表特征的维度,ns和 nt分别代表标记数据和未标记数据的样本数量。设 Ys是与 Xs相关的标签,将称作源域,称作目标域。在许多的实际应用场景中,Xs和 Xt具有不同的分布,即源域和目标域之间存在差异。若将在源域 Ds中训练好的分类模型直接应用于目标域 Dt时,分类模型的分类性能会表现得很差。域适应的任务就是通过找到一个潜在的、域不变的子空间来将投影在上,其中 h 是潜在子空间的期望维度,且。在域不变子空间中,减少了源域投影 Xs与目标域投影 Xt之间的域差异,随后就可以在中训练分类模型,训练好的模型具有较好
12、的泛化能力,将分类模型应用到也可以取得较好的分类效果。3.1 单源域适应单源域适应是将从标记源域中学习到的模型泛化到其它不同但相关的源域。源域和目标域的特征空间在本质上是相同的,源域和目标域的标签集也是一致的,将这种设置下的域适应称为闭集域适应。在闭集域适应中首先想到的方法是将源域和目标域的特征对齐,然后减少分类损失,最后在进行分类任务时对目标域进行微调,但是对深度网络参数直接进行微调并不是最好的选择。3.1.1 基于差异的方法由于源域与目标域之间存在域差异,若直接将在源域中训练好的分类模型应用到目标域,模型的泛化能力较差,分类的准确率也会显著降低。为了解决分类任务中存在的这个问题,Grett
13、on 等人11提出了最大平均差异(maximum mean discrepancy,MMD)来测量两个不同域之间的差异,最大平均差异本质上是映射函数改变后两个数据分布之间预期差异的上限值,是测量两个分布之间距离的一种非常有效的方法。最大化平均差异可以通过公式(2)计算得到:(2)2023 年第 9 期214智能技术信息技术与信息化式中:表示将原始数据映射到再生核希尔伯特空间(reproducing kernel hilbert space,RKHS),表示在单位球中定义了一组 RKHS 的函数。Xs为标记数据,也即源域数据,Xt为未标记数据,也即目标域数据。3.1.2 深度领域混淆在基于最大平
14、均差异的基础上,Zeng 等人12提出了一种新的卷积神经网络(convolutional neural network,CNN)架构来解决域适应问题,所提出的网络架构称为深度领域混淆(deep domain confusion,DDC)。该网络架构优化了深度卷积神经网络的分类损失以及域不变性,可以同时解决有监督自适应(当少量目标标记数据可用)和无监督自适应(没有标记的目标训练数据可用),在共享权重网络的特征层之间添加了一层域适应层,该层将源域和目标域特征之间的最大平均差异作为损失,并且通过最小化最大平均差异来减少源域与目标域之间的域差异。最大平均差异也可以决定适应层在网络架构中的位置,且适应层
15、在更高层的特征中使用更为有用,因为较低层的特征通常是一般特征,不具有较高的区分度。因此深度领域混淆的适应层放在了 fc7 之后。Zeng等人提出的深度领域混淆的网络 架构如图 1 所示。图 1 深度领域混淆网络架构当无目标标签可用时,以无监督自适应训练为例,左侧输入带有标记的源域样本来训练模型,通过最小化分类损失和最大平均差异距离来对齐源域和目标域,训练的模型便可以应用于目标域。3.1.3 深度适应网络DDC 网络架构虽然使模型的性能得到了提升,但 DDC只应用了一层适应网络。Long 等人13在深度领域混淆的基础上提出了深度适应网络(deep adaptation network,DAN),
16、深度适应网络与深度领域混淆的区别主要有两点。(1)深度领域混淆只应用了一层适应层,但深度适应网络应用了多层适应层。(2)深度领域混淆中只使用了一个核函数,而深度适应网络中使用了具有加权核函数的多核。深度适应网络通过多层适应和多核最大化平均差异(multi-kernel maximum mean discrepancy,MK-MMD)提高了性能。3.1.4 DeepCoral由于计算多核最大化平均差异需要耗费大量的时间,Sun 等人14便采用 CORAL 损失来衡量两个域之间的距离,域适应的目标是同时通过优化分类损失和相关对齐损失来实现。此外,CORAL 损失能无缝集成到不同的层或架构中。COR
17、AL 损失定义为两个分布下数据特征之间的二阶统计量(协方差)之间的距离,可以通过公式(3)计算得到:2214CORALstFLCCd=(3)式中:表示平方矩阵 Frobenius 范数;Cs和 Ct分别代表源域数据和目标域数据的协方差矩阵。DeepCoral 方法通过同时优化分类损失和相关对齐损失来实现域适应。3.2 多源域适应在情感脑机接口的实际应用场景中,经常包含多个源域数据(即来自不同受试者或会话的数据)的情况,可以简单地将多个源域的数据合并成一个源域来应用单源域适应方法。然而,合并多个源域后使用单源域适应方法通常会导致训练的模型性能较差。由于每个源域与目标域之间以及不同源域之间存在域迁
18、移,因此在模型的训练过程中不同的源域数据之间可能会相互干扰,从而影响模型的性能,所以为了避免单源域适应方法对跨受试情绪识别产生负迁移影响,需要在跨受试情绪识别中采用多源域适应方法。多源域适应方法框架图如图 215所示。图 2 多源域适应框架图包含特征提取器、领域分类器和任务学习。对 k 个源域上的所有域分类风险进行组合,采用梯度反转进行自适应反向传播。2023 年第 9 期215智能技术信息技术与信息化4 实验本文在 SEED-IV 和 SEED-V 数据集上使用单源和多源域适应方法进行情绪识别任务,进行域适应方法的对比研究。4.1 实验细节实验中,训练采用 Adadetla 优化器,用 15
19、 个 epoch 训练模型,初始学习率设置为 1,批量大小(batch_size)设置为 64,epoch 设置为 15,对于多源域适应的域适应损失参数mu,初始值设置为 1e-2。实验中,为了避免相同视频片段对情绪识别结果的影响,采用新的跨受试实验设置16,在留一受试交叉验证的基础上进一步划分数据。首先根据会话将 SEED-IV 数据集和SEED-V 数据集的数据划分为三个部分,接着从一个部分中选取 n-1 个受试者的数据作为训练集,然后从三个部分中都分别单独选取剩余的受试者数据作为测试集。对于 SEED-IV 数据集,遵循留一受试交叉验证思想,在一个部分中选用 14 个受试者的数据作为训练
20、集来训练模型,每一个受试者作为一个源域,在单源域适应模型中,直接将14 个源域的数据合并为一个源域作为模型的输入,在多源域适应模型中,将 14 个源域的数据放入一个列表作为模型的输入。接着在三个部分都分别单独选取剩余受试者的数据作为测试集来测试模型,该受试者作为目标域。和 SEED-IV 数据集相比,SEED-V 数据集有 15 个受试者的数据作为训练集,也即有15个源域,其余的实验设置和SEED-IV数据集一样。4.2 实验结果图 3 与 图 4 中(1)、(2)、(3)、(4)四 个 子 图 分 别 代 表DAN、DeepCoral、DDC 和多源域适应在脑电 DE 特征上的结果。图 3
21、新的实验设置下,不同域适应方法在 SEED-IV 数据集上的实验结果图 4 新的实验设置下,不同域适应方法在 SEED-V 数据集上的实验结果图 3 以及图 4 都为多源域适应与单源域适应(DDC、DAN、DeepCoral)实验结果的精度矩阵。同时,为了验证域适应方法在跨受试情绪识别中的效果,也对比了机器学习方法 SVM 和核主成分分析(KPCA)方法,实验结果如表1 所示。表 1 不同模型在不同数据集下的平均准确率比较SEED-IVSEED-VSVM0.384 30.310 9KPCA0.382 30.370 6DDC0.481 80.402 7DAN0.512 30.420 6DeepC
22、oral0.548 80.451 3多源域适应0.558 40.462 14.3 分析表 1 的实验结果表明,首先,在 SEED-IV 和 SEED-V两个数据集上,域适应方法的实验结果高于非域适应方法(SVM、KPCA),多源域适应的实验结果高于单源域适应。其次,当训练集和测试集包含相同的视频刺激时,分类准确率往往高于具有不同视频刺激的数据。即如图 3 以及图 4 所示,相同会话的数据做训练和测试的准确率高于不同会话下数据做训练和测试的准确率,也即每一个精度矩阵对角线上的值一般高于其它位置上的值。2023 年第 9 期216智能技术信息技术与信息化5 结论本文采用了可以降低受试者个体差异性的
23、域适应方法,以及新的可以消除相同视频片段对实验结果产生影响的跨受试实验设置,在新的跨受试实验设置的基础上,在两个公共情绪数据集(SEED-IV、SEED-V)上评估了单源域适应模型(DDC、DAN、DeepCoral)和多源域适应模型。实验结果表明:当训练集和测试集的数据是由相同的视频刺激材料诱发时,分类准确率往往高于不同视频刺激材料诱发的数据;多源域适应方法对基于脑电的跨受试情绪识别有更好的效果。因此,本文的研究结果对跨受试情绪识别中的研究具有借鉴意义。参考文献:1 HALIM Z,REHAN M.On identifi cation of driving-induced stress us
24、ing electroencephalogram signals:a framework based on wearable safety-critical scheme and machine learningJ.Information fusion,2020,53:66-79.2 GUO R,LI S,HE L,et al.Pervasive and unobtrusive emotion sensing for human mental healthC/In Proceedings of the 7th International Conference on Pervasive Comp
25、uting Technologies for Healthcare,Venice,Italy:IEEE,2013:436-439.3 ZHANG Y D,YANG Z J,LU H M,et al.Facial emotion recognition based on biorthogonal wavelet entropy,fuzzy support vector machine,and stratified cross validationJ.IEEE access,2016,4:8375-8385.4 WANG J,CHEN Y,HAO S,et al.Balanced distribu
26、tion adaptation for transfer learningC/in Proc.17th IEEE International Conference on Data Mining,New Orleans:IEEE,2017:1129-1134.5 LI H,JIN Y M,ZHENG W L,et al.Cross-subjectemotion recognition using deep adaptation networksC/International Conference on Neural Information Processing.Cham:Springer,201
27、8:403-413.6 LI J,QIU S,DU C,et al.Domain adaptation for EEG emotion recognition based on latent representation similarity J.IEEE transactions on cognitive and developmental systems,2019,12(2):344-353.7 CHEN H,JIN M,LI Z,et al.MS-MDA:Multisource marginal distribution adaptation for cross-subject and
28、cross-session EEG emotion recognitionJ.Frontiers in neuroscience,2021,15:778488.8 ZHENG W L,LIU W,LU Y,et al.Emotionmeter:a multimodal framework for recognizing human emotionsJ.IEEE transactions on cybernetics,2018,49(3):1110-1122.9 LI T H,LIU W,ZHENG W L,et al.Classification of five emotions from E
29、EG and eye movement signals:Discrimina-tion ability and stability over timeC/2019 9th International IEEE/EMBS Conference on Neural Engineering(NER).San Francisco,CA,USA:IEEE,2019:607-610.10 LAN Z,SOURINA O,WANG L,et al.Domain adaptation techniques for EEG-based emotion recognition:a comparative stud
30、y on two public datasetsJ.IEEE transactions on cognitive and developmental systems,2018,11(1):85-94.11 GRETTON A,BORGWARDT K M,RASCH M J,et al.A kernel two-sample testJ.The journal of machine learning research,2012,13(1):723-773.12 ZENG T E,HOFFMAN J,ZHANG N,et al.Deep domain confusion:maximizing fo
31、r domain invarianceJ.Computer science,2014.13 LONG M,CAO Y,WANG J,et al.Learning transferable features with deep adaptation networksC/International conference on machine learning.Lile France:PMLR,2015:117-125.14 SUN B,SAENKO K.Deep coral:Correlation alignment for deep domain adaptationJ./arXiv:1607.
32、01719,2016:443-450.15 ZHAO H,ZHANG S,WU G,et al.Adversarial multiple source domain adaptationJ.Advances in neural information processing systems,2018:8559-8570.16 HU H Y,ZHAO L M,LIU Y Z,et al.A novel experiment setting for cross-subject emotion recognitionC/2021 43rd Annual International Conference of the IEEE Engineering in Medicine&Biology Society(EMBC).Mexico:IEEE,2021:6416-6419.【作者简介】许雷财(1997),男,江西抚州人,硕士研究生,研究方向:类脑计算。(收稿日期:2023-02-14 修回日期:2023-04-21)