1、Computer Era No.12 20230 引言面部表情作为情绪表达最重要的方式并不总是直接展现出来。人们会隐藏、掩饰或压抑自己的真实情绪,从而产生局部的、快速的、不对称的面部表情,即微表情。研究微表情对心理学、临床医学等相关学科有着巨大的推动作用。传统的微表情分析方法是基于人工特征,包括时空局部二值模式(LBP)1、三维梯度直方图2等。然而采用这些方法从视频中提取的信息大多流于表面,很难达到理想的效果。近年来,随着卷积神经网络(CNN)迅速发展和普及,基于深度学习的技术在计算机视觉领域优于人工特征技术。1 本文实验微表情数据集是小样本数据集,因此充分提取微表情空间、时间特征至关重要。L
2、iteFlowNet3是一个高效准确的光流估计网络,实现了在资源受限的情况下快速、准确地估计光流,有助于捕捉微表情的运动信息。ResNet-104以其小规模却出色的性能在小型数据集的计算机视觉任务中脱颖而出。其核心残差块解决了梯度消失问题,允许构建更深的网络。在微表情识别中,这意味着ResNet-10能够学习更复杂的DOI:10.16644/33-1094/tp.2023.12.022基于光流和集成时-空-通道注意力的ResNet-10的微表情识别模型梁岩,黄润才,卢士铖(上海工程技术大学电子电气工程学院,上海 201600)摘要:针对一般模型很难捕捉微表情不同尺度上的特征,提出一种基于Lit
3、eFlowNet和改进的ResNet-10的微表情识别网络以充分提取微表情不同维度信息。先通过欧拉视频放大技术(EVM)突出面部微小动作,再将处理后的数据通过轻量级光流估计网络 LiteFlowNet提取视频帧中的运动信息。在用于特征提取的 ResNet-10 上引入三维注意力机制(3D-Attention),以适应性地聚焦于微表情视频中最具辨别力的通道、空间和时间特征。实验结果验证了该网络有效提升了微表情识别性能。关键词:微表情识别;LiteFlowNet;3D-Attention;ResNet-10;EVM中图分类号:TP391.4文献标识码:A文章编号:1006-8228(2023)12
4、-101-04Micro-expression recognition model based on optical flow and integratedspatio-temporal-channel attention of ResNet-10.Liang Yan,Huang Runcai,Lu Shicheng(School of Electrical and Electronic Engineering,Shanghai University of Engineering and Technology,Shanghai 201600,China)Abstract:In response
5、 to the difficulty of general models to capture the features of micro-expressions at different scales,a micro-expression recognition network based on LiteFlowNet and the improved ResNet-10 is proposed to fully extract the information ofdifferent dimensions of micro-expression.The facial micro-moveme
6、nts are first highlighted by EVM,and then the processed dataare passed through a lightweight optical flow estimation network,LiteFlowNet,to extract the motion information in the videoframes.3D-Attention mechanism is introduced on ResNet-10 for feature extraction to adaptively focus on the most discr
7、iminativechannel,spatial and temporal features in the micro-expression video.The experimental results verify that the network effectivelyimproves the micro-expression recognition performance.Key words:micro-expression recognition;LiteFlowNet;3D-Attention;ResNet-10;Eulerian video magnification(EVM)收稿
8、日期:2023-09-15作者简介:梁岩(1997-),女,山东聊城人,硕士研究生,主要研究方向:人工智能人脸识别。通讯作者:黄润才(1966-),男,江西东乡人,博士,教授,主要研究方向:普适计算与物联网、智能计算、计算机网络与应用。101计算机时代 2023年 第12期微表情特征,提高模型的表达能力。1.1 ResNet-10和LiteFlowNet网络算法概述ResNet-10网络图像处理过程如下:输入的图像通过一个包含64个卷积核且卷积核大小为7 7的卷积层进行图像基础特征提取。ResNet-10包含四个残差块,每个块由两个卷积层和一个跳跃连接组成,每个残差块的卷积层都采用了较小的3
9、3卷积核,使用恒等映射来保留原始输入特征。在最后一个残差块之后,ResNet-10采用全局平均池化将特征图转换为向量,通过全连接层进行分类。LiteFlowNet 网络主要包含以下几个关键组件。特征提取层:使用轻量级卷积和池化层从输入图像中提取特征。特征金字塔:捕捉不同尺度特征信息以提高光流估计的准确性。光流估计分支:并行估计水平和垂直方向的光流场,每个分支由一系列的卷积层和上采样操作构成,用于从提取的特征图中预测光流信息。金字塔融合:将不同尺度特征与光流估计结果融合,提升不同尺度下光流估计精度。1.2 网络模型改进该模型通过结合光流和人脸全局特征,来解决单一类型特征提取不足的问题,全面地捕捉
10、微表情的动态和静态信息。传统的二维卷积神经网络难以很好地建模微表情视频中的时序模式。为此本实验在二维ResNet-10模型基础上引入了时间维度和三维注意力机制(3D-Attention)。3D-Attention可以动态地对微表情视频的时序和空间特征加权,突出关键时序模式和动态特征。为减少计算开销,本实验将传统3D卷积核分解为等效的空域2D卷积核和时域1D卷积核。整体网络结构如图1所示。首先,LiteFlowNet提取光流信息,保留微表情视频的相关运动信息,同时去除无关亮度信息。光流特征和微表情视频帧序列输入到引入3D-Attention的ResNet-10,两类特征向量逐位相加融合,最终实现
11、分类。图 2 展示了 3D-Attention:输入三维数据,经过全局平均池化(GAP)计算特征图元素的平均值,分别保留T(时间维度)、H W(空间维度)和C(通道维度)维度,其余维度均为1。通过Flatten将多维数组转化为一维来满足不同层次输入需求。通过全连接层(FC)将前一层节点与当前层节点连接,学习人脸表情的复杂特征和模式。使用Softmax将输出实数映射为概率分布,方便预测微表情分类。最终,通过Reshape操作获得增强的三维特征,与输入执行操作得到输出。图1微表情识别模型框架图2三维注意力机制102Computer Era No.12 2023在此实验中,在ResNet-10网络的
12、第一个池化层之前和最后一个残差块中加入了3D-Attention,结构如图3所示。Fin为输入数据,Fin通过3D-Attention的计算得到MCST(Fin),将计算结果通过残差连接上一层的输出Flout得到最终的输出Fout,具体计算公式如下:Fout=MCST()Fin+Flout图3残差块引入注意力模块2 实验与结果分析2.1 实验环境和数据集本 文 中 的 实 验 均 在 Ubuntu 20.04.3、NVIDIAGeForce RTX 3080Ti GPU、Python 3.8.10 和 Pytorch1.10.2平台上进行训练和测试。本实验使用了数据集SAMM、CASME-II
13、以及复合数据集(CD)。CD由CSAME-II、SAMM和SMIC数据集组成,其中包含了来自68位受试者的442个微表情样本。实验对三个数据集的原始标签进行了重新映射,转换成一个新的标签空间,即“惊讶”、“积极”和“消极”。数据集中的样本情况详见表1。表1每个数据库中微表情样本的分布情况类型消极积极惊喜总计CASMER-II328825145SAMM269215133CD250109834422.2 数据预处理EVM5-6可以增强微表情面部肌肉的运动范围。假设I(x,t)是像素x在时间t时的图像强度,()t是变化信号,在任意时间t都有I()x,t=f(x+()t)(t 0)和I()x,0=f(
14、x)(t=0)。假设所有变化信号()t的频率范围是带通滤波所选择的频带范围,带通滤波结果B(x,t)如式所示。式乘以放大系数后与原始信号相加,得到放大信号I()x,t,如式所示。其中I()x,t的泰勒展开式如式所示。B()x,t=()tf()xxI()x,t I()x,t+B()x,t f()x+(1+)()tf()xxI()x,t f()x+()tf()xx实验证明,放大率值为3时达到最佳效果。图4展示了经过EVM处理的CASME-II数据集视频中的一帧,其中(a)是原始视频帧,(b)是动作放大后的效果。(a)原数据(b)动作放大图4为保持视频帧序列的微小变化,本实验对经过EVM处理的数据集
15、进行水平镜像,原始序列和镜像样本分别旋转+50和+100,最终数据集扩大为原始的十倍。2.3 实验评判标准本文采用了准确率ACC和F1指标来评价算法,综合考虑了准确率(P)和召回率(R)两个指标。计算公式如式-式。ACC=TP+TNTP+TN+FP+FNF1=2 P RP+RP=TPTP+FPR=TPTP+FNTP代表模型预测为正,实际为正,TN代表模型预测为负、实际为负,FP代表模型预测为正,实际为负,FN代表模型预测为正、实际为负。2.4 实验结果与分析该方法与基于人工特征的方法和深度学习方法进行了比较,结果如表2所示。表2微表情识别结果比较方法传统方法深度学习方法LBP-TOPMDMOR
16、esNetCapsuleNetVGG3DProposedCDACC0.432-0.7150.6840 0.716716F10.412-0.6920.6770 0.692692CASME-IIACC0.6670.5720.7630.8090.8360 0.839839F10.647-0.5390.8110.8010 0.765765SAMMACC0.6160.5000.4850.6510.6400 0.741741F10.595-0.4020.6040.5900 0.696696实验结果表明,CASME-II数据集在微表情识别任务中表现更出色。CASME-II数据集规模更大,提103计算机时代
17、2023年 第12期供多视角和不同分辨率的视频。这有助于模型更好地捕捉微表情的细微差异和变化。CD 数据集中的SMIC数据集存在自发微表情的噪声和不一致性,可能降低模型性能。SAMM数据集中,微表情标注的主观性可能会引发标签不一致,对模型分类造成干扰。为了验证上述分析,以图5中的混淆矩阵展示模型在SAMM、CASME-II和CD数据集上的分类。如图5所示,模型在CD和SAMM数据集上表现类似,在CASME-II数据集上的准确率最高。由于负面类别在数据集中占主导地位,因此大部分惊讶和负面样本被预测为负面类别。为验证本文模型中新增的注意力机制对面部特征的有效性以及光流特征与面部特征融合方法的有效性
18、,实验使用交叉验证进行消融实验。设计如表3所示。表3消融实验方法3D-ResNetLiteFlowNetFlow-ResNet-3DFlow-ResNet-3D-AttentionProposedCDACC0.6350.6020.6670.6930 0.716716F10.6530.5780.6130.6210 0.692692CASME-ACC0.7130.7360.7720.8110 0.839839F10.6900.7060.7320.7420 0.765765SAMMACC0.6240.6370.7230.7010 0.741741F10.6710.5940.6810.7320 0.6
19、966963 结束语本论文根据微表情识别模型所面临的特征提取不足的问题,提出了基于集成光流和时-空-通道的3D-ResNet-10微表情识别网络,实现多模态融合提取微表情特征。实验结果显示,该方法在多个数据集上均显著提升了性能,有效地捕捉微小的面部动作变化,这为更精确的情感分析和人机交互奠定了基础。在接下来的实验过程中仍需要在数据获取、融合策略、计算复杂性等方面做出改进,以实现更有效和鲁棒的多模态微表情识别系统。参考文献(References):1 Russell T A,Chu E.A pilot study to investigate theeffectivenessofemotionr
20、ecognitionremediationinschizophrenia using the micro-expression training toolJ.BritishJournalofClinicalPsychology,2011,45(Pt4):579-583.2 Zhang M,Fu Q,Chen Y H.Emotional Context InfluencesMicro-Expression RecognitionJ.PLoS ONE,2014,9(4):1-7.3 Hui T W,Tang X,Loy C.LiteFlowNet:A LightweightConvolutiona
21、l Neural Network for Optical Flow Estima-tionJ.2018 IEEE/CVF Conference on Computer Vi-sion and Pattern Recognition,2018.4 He K,Zhang X,Ren S.Deep Residual Learning for ImageRecognitionJ.2016IEEEConferenceonComputerVision and Pattern Recognition(CVPR),2016.5 Liu C,Torralba A,Freeman W.Motion magnifi
22、cation.ACM Transactions on GraphicsJ.2005,24(3):519-526.6 Ming-Zher,Poh,Daniel.Non-contact,automated cardiacpulsemeasurementsusingvideoimagingandblindsource separationJ.Optics Express,2010,18(10).(c)CD(a)SAMM(b)CASME-II图58 LI H,QIU Y,ZHAO H,et al.GaitSlice:A gait recognitionmodelbasedonspatio-tempor
23、alslicefeaturesJ.Pattern Recognition,2022,124:108453.9 CHEN X,LUO X,WENG J,et al.Multi-view gait imagegenerationforcross-viewgaitrecognitionJ.IEEETransactions on Image Processing,2021,30:3041-3055.10 ZHAO J,LIANG J,DONG Z,et al.Acceleratinginformationentropy-basedfeatureselectionusingroughsettheorywithclassifiednestedequivalenceclassesJ.Pattern Recognition,2020,107:107517.(上接第100页)CECE104