收藏 分销(赏)

NCA-MobileNet:一种轻量化人脸表情识别方法.pdf

上传人:自信****多点 文档编号:3010017 上传时间:2024-06-13 格式:PDF 页数:10 大小:9.88MB
下载 相关 举报
NCA-MobileNet:一种轻量化人脸表情识别方法.pdf_第1页
第1页 / 共10页
NCA-MobileNet:一种轻量化人脸表情识别方法.pdf_第2页
第2页 / 共10页
NCA-MobileNet:一种轻量化人脸表情识别方法.pdf_第3页
第3页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 39 卷 第 4 期2024 年 4 月Vol.39 No.4Apr.2024液晶与显示Chinese Journal of Liquid Crystals and DisplaysNCA-MobileNet:一种轻量化人脸表情识别方法左义海1,白武尚2,何秋生2*(1.太原工业学院 工程训练中心,山西 太原 030008;2.太原科技大学 电子信息工程学院,山西 太原 030024)摘要:针对目前人脸面部表情识别方法存在参数量多、计算资源消耗大和识别精度低的问题,提出了一种基于条件协调注意力机制的轻量化人脸面部表情识别方法。首先,对 MobileNet V3网络层数进行缩减,同时将倒残差

2、结构中间通道数和输出通道数增大至原来的 1.53.2倍,使用 Mish代替 Hardswish激活函数,实现特征提取后的非线性化。其次,引入改进的协调注意力机制,在张量信息嵌入中沿水平和竖直方向依次通过最大池化和平均池化进行编码,并通过张量信息集成产生具有全局感受野和精确位置信息特征,提取面部表情在空间和通道位置上的详细信息。最后,在公开数据集FERPlus和 RAF-DB 上进行实验,结果表明所提方法参数量降低 15.91%,准确率分别为 88.84%和 85.90%,比改进前模型准确率分别提升 0.83%和 1.39%。该方法具有良好的识别性能,验证了所提方法的有效性。关键词:表情识别;轻

3、量化;注意力机制;特征提取中图分类号:TP391.4 文献标识码:A doi:10.37188/CJLCD.2023-0153NCA-MobileNet:a lightweight facial expression recognition methodZUO Yihai1,BAI Wushang2,HE Qiusheng2*(1.Engineering Training Center,Taiyuan Institute of Technology,Taiyuan 030008,China;2.School of Electronic Information Engineering,Taiyu

4、an University of Science and Technology,Taiyuan 030024,China)Abstract:At present,facial expression recognition methods have the problems of large number of parameters,large consumption of computing resources and low recognition accuracy.Aiming at the above problems,a lightweight human facial express

5、ion recognition method based on conditional coordinated attention mechanism is studied.First,the number of layers of MobileNet V3 network is reduced,while the numbers of intermediate channels and output channels of the inverse residual structure are increased to 1.53.2 times of the original number.M

6、ish is used instead of Hardswish activation function to realize the nonlinearization after feature extraction.Secondly,an improved coordinated attention mechanism is introduced to encode the tensor information embedding along horizontal and vertical directions sequentially 文章编号:1007-2780(2024)04-052

7、2-10收稿日期:2023-04-25;修订日期:2023-05-20.基金项目:山西省自然科学基金(No.20210302123222);山西省教学改革项目(No.J20221103)Supported by Natural Science Foundation of Shanxi Province(No.20210302123222);Teaching Reform Project of Shanxi Province(No.J20221103)*通信联系人,E-mail:第 4 期左义海,等:NCA-MobileNet:一种轻量化人脸表情识别方法by maximum pooling an

8、d average pooling.And tensor information integration is used to generate features with global sensory field and precise location information to extract detailed information of facial expressions in space and channel location.Finally,experiments are conducted on the publicly available datasets FERPlu

9、s and RAF-DB,and the results show that the proposed method reduces the number of parameters by 15.91%,and the accuracy rates are 88.84%and 85.90%,respectively,which are 0.83%and 1.39%higher than the accuracy rates of the model before improvement.The method has good recognition performance and valida

10、te the effectiveness of the proposed method.Key words:facial expression recognition;lightweight;attention mechanism;feature extraction1 引言面部表情是人类情绪的最直接表现形式,而赋予机器感知人类情感的能力是实现人机交互的重要目标之一。人脸表情识别(Facial Expression Recogniton,FER)在情感计算、人机交互、驾驶员疲劳检测、教学效果评价等众多领域有着广泛的应用1。1971年,著名的心理学家Ekman2确定了 6 种基本的表情类别。通过

11、这些表情,不同种族之间能够互相辨认,即使是远离现代文明的部落文明与普通的哺乳动物也具有类似的表情。此外,Ekman的研究表明,在非人类的哺乳动物中也观察到类似的表情,最终 Ekman和 Friesen确定了人类的 6种基本表情,即快乐(Happy)、悲伤(Sad)、愤 怒(Anger)、厌 恶(Disgust)、惊 奇(Surprise)和恐惧(Fear)。在社会不断发展的过程中,中性(Neutral)表情也被提出,形成了当前主流的 7 种表情状态。学术界通过对这 7 类表情进行分类研究,开启了对计算机自动表情识别任务的探索。随着卷积神经网络在图像识别领域的巨大成功,神经网络逐渐被用于人脸表情

12、识别任务。Li3等人提出了一种具有注意力机制(ACNN)的卷积神经网络(CNN),它可以感知人脸的遮挡部分,并专注于非遮挡部分最具区分特征的区域,实现对人脸不同角度和遮挡物情况下的表情识别。人脸表情数据集的质量参差不齐,这种不确定性给深度学习时代的大规模面部表情识别带来重大挑战。为了解决此问题,Kai4等人提出了一种简单有效的自愈合网络(SCN),它通过自注意力重要性模块学习每张图片的重要性后对其损失进行加权,不确定的面部表情图像权重较小,反之较大。最大预测概率比给定标签概率高出阈值,则修改其对应的标签值。此模型可以有效地抑制表情的不确定性,阻止深度网络对不确定的人脸图像进行过拟合,有效提高了

13、人脸表情识别的准确率。随着注意力机制的发展与应用,2020年,Wang5等人分别在特征层和图像层使用局部块注意力机制,以提高特征学习的能力。针对微表情持续时间短、数据集有限等造成表情特征提取困难的问题,李召峰6等人提出一种基于图像预处理技术和双分支网络的识别方法,提升了表情特征提取能力。在 2012 年的 ImageNet 竞赛中,AlexNet 网络获得冠军,随后研究人员设计了越来越多的深度神经网络模型,而且层数越来越深,如经典的 VGGNet、GoogleNet、ResNet50等网络。与传统算法相比这些算法非常优秀。但深度网络模型对硬件设备的要求也相对较高,带来了巨大的存储压力和计算负担

14、。传统的深度神经网络内存需求较大,计算量也大,在移动设备和嵌入式设备上运行效果较差。2017年,Google公司提出了一种轻量级神经网络 MobileNet V17,第一次引入深度可分离卷积来减小模型参数量,使得传统神经网络有了一种轻量化的方法。2018 年和 2019 年,Google 先后推出 MobileNet V28和MobileNet V39网络,这些网络在 ImageNet数据集上能够实现较高的精度,而且模型参数更少,计算速度更快。目前人脸表情识别算法是在经典神经网络基础上进行的变体,存在网络结构复杂、参数量大和识别精度低的特点,不适用于嵌入式移动设备等算力较小的平台。针对以上问题

15、,本文研究了一种基于改进协调注意力机制的人脸面部表情识别方法(New Coordinate Attention MobileNet,NCA-MobileNet),在轻量化网络 MobileNet V3 的基础上进行改进。523第 39 卷液晶与显示首先对其卷积层数和通道数进行适当调整,然后引入非线性激活函数 Mish10,其对负值拥有更好的梯度流,允许复杂的信息输入神经网络模型。其次引入改进的协调注意力机制,增强特定区域的特征提取能力。本文方法在公开数据集 FERPlus11和 RAF-DB12上进行了实验,并对最新的人脸表情识别模型进行对比分析。实验结果表明,所提方法的性能有明显的提升。2

16、基于改进协调注意力机制的模型本文提出一个基于改进协调注意力机制的人脸面部表情识别模型(NCA-MobileNet),解决了人脸面部表情识别模型复杂和准确率低的问题。首先,对 MobileNet V3 主干网络进行改进,同时引入非线性激活函数 Mish,其对负值拥有更好的梯度流,允许复杂的信息输入神经网络模型。其次,设计改进的协调注意力机制模块(New Coordinate Attention Bneck,NCA Bneck)增强对人脸表情特征提取的能力,提升表情识别准确率。模型结构参数如表 1 所示,整体结构如图 1 所示。表 1 中,Input 表示输入图像大小,Operator 表示构建网

17、络基本计算单元的算子,Exp size 表示算子中点卷积升维后的通道数,Out表示输出通道数,NL表示非线性激活函数,s表示步幅。输入图像是 224 像素224 像素的 RGB 图像。首先通过普通 33卷积初步提取特征;然后依 次 通 过 一 个 改 进 的 协 调 注 意 力 机 制 模 块(NCA Bneck)和两个普通卷积模块(Bneck)对数据进行表情特征的详细提取,提取出最具面部表情特性的表情特征;最后通过 FC 层将特征处理为单维度特征,通过 Softmax 输出不同表情的概率值,概率值最大的表情即为输入表情的类别。为了更好的识别特征,使网络快速收敛,在 Bneck和 NCA Bn

18、eck 模块中进行点卷积升维后和深度卷积之后都加入了批标准化和非线性激活函数Mish(或者 Relu)进行处理。2.1改进的 MobileNet V3主干网络MobileNet V3 提供了 L 和 S 版本,分别适用于不同硬件资源的情况。基本卷积单元到残差结构(Bneck)采用深度可分离卷积发挥轻量级作表 1NCA-MobileNet结构参数表Tab.1NCA-MobileNet structure parameter tableInput22423112232112232562645626428264282128282128142128142256142256142256142256142

19、512725121251212512OperatorConv2dNCA Bneck,33Bneck,33Bneck,33NCA Bneck,55Bneck,55Bneck,55NCA Bneck,33Bneck,33Bneck,33NCA Bneck,33Bneck,33Bneck,33NCA Bneck,55Avg Pool,77FCSoftmaxExp size-321281281282562562565125125121 0241 0241 024-Out32326464641281281282562562565125125125125127/8NLMHREREREREREREMHMHM

20、HMHMHMHMH-s212121121111121-FCSoftmaxBneck,3301AngerDisgustFearHappySadSurpriseNeutralContempt01Conv NCA Bneck,33NCA Bneck,55Bneck,55224224301Avg-Pool图 1NCA-MobileNet基本框架Fig.1NCA-MobileNet basic framework524第 4 期左义海,等:NCA-MobileNet:一种轻量化人脸表情识别方法用,首先用逐点卷积对输入特征进行升维操作,然后采用深度卷积提取特征,最后把张量信息映射到低维空间。其倒残差结构见

21、图 2。当整体输入与输出相等时,采用残差结构进行连接。假设标准卷积输入张量为 hiwidi,卷积核大小为 kkdidj,输出张量为 hiwidj,则标准卷积的参数量 ZC如式(1)所示。采用深度可分离卷积的参数量 ZDSC如式(2)所示,与标准卷积相比,深度可分离卷积能减小大约(k2-1)dj-k2的参数量。ZC=hiwididjk k,(1)ZDSC=hiwidi(k2+dj).(2)MobileNet V3在同级别模型中表现优秀,其网络结构是在 ImageNet数据集上应用神经网络架构搜索(NAS)技术获得的最佳模型。而在人脸表情识别任务中,由于人脸的相似性与不同表情之间的区分性相比 Im

22、ageNet 数据集差距巨大,因此原来的网络结构不适用于本文中的人脸表情识别任务。本文中人脸表情识别任务分为 78类,输入图片大小统一固定为 2242243。经过研究与多次实验,最终确定改进后主干网络模型结构参数如表 2所示。其中中间通道数表示 Benck模块中的点卷积进行升维后的维度,输出通道数表示 Bneck 输出后的通道数。MobileNet V3 的结构中有 15 个 Bneck,本文的网络结构有 13 个,减少 2个 Bneck,使网络整体参数量降低。对 Bneck中深度卷积后的通道数进行了扩充,点卷积后的升维操作统一使通道数增大为对应 Bneck 输出通道数的 2倍。新网络相比原来

23、的网络整体参数量降低了 16.15%。MobileNet V3 中激活函数使用的是 Hardswish 函数,它的计算成本较大。本文采用 Mish激活函数代替 Hardswish 激活函数。Hardswish和 Mish 函数式如式(3)和式(4)所示。图 3 为对应激活函数图,分析可知,Mish 激活函数图像化更加平滑,在非线性激活过程中可以容许更好的信息保留,当深入神经网络时会得到更多的细节特征,提升模型的准确性和泛化性。Mish激活函数主要添加在第一层网络卷积层,以及 7 个表 2改进的 MobileNet V3主干网络参数表Tab.2Improved MobileNet V3 back

24、bone network parameter tableInput22423112232112232562645626428264282128282128142128142256142256142256142256142512725121251212512OperatorConv2dBneck,33Bneck,33Bneck,33Bneck,55Bneck,55Bneck,55Bneck,33Bneck,33Bneck,33Bneck,33Bneck,33Bneck,33Bneck,55AvgPool,77FCSoftmaxExp size-32641281281282562562565125

25、125121 0241 024-Out size32326464641281281282562562565125125125125127/8SE-NLMHREREREREREREMHMHMHMHMHMHMH-s212121121111121-图 2倒残差结构Fig.2Inverted residual structure图 3激活函数图Fig.3Activation function diagram525第 39 卷液晶与显示Bneck之中的点卷积和深度卷积之后。Hardswish(x)=xReLU 6(X+3)6,(3)Mish(x)=x tanh(ln(1+ex).(4)2.2改进的协调注

26、意力机制模块在 MobileNet V3网络中有 SE通道注意力机制,其加入在倒残差结构的深度卷积之后、点卷积降维之前,能够提升模型在通道方面的特征提取能力,但它忽略了空间上的位置信息。针对本文中人脸面部表情识别任务,不同的类别表情在图像整体区域表现不同,空间上的信息差异是不容忽略的。在人脸表情的特征提取阶段,应加强对人脸面部不同区域信息表达的关注。因此本文方法引入协调注意力机制(Coordinate Attention)13并对其进行改进,提出改进的协调注意力机制模块(New Coordinate Attention Bneck,NCA Bneck),提升模型在空间上和通道上的特征提取能力,

27、增强感兴趣的对象区域。改进协调注意力机制分为两步:张量信息嵌入和张量信息集成,其结构如图 4所示。(1)张量信息嵌入主要进行特征的聚合,特征聚合通过张量信息编码实现。将一个 x的张量作为输入,并使用大小为(H,1)和(1,W)的池化核分别沿水平和垂直坐标方向对来自各通道的数据进行编码。水平和竖直方向编码可由式(5)、(6)和式(7)、(8)分别表示,式(6)和式(8)表示高度为 h 的第 c 个通道的输出和宽度为 w 的第 c 个通道的输出。全局最大池化会提取特征图纹理结构等信息,全局平均池化会捕获图像的全局信息。在水平和竖直两个空间利用自适应最大池化和自适应平均池化进行特征聚合,能够提取图中

28、最具有表现力的区域,返回方向感知的注意力图。经过实验,输入张量先进行全局最大池化,可以提取人脸图像中最突出的部分,重点提取不同类别表情的主要特征。然后再进行全局平均池化,可以增强人脸表情特征的表示能力,还能减少模型过拟合的风险。xc*=Maxxc(h,0).,xc(h,W-1),(5)Zhc(h)=1W0 i Wxc*()h,i,(6)yc*=Maxyc(0,w).,yc(H-1,w),(7)Zwc(w)=1H0 j Hyc*(j,w).(8)(2)张量信息集成是一个可以使模型产生具有全局感受野和精确位置信息的过程。首先,对在张量信息嵌入过程所产生的两个特征图进行合并,并应用逐点卷积进行 F1

29、 转换。这就产生了一个为f RC/r(H+W)的中间特征图(r为下采样比例),其中包含了水平和垂直方向的空间信息,这个过程在数学上可以表示为式(9)。然后将张量 f分割成两个独立张量fh RC/r H和fw RC/r W,再分别使用逐点卷积操作,将两个特征图转换为与初始输入张量一致的通道数,这一操作可由式(10)、(11)实现。相应通道的注意力权重分别为 gh和 gw,条件协调注意力机制输出结果如式(12)所示。f=(F1(zh,zw),(9)gh=(Fh(fh),(10)gw=(Fw(fw),(11)yc(i,j)=xc(i,j)ghc(i)gwc(j).(12)将改进的协调注意力机制加入倒

30、残差结构中的深度卷积之后、点卷积降维之前,条件协调注意力机制的倒残差结构如图 5所示。在此处加入条件协调注意力机制能够使特征图在提升通道数的情况下更好地提取位置和通道信息,提高注意力机制的效率。ResidualX Avg PoolY Avg PoolConcat+Conv2dBatchNorm+Non-LinearConv2d+SigmoidConv2d+SigmoidResidualsplitInputOutputX Max PoolY Max Pool张量信息嵌入张量信息集成ResidualX Avg PoolY Avg PoolConcat+Conv2dBatchNorm+Non-Lin

31、earConv2d+SigmoidConv2d+SigmoidResidualX Max PoolY Max Pool图 4改进的协调注意力机制Fig.4New coordinate attention526第 4 期左义海,等:NCA-MobileNet:一种轻量化人脸表情识别方法3 实验结果和分析3.1实验环境及配置本文实验是在 Windows10 操作系统下完成的。实验环境包括计算机基础硬件、图形图像处理单元(GPU)、中央处理器(CPU)、并行计算库 CUDA、Pytorch深度学习框架、Anaconda、VSCode、Python等,具体实验环境配置如表3所示。选用 AdamW 优化

32、器,设置衰减策略来调整学习率,损失函数使用交叉熵损失。在网络训练过程中涉及超参数较多,主要包括:Bacth Size、Epochs、初始学习率、学习衰减率、优化器等,具体超参数设置如表 4所示。3.2表情数据集及数据预处理在两个公开数据集 FERPlus11和 RAF-DB12上进行实验验证。FERPlus数据集由 25 045张训练集、3 191张私人测试集和 3 137张公共测试集图像组成,均为 4848 的灰度图,共分为 8 类基本表情(愤怒、厌恶、恐惧、高兴、悲伤、惊讶、中性、蔑视)。RAF-DB 数据集包含单标签表情图像和多标签表情图像共计 29 672张,主要是从互联 网 上 下

33、载 后 经 专 业 标 注 所 得 的 大 小 均 为100100 的 RGB 图像。单标签图像包含 7 类表情(愤怒、厌恶、恐惧、高兴、悲伤、惊讶、中性),共计 15 339 张图片,选择其作为数据集。两个数据集的具体表情数量如表 5 所示,部分样例图如图 6所示。图 5改进协调注意力机制模块(NCA Bneck)Fig.5New coordinate attention bneck(NCA Bneck)表 3实验环境配置Tab.3Experimental environment configuration名称CPUGPU操作系统并行计算库深度学习框架编程语言配置Intel(R)Core(T

34、M)i7-10875HNVIDIA GeForce GTX1650(4G)Windows10CUDA11.1+cuDNN8.2.1Pytorch1.9.0Python3.7表 4超参数设置Tab.4Hyperparameter setting超参数名称Bacth sizeEpochs初始学习率学习衰减率优化器数值241500.000 50.01AdamW表 5数据集 FERPlus和 RAF-DB的表情数量Tab.5Number of images expression from FERPlus and RAF-DBDataFER-PlusRAF-DBAnger2 100867Disgust1

35、19877Fear532355Happy7 2875 957Sad3 0142 460Surprise3 1491 619Neutral8 7403 204Contempt119-527第 39 卷液晶与显示3.3实验结果与分析3.3.1 消融实验及其分析在数据集 RAF-DB 上对不同的改进方案进行实验,可以验证各部分模块对模型整体的作用效果,实验结果见表 6。分析表 6 可知,方案 1 主干网络 Base 中的激活 函 数 为 Hardswish。方 案 2 引 入 Mish 替 换Hardswish,不仅降低了模型复杂度,而且提升了识别准确率。方案 4单独引入条件坐标注意力机制 NCA,

36、虽然模型复杂度变高,但是识别准确率得到提升,说明条件坐标注意力机制能够有效提升模型的特征提取能力。方案 6 同时引入 Mish和 NCA 后,模型复杂度得到降低,与方案 1 相比准确率提升了 1.76%,说明二者的引入具有相互促进作用。对比方案 5和方案 6,可以看出方案 6准确率更高,更适合人脸表情的识别任务。3.3.2 对比实验及其分析深度学习模型性能优劣的评估不只有准确率等指标,还应该兼顾模型参数量、模型复杂程度、推理时间等指标。为了更好地对比本文方法和最新的人脸表情识别算法的性能,本文对部分表情识别算法进行复现,并提取其关键性指标进行对比实验。在 FERPlus 和 RAF-DB 数据

37、集上进行相关实验,结果见表 7。分析表 7可知,本文所提方法在数据集 FERPlus 和 RAF-DB 上准确率最高,分别为 88.84%图 6FERPlus和 RAF-DB数据集样例图Fig.6Example diagram of FERPlus and RAF-DB dataset表 6NCA-MobileNet消融实验Tab.6Ablation experiment of NCA-MobileNet方案123456BaseMishCANCAParams/M3.413.413.543.543.543.54FLOPs/M826.15824.14827.94827.94825.93825.93

38、RAF-DB Acc/%84.1484.4484.7684.7885.1285.90表 7各模型算法性能对比Tab.7Performance comparison of various modelsModelLDR14DSAN15MFN16MFN+16CERN17Ada-CM18MobileNet V3SMobileNet V3L本文方法Params/M-31.008.261.4511.181.524.213.54FLOPs/M-16 9508 1101 7801 81958.79227.95825.93Inference time/ms-5.697.935.457.636.19FERPlus

39、 Acc/%87.60-87.4788.0787.6888.0188.84RAF-DB Acc/%-85.3785.3982.4384.0885.0283.6584.4485.90528第 4 期左义海,等:NCA-MobileNet:一种轻量化人脸表情识别方法和 85.90%。本文方法与 MobileNet V3S 网络相比,在 FERPlus和 RAF-DB数据集上准确率分别提高 1.16%和 2.25%;与 MobileNet V3L网络相比,参数量减小 15.91%,推理时间减少 18.87%,准确率分别提高 0.83%和 1.46%。与最近的表情 识 别 算 法 LDR、DSAN、M

40、FN、CERN、Ada-CM 等相比,本文方法的参数量较小,模型推理时间适中,准确率最高。上述试验验证了本文方法对人脸面部表情识别的有效性。3.3.3 混淆矩阵及其分析绘制 FERPlus 和 RAD-DB 数据集的混淆矩阵,如图 7所示。分析图 7可知,图 7(a)、(b)两个混淆矩阵中高兴表情的识别率最高,都为 95%,这是因为高兴标签的图像数量最多,拥有丰富的表情特征,易于与其他表情区别开。FERPlus混淆矩阵中,蔑视、厌恶、恐惧表情的误识别率较高,蔑视表情被误识别为中性表情的概率为17%,厌恶表情被误识别为愤怒表情的概率为 13%,恐惧表情被误识别为惊讶表情的概率为13%。这是因为这

41、些误识别的表情和正确表情之间拥有高度相似的外观特征,易造成混淆,从而判断失误。悲伤表情被误识别为中性表情的概率为13%。分析可知,悲伤表情的部分图像表情表现程度较轻,人为判定存在歧义,数据集前期图像标注时存在误标注的现象。RAF-DB 混淆矩阵中,厌恶与恐惧表情的识别率最低,厌恶表情被误识别为生气表情的概率为6%,恐惧表情被误识别为惊讶表情的概率为11%。这同样是因为这些表情拥有高度相似的区域特征,易造成混淆。3.3.4 热力图可视化分析本文对部分测试图像进行特征区域可视化,使用基于公理的梯度类激活映射(Axiom-based 图 7不同数据集上的混淆矩阵Fig.7Confusion matr

42、ix on different datasets图 8表情热力图Fig.8Heat maps of different expressions529第 39 卷液晶与显示Grad-CAM,XGradCAM)19可以显示出不同类别的识别概率与输入图片中的像素敏感区域,可以直观地解释和分析模型所激活的脸部位置,有助于表情识别的进一步研究。使用 RAF-DB 数据集中部分图片用于测试,对不同表情进行特征可视化显示,其结果如图 8所示。类激活图中的白色区域为类别表情热力图概率的敏感区域。类激活热力图中的蓝色圈部分为敏感区域,越敏感的区域则温度越高、颜色越红。分析图 8 可知,由原图上的类激活热力图可以

43、看出,每一表情类别的主要敏感区域都不同,很容易区分。但是厌恶和害怕的敏感区域重合较多,这也反映出二者在类别判断时有许多类似特征区域,容易造成误识别的情况出现,从而使得二者的识别准确率下降。4 结论本文研究了一种结合条件协调注意力机制的轻量化人脸面部表情识别方法。模型构建中,为了获取人脸面部不同表情的深层特征信息,首先增大深度卷积中间通道数,并引入新的激活函数代替原激活函数,降低模型复杂度,提升推理速度;然后加入改进后的条件协调注意力机制,在充分提取表情本身特征基础上,尽可能获取不同表情区域的特征信息进行编码,提升表情识别准确率。在公开数据集 FERPlus 和 RAF-DB 进行实验,结果表明

44、,所提方法的参数量为 3.54M,准确率分别为 88.84%和 85.90%,优于目前主流的 CERN等轻量级表情识别算法。参 考 文 献:1 YU M,GUO Z Q,YU Y,et al.Spatiotemporal feature descriptor for micro-expression recognition using local cube binary pattern J.IEEE Access,2019,7:159214-159225.2 EKMAN P,FRIESEN W V.Constants across cultures in the face and emotio

45、n J.Journal of Personality and Social Psychology,1971,17(2):124-129.3 LI Y,ZENG J B,SHAN S G,et al.Occlusion aware facial expression recognition using CNN with attention mechanism J.IEEE Transactions on Image Processing,2019,28(5):2439-2450.4 WANG K,PENG X J,YANG J F,et al.Suppressing uncertainties

46、for large-scale facial expression recognition C.2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Seattle,USA:IEEE,2020:6896-6905.5 WANG K,PENG X J,YANG J F,et al.Region attention networks for pose and occlusion robust facial expression recognition J.IEEE Transactions on Image Proc

47、essing,2020,29:4057-4069.6 李召峰,朱明.基于视频放大和双分支网络的微表情识别 J.液晶与显示,2022,37(3):386-394.LI Z F,ZHU M.Micro-expression recognition based on video magnification and dual-branch network J.Chinese Journal of Liquid Crystals and Displays,2022,37(3):386-394.(in Chinese)7 HOWARD A G,ZHU M L,CHEN B,et al.MobileNets

48、:efficient convolutional neural networks for mobile vision applications J/OL.arXiv,2017:1704.04861.8 SANDLER M,HOWARD A,ZHU M L,et al.MobileNetV2:inverted residuals and linear bottlenecks C.2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City,USA:IEEE,2018:4510-4520.9 H

49、OWARD A,SANDLER M,CHEN B,et al.Searching for MobileNetV3 C.2019 IEEE/CVF International Conference on Computer Vision.Seoul:IEEE,2019:1314-1324.10 DIGANTA M.Mish:a self regularized non-monotonic neural activation function J/OL.arXiv,2019:1908.08681.11 BARSOUM E,ZHANG C,FERRER C C,et al.Training deep

50、networks for facial expression recognition with crowd-sourced label distribution C/Proceedings of the 18th ACM International Conference on Multimodal Interaction.Tokyo:ACM,2016:279-283.12 LI S,DENG W H,DU J P.Reliable crowdsourcing and deep locality-preserving learning for expression recognition in

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服