收藏 分销(赏)

嵌入注意力的GaborCNN快速人脸表情识别方法.pdf

上传人:自信****多点 文档编号:716135 上传时间:2024-02-20 格式:PDF 页数:8 大小:23.58MB
下载 相关 举报
嵌入注意力的GaborCNN快速人脸表情识别方法.pdf_第1页
第1页 / 共8页
嵌入注意力的GaborCNN快速人脸表情识别方法.pdf_第2页
第2页 / 共8页
嵌入注意力的GaborCNN快速人脸表情识别方法.pdf_第3页
第3页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 22卷 第 9期2023年 9月Vol.22 No.9Sept.2023软 件 导 刊Software Guide嵌入注意力的Gabor CNN快速人脸表情识别方法南亚会1,2,华庆一1,刘继华2(1.西北大学 信息科学与技术学院,陕西 西安 710127;2.吕梁学院 计算机科学与技术系,山西 吕梁 033001)摘要:人脸表情识别是智能人机交互研究的基础问题之一,面部情绪变化与嘴、眼睛、眉毛、鼻子等区域密切相关,这些特征对识别表情非常重要。为此,提出一个由4个Gabor滤波卷积层、注意力模块和两个全链接层组成的注意力Gabor卷积网络,同时使用不平衡损失focal loss对网络进行优

2、化。首先,通过Gabor核与传统卷积滤波器调制的Gabor定向滤波器相较于传统卷积滤波器能更好地捕获感兴趣区域的信息,然后利用通道注意力、空间注意力模块提取区域中更关键的特征。在FERPlus和RAF-DB数据集上的实验表明,该模型结构简单、易于训练、计算成本低,识别精度分别达到88.39%、87.22%。关键词:人脸表情识别;Gabor 方向滤波器;Gabor 卷积网络;通道注意力;空间注意力DOI:10.11907/rjdk.231549开 放 科 学(资 源 服 务)标 识 码(OSID):中图分类号:TP391.41 文献标识码:A文章编号:1672-7800(2023)009-018

3、2-08Gabor CNN Fast Facial Expression Recognition Method with Embedded AttentionNAN Yahui1,2,HUA Qingyi1,LIU Jihua2(1.College of Information Science and Technology,Northwest University,Xian 710127,China;2.Department of Computer Science and Technology,Luliang University,Luliang 033001,China)Abstract:F

4、acial expression recognition is one of issue in intelligent human-computer interaction research.Facial emotion changes are closely related to areas of interest such as the mouth,eyes,eyebrows,nose,etc.These features are very important for recognizing facial expressions.To this end,an attention Gabor

5、 convolutional network consisting of four Gabor filtering convolutional layers,an attention module,and two fully linked layers is proposed,and the network is optimized using imbalanced loss focal loss.Firstly,Gabor directional filters modulated by Gabor kernels and traditional convolutional filters

6、can better capture information about regions of interest compared to traditional convolutional filters.Then,channel attention and spatial attention modules are used to extract more critical features in the region.The experiments on FERPlus and RAF-DB datasets show that the model has a simple structu

7、re,is easy to train,and has low computational costs.The recognition accuracy reaches 88.39%and 87.22%,respectively.Key Words:facial expression recognition;Gabor orientation filter;Gabor convolutional network;spatial attention module;channel attention module0 引言人脸表情识别(Facial Expression Recognition,FE

8、R)是面部相关的研究中较为复杂的任务。通过分析、识别人脸生物特征来反映一个人的情绪状态,在人机交互、机器智能、医疗、虚拟现实等领域有重要作用。目前为止学术界、工业界对该问题进行了许多研究。人脸表情识别一直是计算机视觉和人机交互领域的热点问题,表情识别的目的是基于人脸图像识别人类的惊讶、收稿日期:2023-05-26基金项目:山西省教育厅研究生教育教学改革课题(2022YJJG310);山西省教育厅高等学校教学改革创新项目(J20221157);吕梁市重点研发项目(2022GXYF17,2022GXYF16)作者简介:南亚会(1981-),女,西北大学信息科学与技术学院博士研究生、吕梁学院计算机

9、科学与技术系副教授,研究方向为人机交互、计算机视觉、图像处理;华庆一(1956-),男,西北大学信息科学与技术学院教授,研究方向为人机交互、软件工程;刘继华(1975-),女,吕梁学院计算机科学与技术系教授,研究方向为云计算、软件测试。本文通讯作者:华庆一。第 9 期南亚会,华庆一,刘继华:嵌入注意力的Gabor CNN快速人脸表情识别方法悲伤、恐惧等情感状态,使机器能感知、理解人类情感,从而更好地与人类交流互动。近几年,具有强大特征学习能力的深度学习技术得到了迅速发展,已被广泛应用于面部相关问题研究,例如人脸检测、人脸识别、表情、年龄和性别识别等。其中,卷积神经网络(Convolutiona

10、l Neural Network,CNN)使表情识别准确率得到了大幅提升,但CNN最大的缺点是忽略了不同特征间的相对位置,无法从图像中识别姿态、纹理和位置变化。同时,池化操作会丢失部分信息,因此需要更多训练数据对损失进行补偿。此外,CNN无法学习特征间的关系,倾向于记忆数据而非理解数据,基于CNN的特征提取仅属于数据驱动技术。虽然,CNN强大的特征学习能力为FER发展作出了贡献,但仍有一些问题尚待解决。例如,CNN需要足够多的数据来训练模型,避免模型发生过拟合现象,但现有面部表情数据库不足以训练具备深度结构的神经网络,并且实际场景中夹杂着光照、姿态、遮挡等干扰因素,需要模型具有更好的类内差异能

11、力和有效的表情差异表征。同时,在面部相关问题中需要分辨面部特征的细微差别,例如嘴角、眼角变化幅度、皱纹的深浅等。研究表明,面部情绪的变化与嘴、眼睛、眉毛和鼻子区域等区域密切相关,但普通CNN无法较好地检测、定义面部特征位置关系的差异。为了增强CNN对方向和尺度变化的适应能力,Luan等1使用传统手工制作的Gabor小波2调制可学习的卷积滤波器,以减少可学习网络参数数量,增强学习特征对方向和尺度变化的鲁棒性。由于Gabor滤波器和哺乳动物视觉系统中简单细胞的接受频谱非常相似,具有检测纹理、边缘和方向的能力,且 Gabor滤波器与 CNN低层卷积作用类似,因此在分类任务中准确率较高3。人脸感兴趣区

12、域(Region of Interest,ROI)是视觉内容丰富的区域。Gabor 滤波器既能表征人脸的空间频率结构,又能有效捕获人脸ROI特征,因此广泛应用于FER任务。Gabor 方向滤波器(Convolutional Gabor orientation Filter,GoF)1结合了 Gabor 滤波器与传统卷积滤波器的优点,在捕获输出特征图中的空间定位、方向选择性、空间频率选择性等视觉特性方面优于传统卷积核,可有效提取人脸ROI的特征,因此使用GoF的深度卷积网络相较于传统CNN更适合FER。综上,本文提出用于FER任务的轻量级注意力的Gabor卷积网络(Gabor Convoluti

13、onal Network,GCN)。其中,GoF为CNN的基本元素,在卷积滤波器上即可实现,易于集成到任何深度架构中。带有注意力机制的GoF卷积神经网络被称为AGCN,可学习更健壮的特征表示,对具有空间转换的图像优势明显。此外,由于GoF由一组可学习的卷积滤波器组成,因此AGCN模型更紧凑、易于训练。分析表明,GoF在提取面部ROI特征方面相较于传统滤波器更有效,因此在研究不同深度(层数)、宽度(卷积层中的单元数)和卷积核尺寸的AGCN体系结构后,设计了一个最优 AGCN 模型。同时,将最优 AGCN 模型与 CNN 架构的AlexNet4、VGGNet5、ResNet6和 CapsNet7比

14、较发现,所提模型识别精度较好,参数量、空间资源最少。在 FERPlus8和 RAF-DB9数据集上的实验表明,所提方案优于目前较先进的FER方法。1 相关工作1.1Gabor滤波器Gabor小波使用复函数作为信息理论应用中傅里叶变换的基础,标准差的乘积在时域和频域均最小。Gabor滤波器10是一种有效的图像表示学习特征提取器,可从图像中提取不变的信息。Gabor函数基于特定频率和方向的正弦波,表征图像的空间频率信息。二维Gabor滤波器为正弦波调制的高斯核函数,由虚部和实部组成。实部可描述为:g,(x,y)=exp(-x+y222)cos(2x+)(1)式中:x=xcos+ysin;y=-xs

15、in+ycos;表示Gabor滤波核的实部波长;表示Gabor函数的平行条纹的法线方向,有效值为0360的实数;表示相位偏移,有效值为-180180,0、180的方程与原点对称,-90、90的方程分别于原点成中心对称,是两项直角坐标系中的余弦函数;表示空间纵横比,即Gabor滤波器的椭圆度;表示Gabor过滤器中实用的高斯函数标准差。图 1为 Gabor滤波器对人脸图像提取特征的示例,表明Gabor滤波器能较好地寻找与给定相对应的纹理,Hosseini等11研究表明,使用Gabor滤波特征作为输入能提升CNN的性能。Ou等12利用经典的8个方向与4个尺度的Gabor滤波识别人脸表情,尽管Gab

16、or小波可处理图像的尺度和方向变换,但结构较浅,在大规模数据集的分类任务或复杂任务中表现不佳。为此,许多研究者试图结合Gabor小波与深度卷积神经网络进行图像表示学习。Meng等13,14使用不同尺度和方向参数的Gabor滤波器提取表情局部有用特征,将提取的特征作为数据训练 CNN 用于人脸表情识别。VermaFig.1Gabor filter banks extracting facial image features图1Gabor滤波器组提取人脸图像特征 1832023 年软 件 导 刊等15首先基于Viola-Jones检测算法检测整幅图像中的人脸图像,然后利用Gabor滤波器在空间域中

17、提取人脸特征,以捕获所有方向的整个频谱,接下来利用Gabor滤波器提取有意义的面部特征,最后将提取的人脸图像Gabor特征作为人工神经网络分类器的输入,对人脸表情进行分类。综上,大部分工作均将 Gabor特征或结合提取的 Gabor特征和原始图像作为CNN输入来训练模型。Luan等1实现了Gabor卷积神经网络,在每个卷积层中通过不同方向、尺度的Gabor滤波器调制卷积滤波器,生成卷积Gabor方向滤波器,赋予卷积滤波器额外的能力以捕获输出特征图中的空间定位、方向选择性、空间频率选择性等视觉属性。Jiang 等16提出由 4 个 Gabor 卷积层和两个全连接组成的轻量Gabor卷积网络用于F

18、ER任务,在FER2013、FERPlus和RAF-DB数据集上的实验表明,所提方法具有良好的识别精度和较低的计算成本。Hosseini等17提出结合人脸的Gabor滤波响应与原始人脸图像作为CNN输入,增强了人脸的褶皱特征,在卷积层早期阶段就能发现面部特征,从而提升了表情识别的整体性能。同时,采用胶囊网络思想捕获面部特征间的关系,被证明对物体的旋转具有鲁棒性。结果表明,该算法相较于普通CNN、胶囊网络性能更优,将Gabor滤波特征作为胶囊网络的输入能提升表情识别的整体性能。1.2Gabor方向滤波器Gabor滤波器具有 U方向和 V尺度,能将方向信息编码到学习滤波器中,将尺度信息嵌入不同层中

19、,将可操纵特性融入到Gabor卷积网络中,以捕获输入图片的方向和尺度信息,从而增强相应的卷积特征。标准CNN中的卷积滤波器在经过Gabor滤波器调制前,通过反向传播算法进行学习,称为学习滤波器。假设一个学习滤波器的大小为NWW,其中WW为2D滤波器大小(N个通道)。为了实现方便,选择N为U用于调制该学习滤波器的Gabor滤波器的方向数,在已知滤波器上使用U个Gabor滤波器为给定尺度进行滤波,计算如式(2)所示,具体流程如图 2 所示。其中,左半部分为GoF的调制过程;右半部分展示了一个4通道GCN卷积的例子,在GoF中为了实现方便,通道数设为Gabor方向数U。传统CNN卷积核的基本单位是K

20、K大小的二维滤波器,而 Gabor 卷积神经网络的基本单位是 GoF,通常定义为1:Cvi=(Cvi,1,.,Cvi,u,.,Cvi,U)()2第v个尺度定义为:Cvi,u=Ci,o G(u,v)()3式中:G(u,v)表示一组KK的Gabor核(实部)10;1uU、1vV分别表示方向和频率;Ci,o为一个UKK大小的学习滤波器;表示G(u,v)、Ci,o每个2D滤波器间的点乘运算(即Cvi,u也为UKK),因此第i个GoF的Cvi实际上是一个UUKK的滤波器。相较于传统 CNN 中 HW 特征图的不同之处在于,GCN特征图F为UHW。因此,F与一个GoF、Cvi间的Gabor卷积运算描述为:

21、F=GCConv(F,Cvi)()4式中:输出特征映射F包含U个通道。F的第k个通道如式(5)所示。Fk=F*Cvi,u=k,1 k U()5式中:*表示标准的3D卷积操作。在Gabor卷积神经网络中,Gabor滤波器是调制学习的卷积滤波器。具体地,将CNN的基本元素卷积滤波器改为GoF,以加强Gabor滤波器对每个卷积层的影响。因此,在深度卷积神经网络中集成Gabor滤波器,能增强深度特征对方向和尺度变化的抵抗力。在每个卷积层中,卷积滤波器由不同方向和尺度的Gabor 滤波器调制产生卷积 Gabor 方向滤波器(Gabor Orientation Filter,GOF),赋予了卷积滤波器额外

22、的能力,以捕获输出特征图的空间定位、方向选择性、空间频率选择性等视觉属性。1.3CBAM注意力卷积模块CBAM 注意力机制18由通道注意力机制(channel)和空间注意力机制(spatial)组成。传统基于卷积神经网络的注意力机制倾向于关注、分析通道域,局限于考虑特征图通道间的作用关系。CBAM 从通道和空间两个作用域出发,引入空间注意力和通道注意力两个分析维度,组成了从通道到空间的顺序注意力结构。其中,空间注意力可使神经网络更关注图像中对分类起决定作用的像素区域,忽略无关紧要的区域;通道注意力则用于处理特征图通道的分配关系,对两个维度进行注意力分配以增强注意力机制对模型性能的提升效果。学习

23、滤波器 Gabor滤波器块 GoF 输入特征图(F)GoF 输出特征图()433 4,343 4433 1 43232 44 33 14 3030 Gabor卷积FFig.2Filter modulation process and examples图2滤波器调制流程与示例 184第 9 期南亚会,华庆一,刘继华:嵌入注意力的Gabor CNN快速人脸表情识别方法1.3.1通道注意力机制模块图3为CBAM中的通道注意力机制模块。首先,将输入特征图分别输入全局最大池化和全局平均池化,基于两个维度压缩特征映射,获得两张不同维度的特征描述,池化后的特征图共用一个多层感知器网络。然后,通过一个全连接层

24、减少通道数,再通过另一个全连接恢复通道数,将两张特征图在通道维度进行堆叠,经过 sigmoid激活函数将特征图每个通道的权重归一化到01。最后,将归一化后的权重和输入特征图相乘。1.3.2空间注意力机制模块图4为CBAM中的空间注意力机制模块,主要对通道注意力机制的输出特征图进行空间域的处理。首先对输入特征图在通道维度下进行最大池化和平均池化,将池化后的两张特征图在通道维度进行堆叠。然后,使用77或33、11大小的卷积核融合通道信息,使特征图的维度由b,2,h,w 转化为 b,1,h,w。最后,将卷积后的结果经过sigmoid函数对特征图的空间权重进行归一化,再将输入特征图和权重相乘。1.3.

25、3CBAM注意力机制图5为CBAM注意力模块总体流程。首先将输入特征图经过通道注意力机制;然后将通道权重和输入特征图相乘后输入空间注意力机制;最后将归一化后的空间权重和空间注意力机制的输入特征图相乘,得到最终加权后的特征图。2 基于CBAM的Gabor卷积神经网络模型Gabor 卷积网络使用 Gabor 定向滤波器(GoF)的深度卷积神经网络。其中,GoF为一种可操纵的滤波器,通过Gabor滤波器组操纵学习到的卷积滤波器生成增强后的特征映射,使用Gabor卷积的GCN网络可学习更少的滤波器参数,且注意力模块既不会增加较多参数,还能增强局部特征的提取能力。本文模型结构如图 6所示,由 4个 Ga

26、bor卷积层、4个CBAM 注意力模块和两个全连接层组成。其中,Gabor滤波器包含45、90、135、180方向,即U=4;在Gabor卷积层中“433,8”表示8个Gabor方向滤波器,其学习滤波器的输入特征最大池化通道注意力模块通道注意力特征权值参数共享全局池化特征输入初始域接受域输出特征HWC11C11C11C11(C/4)11(C/4)全局池化全连接层ReLU函数激活层全连接层Sigmiod函数激活层平均池化Fig.3Channel attention mechanism module in CBAM图3CBAM中的通道注意力机制模块空间注意力模块通道注意力模块改进后的特征输入最大池

27、化平均池化卷积层(卷积核33)空间注意力特征Fig.4Spatial attention mechanism module in CBAM图4CBAM中的空间注意力机制模块F 通道注意力模块空间注意力模块 FFMc FFFFMs Fig.5CBAM attention module图5CBAM注意力模块Fig.6AGCN model architecture图6AGCN模型架构 1852023 年软 件 导 刊大小为433,且尺度值V在不同深度处不同;Max操作选择每个特征映射的最大通道(每个特征映射包括 u 个通道);flatten操作将6455特征转换为1 6001的向量,在所提 AGCN

28、 模型中激活函数为 ReLU,最大池化核大小为22,dropout为0.5。在RAF-DB数据集上测试的AGCN模型结果如表1所示。其中,AGCN4(55)为本文模型,由图2可见其他模型也具有类似结构,即串联 GC层、注意力模块和 2个 FC层(第一个 FC 层的输出为 1 6001 的向量)。例如,AGCN4(55)_8有4个GC层,每个GC层中的GoF数量分别为8、16、32、64,输入数据从 100100灰度图片中随机裁剪 9090的图片。AGCN3(33)、AGCN3(55)、AGCN3(77)模型层数和GoF数量不变,增大卷积核大小既增加了模型参数量,还会降低准确率。AGCN3系列模

29、型相较于AGCN4系列模型速度更快,但精度至少降低 1.6%。AGCN4 相较于 AGCN5 在精度和运行效率方面更优,以此证明了不能简单通过增加Gabor卷积层和注意力模块来提升性能。因此,本文综合考虑模型的识别精度和计算复杂度,采用AGCN4(55)模型进行后续实验。3 实验与结果分析3.1实验准备本文实验机器配置为 Intel(R)Xeon(R)Gold 5117 CPU 2.00 GHz,64 GB RAM,NVIDIA GeForce RTX 3090,24 GB GPU,在一台Linux服务器上使用Python开发语言和PyTorch深度学习框架实现。实验数据集为两个基准表情数据集

30、 FERPlus8和RAF-DB9。其中,FERPlus 数据集属于 FER2013 数据集的扩展,标注了10个标签,主要关注由多数投票选出的高兴、生气、悲伤、惊讶、恐惧、厌恶和平常表情图片;RAF-DB数据集是一个大规模面部表情数据集,包含3万张面部图片,由 40名训练有素的人类编码员标注了基本或复合表情。为了便于计算,本文只使用了含有基本表情的图片,其中 12 271张用于训练,1 225张用于验证,3 068张用于测试。在图像预处理环节从大小为 100100的灰度输入图片中,随机裁剪出一张 9090图片,所有图片进行归一化处理。为了防止模型发生过拟合,提升模型泛化能力,将图片在1010间

31、随机旋转,并以50%的概率随机水平翻转进行数据增强。在训练与测试环节,使用Adam优化器对模型进行端到端训练,每批次64个样本,动量系数衰减值为0.9,共训练200个epoch,学习率每25次衰减50%,学习率初始值为0.001。本文采用10-crop方法来识别测试图片,首先将一张测试图片裁剪为 10 张 9090 大小,然后将其分类为这 10张裁剪图像平均得分最高的类别。3.2实验结果本文模型在RAF-DB和FERPlus数据集上的混淆矩阵如图7所示。由此可见,高兴表情的识别率最高,厌恶表情的识别率最低。在RAF-DB数据集上,惊讶表情容易误识别为平常或高兴,恐惧表情容易误识别为惊讶、悲伤、

32、高兴或生气,厌恶表情容易误识别悲伤、平常、高兴或惊讶,高兴表情容易误识别为平常,悲伤表情容易误识别为平常或高兴,生气表情容易误识别为高兴或恐惧,平常表情容易误识别为悲伤或高兴。在FERPlus数据集上,生气表情容易误识别为平常、高兴或悲伤,厌恶表情容易误识别为生气、平常和悲伤,恐惧表情容易误识别为惊讶或悲伤,高兴表情容易误识别为平常,平常表情容易误识别为悲伤或高兴,悲伤表情容易误识别为平常,惊讶表情容易误识别为平常。图 8 为误识别的表情图片,一部分误识别是因为遮挡、光照、模糊等客观因素所导致。由此可见,当数据集搜集、标注等不一致时,每个数据集所呈现的误识别现象并不统一,但高兴表情均容易被误识

33、别为平常,原因是高兴表情和平常表情在日常生活中最为常见,有些人在高兴的Table 1Performance comparison of 8 AGCN models on RAF-DB datasets表18种AGCN模型在RAF-DB数据集上的性能比较模型AGCN3(33)AGCN3(55)AGCN3(77)AGCN4(33)AGCN4(33)AGCN4(55)AGCN5(55)AGCN5(55)GC层GoF数16/32/6416/32/6416/32/6416/32/64/128(3 200-3 200)8/16/32/64(1 600-1 600)8/16/32/64(1 600-1 60

34、0)8/16/32/64/12816/32/64/128/256输入(原始图像)4444(4848)4444(4848)4444(4848)9090(100100)9090(100100)9090(100100)200200(224224)200200(224224)参数量/M2.712.873.1211.352.712.8922.5390.06准确率84.4284.1683.9586.1186.0287.2285.9786.92训练时间/s4.154.204.317.996.056.1318.8543.08RAF-DB数据集上混淆矩阵准确率87.22%惊讶恐惧厌恶高兴悲伤生气生气平常惊讶惊讶

35、惊讶恐惧恐惧恐惧厌恶厌恶厌恶高兴高兴高兴悲伤悲伤悲伤生气生气平常0.80.60.40.20.00.80.60.40.20.0平常平常FERPlus数据集上混淆矩阵准确率88.39%Fig.7Confusion matrix图7混淆矩阵 186第 9 期南亚会,华庆一,刘继华:嵌入注意力的Gabor CNN快速人脸表情识别方法时候脸部表现十分明显,然而有些人与平常表情的差异不大。图 9 为与本文架构相同的 GCN 和 AGCN 模型提取的特征热力图。由此可见,AGCN模型提取的特征注意力较为集中,使得大部分表情关键区域局部特征的提取能力得到了提升;GCN模型提取特征分散,例如平常表情关注眼睛和嘴

36、巴区域变化,该模型只提取嘴巴区域的特征,因此容易产生分类错误。3.3比较实验将 本 文 AGCN 模 型 与 AlexNet19,VGG1619、VGG1920、ResNet-1819、ResNet-3420和 CapsNet21这些在FER中广泛使用的知名CNN架构进行比较,结果如表2所示。由此可知,本文模型在RAF-DB、FERPlus数据集上识别精度最优,AlexNet、CapsNet模型相较于其他模型明显较 差。在 精 度 方 面,AGCN 模 型 相 较 于 传 统 VGG16、ResNet-18模型的性能更高,在 RAF-DB 数据集上使用一个 epoch来评估模型的计算复杂度发现

37、,AGCN 模型的训练时间 6.13 s,分别为 AlexNet、VGG16、ResNet18 的 1/7、1/21、1/8。综上,本文模型相较于 FER 领域一些高效的 CNN 架构而言,具有更好的识别精度,所需计算资源和内存成本更少。3.4FER性能比较为了使模型达到最优精度,许多方法在大型数据集上进行预训练。为此,本文模型在focal loss损失的监督下,在 AffectNet 数据集22上进行预训练,具体结果如表 3 所Fig.8Examples of misidentification on two datasets图8两个数据集上误识别样例Fig.9Model character

38、istic heat map图9模型特征热力图 1872023 年软 件 导 刊示。本文模型的识别率分别为 88.39%、87.22%,SPD-Attention局部流行注意力网络架构20通过流行注意力模块,对原始图片和 n张局部裁剪图片的联合特征向量提取的分类特征进行表情预测,整体识别率为87.9%和86.63%,但模型相当复杂,不利于实际使用。A-MobileNet23为基于轻量级 MobileNet V1的注意力模型,模型深度为 27 层,参数量为 3.4 M,在 FERPlus、RAF-DB 数 据 集 上 分 别 达 到 88.11%、84.49%识 别 率。SCN+ResNet18

39、24为了抑制表情数据集中不确定性,提出一种简单、有效的自治愈网络,在RAF-DB数据集上识别率相较于本文方法提升了 0.92%,模型参数量为 11 M。DICNN25为双集成卷积神经网络,参数量较少速度快,可在移动端部署,但识别精度相对较低。孙冠26为了缓解注意力网络对重点局部区域关注不充分的问题提出滑动窗口块,设计了由ResNet-50网络提取特征图+注意力模块的滑动块注意力网络+注意力模块的全局注意力网络组成的LGSBAN-AM 模型,该模型相较于本文方法效果几乎相当,但基于ResNet-50网络的参数非常多且不易训练。黄苑琴27提出在VGG16模型中加入SGE注意力模块以增强特征提取能力

40、,在FERPlus数据集上达到了89.5%的识别率,但在 RAF-DB 数据集上仅为 86.7%。吴晗28提出在ResNet-18网络中引入通道注意力模块+空间注意力模块+区域特征编码模块识别表情,但在FERPlus数据集的准确率相较于本文方法降低了 4.69%。赵爽29提出融合多尺寸的局部注意视觉Transformer表情识别方法MS-LAViT,识别效果相较于本文方法在 FERPlus、RAF-DB 数据集上分别提升0.51%、0.26%,但训练ViT模型需要大量的训练数据和算力。王广宇30提出改进残差网络Y-Net表情识别方法,相较于本文方法在FERPlus、RAF-DB数据集上的精确度

41、分别降低1.89%和2.02%。综上,本文所提 AGCN 模型不仅结构简单,而且在识别率、参数量和消费算力等方面较为均衡,在 FERPlus、RAF-DB 自然环境数据集上的识别精度优于大多数最新的FER方法,原因在于情绪识别与某些识别任务不同,主要依赖面部ROI信息。例如,对于人脸识别而言,整个面部信息相较于局部特征更重要,GOF刻画局部纹理的特征非常有利,CBAM注意力模块可在通道和空间层集中提取更为显著的特征,因此AGCN模型能有效提取面部表情且所需计算资源非常少。同时,本模型仍属于一种CNN,因此能与任何应用于FER领域的传统CNN的技术相结合。4 结语由于面部表情变化主要集中在眼睛、

42、眉毛、嘴巴和鼻子等局部区域,Gabor滤波器特别适用于局部纹理,Gabor核与传统卷积滤波器调制的 GoF在捕获面部 ROI特征方面非常有效。因此,本文在使用GoF的深度CNN基础上引入注意力模块,提出一个仅为 6 层结构的轻量级 AGCN模型。实验表明,本文所提模型相较于 AlexNet、VGG16、VGG19、ResNet-18、ResNet-34和CapsNet这些在FER中广泛使用的知名CNN架构而言,识别性能更好且所需计算资源更少。参考文献:1 LUAN S Z,CHEN C,ZHANG B C,et al.Gabor convolutional networksJ.IEEE Tra

43、nsactions on Image Processing,2018,27(9):4357-4366.2 GABOR D.Theory of communication.part 1:the analysis of informationJ.Journal of the Institution of Electrical Engineers-part III:Radio Communication Engineering,1946,93(26):429-441.3 ALEKSEEV A,BOBE A.GaborNet:Gabor filters with learnable parameter

44、s in deep convolutional neural network C/2019 International Conference on Engineering and Telecommunication,2019:1-4.Table 3Performance evaluation on the FERPlus and RAF-DB datasets表3FERPlus和RAF-DB数据集上的性能评估方法SPD-Attention20A-MobileNet23SCN+ResNet1824DICNN25LGSBAN-AM26SGE+VGG1627吴晗28MS-LAViT29王广宇30本文

45、方法年份202220222020202220222022202220222022FERPlus准确率/%87.9088.1188.0185.2988.7189.5083.7088.9087.5088.39RAF-DB准确率/%86.6384.4988.1486.0787.1586.7087.5087.4885.2087.22参数量/M3.4011.001.082.89Table 2Comparison of some well-known CNN architectures表2一些知名的CNN架构比较模型AlexNet19VGG1619VGG1920ResNet-1819ResNet-3420

46、CapsNet21GCN(55)AGCN(55)输入2272273224224322422432242243224224322422419090190901准确率/%FERPlus85.6287.6085.9587.8585.50-87.7088.39RAF-DB83.3785.8281.0186.0580.4879.1286.5787.22训练时间/s41.60129.10-47.60-6.006.13参数量/M134.3211.1821.292.842.89 188第 9 期南亚会,华庆一,刘继华:嵌入注意力的Gabor CNN快速人脸表情识别方法4 KRIZHEVSKY A,SUTSKE

47、VER I,HINTON G E.ImageNet classification with deep convolutional neural networksJ.Communications of the ACM,2017,60(6):84-90.5 SIMONYAN K,ZISSERMAN A.Very deep convolutional networks for large-scale image recognition DB/OL.https:/arxiv.org/abs/1409.1556.6 HE K M,ZHANG X Y,REN S Q,et al.Deep residual

48、 learning for image recognition C/Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778.7 SABOUR S,FROSST N,HINTON G E.Dynamic routing between capsules DB/OL.https:/arxiv.org/abs/1710.09829.8 BARSOUM E,ZHANG C,FERRER C C,et al.Training deep networks for facial ex

49、pression recognition with crowd-sourced label distribution C/Proceedings of the 18th ACM International Conference on Multimodal Interaction,2016:279-283.9 LI S,DENG W D,JUN P.Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild C/Proceedings of the IEEE

50、 Conference on Computer Vision and Pattern Recognition,2017:2852-2861.10 LEE T S.Image representation using 2D Gabor waveletsJ.IEEE Transactions on Pattern Analysis Machine Intelligence,1996,18(10):959-971.11 HOSSEINI S,LEE S H,KWON H J,et al.Age and gender classification using wide convolutional ne

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服