收藏 分销(赏)

深度残差卷积下多视角特征融合的人脸表情识别.pdf

上传人:自信****多点 文档编号:576712 上传时间:2024-01-02 格式:PDF 页数:11 大小:13.42MB
下载 相关 举报
深度残差卷积下多视角特征融合的人脸表情识别.pdf_第1页
第1页 / 共11页
深度残差卷积下多视角特征融合的人脸表情识别.pdf_第2页
第2页 / 共11页
深度残差卷积下多视角特征融合的人脸表情识别.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 28 卷 第 2 期2023 年 4 月哈 尔 滨 理 工 大 学 学 报JOURNAL OF HARBIN UNIVERSITY OF SCIENCE AND TECHNOLOGYVol.28No.2Apr.2023 深度残差卷积下多视角特征融合的人脸表情识别关小蕊1,高 璐2,宋文博1,林克正1(1.哈尔滨理工大学 计算机科学与技术学院,哈尔滨 150080;2.哈尔滨信息工程学院,哈尔滨 150431)摘 要:针对现实生活中多视角下人脸表情识别不够精准、计算量大等问题,提出了一种深度残差卷积下多视角特征融合的人脸表情识别模型 MVResNet-FER。首先改进 ResNet 中的残差

2、块,并使用深度可分离网络取代常规卷积网络。其次添加了 CBAM 模块,以增强多视角下有效特征的提取和浅层特征信息的补充。然后使用 RReLu 激活函数取代原始的 ReLu,避免梯度较大时部分节点出现失活。最后使用全局平均池化层代替全连接层实现降维,并将生成的特征向量送入 Softmax 进行分类。实验表明,本文方法在 CK+和 RaFD 数据集上产生了较优异的结果,能有效提高人脸表情识别的准确率。关键词:多视角;特征融合;深度可分离卷积;残差模型;表情识别DOI:10.15938/j.jhust.2023.02.014中图分类号:TP391.4文献标志码:A文章编号:1007-2683(202

3、3)02-0117-11Facial Expression Recognition with Multi-perspectiveFeature Fusion Under Deep Residual ConvolutionGUAN Xiaorui1,GAO Lu2,SONG Wenbo1,LIN Kezheng1(1.School of Computer Science and Technology,Harbin University of Science and Technology,Harbin 150080,China;2.Harbin Institute of Information T

4、echnology,150431,China)Abstract:Aiming at the problems of inaccurate facial expression recognition and large amount of calculation under multi-perspective in real life,a facial expression recognition model MVResNet-FER is proposed,which is based on multi-perspective featurefusion under deep residual

5、 convolution.The residual block in ResNet is first improved and the conventional convolutional network isreplaced with a depthwise separable network.Second,a CBAM module is added to enhance the extraction of effective features undermulti-perspective and the supplementation of shallow feature informa

6、tion.Then use the RReLu activation function to replace the originalReLu to avoid deactivation of some nodes when the gradient is large.Finally,the global average pooling layer is used instead of thefully connected layer to achieve dimensionality reduction,and the generated feature vector is sent to

7、Softmax for classification.Experiments show that the proposed method produces excellent results on the CK+and RaFD datasets,which can effectively improvethe accuracy of facial expression recognition.Keywords:multi-perspective;feature fusion;depth separable convolution;residual model;expression recog

8、nition 收稿日期:2022-05-20基金项目:国家自然科学基金(62071157);黑龙江自然科学基金(F2015040).作者简介:关小蕊(1996),女,硕士研究生;宋文博(1998),男,硕士研究生.通信作者:高 璐(1982),女,硕士,副教授,E-mail:.0 引 言面部表情是传递人类情绪状态的最直接方式之一1,传统人脸表情识别算法一般分为两个步骤:特征提取和分类器判别2,但是极难获取深度特征,且需要人为干预特征提取过程。目前关于人脸表情识别的研究为了实现更高的面部表情识别率而设计更加复杂的网络结构,最终导致网络模型参数量过大,训练模型花费时间长,最后的结果也难以实时呈现,

9、再加上日常生活中多视角下人脸表情容易受复杂环境的影响,具有较大的不稳定性。Dacha-pally 等3基于 CNN 和自动编码器,提出了 VanillaCNN 模型用于表情识别,虽然一定程度上提高了表情识别准确率,但该网络参数量巨大,最终网络难以收敛。Fan 等4提出了多区域集成框架 MRE-CNN用于表情识别,通过提取人脸的多个局部特征信息来提升 CNN 的学习能力,虽然提高了表情识别率,但大大增加了模型的参数计算量。Mollahosseini等5利用 Inception 结构设计了更深层的神经网络来识别表情,随着网络深度的增加,庞大的参数也深深的影响了整体性能。Chollet 等6在 In

10、ceptionV3网络的基础上提出了 Xception 轻量级网络框架,采用深度可分离卷积对特征图进行解耦,缩减参数量的同时有效的避免了过拟合。Google 开发团队推出了一个移动端轻量化网络 MobileNet,该模型采用深度可分离卷积取代标准卷积,并引入宽度因子和分辨率因子两个参数,在图像处理领域取得了较好的成绩7-8。Jung 等9提出的深度网络基于两种不同的模型,但只适用于部分小样本数据集。Kim等10使用不同学习策略训练多个深度 CNN 完成识别任务,但是网络结构和连接方式过于复杂导致训练过程繁琐耗时。周婕等11利用 TensorFlow 搭建改进的 ResNet 网络,最后结合 O

11、penCV 人脸检测分类器进行表情识别。Santra 等人12引入局部显著性启发二元模式来识别多视角人脸表情,通过似然分布以及像素强度来计算 LSiBP 特征。Allaert等13对多种光流方法在人脸数据集上的表现进行评估,让人充分理解了光流在表情识别背景下编码面部运动的充分性。Ahadit 等14提出了一种人脸表情识别系统,利用核极限学习机分类器的变分模态分解和鲸鱼优化进行人脸表情的判别。李一凡等15设计了一种基于全局空间注意力的表情识别方法,解决了传统机器学习方法识别结果泛化能力差的问题。史浩等16利用改进后的 VGG 模型,结合多尺度特征图融合策略提取表情信息,进行面部表情识别。李斌等1

12、7在 Xception 框架中利用平均池化将注意力连接方式改为并行连接,并对特征图随机抽取部分做规范化处理,提升了改进卷积神经网络在树木识别上的效果。高明宇等18提出一种基于 GoogLeNet 卷积神经网络的木节缺陷识别方法,利用 GoogLeNet 网络对木节缺陷进行图像处理,具有较高的识别准确率。随着网络模型的深度不断增加,导致参数量大幅度加大,出现计算复杂度高、模型整体性能不高、识别准确率低等问题。本文提出了一种深度残差卷积下多视角特征融合的人脸表情识别方法,以 In-ception 模块为基础,使用了深度可分离卷积(depth-wise separable convolution,D

13、SC),替换掉传统卷积,并添加了卷积注意力机制模块(convolutional blockattention module,CBAM)使网络能够在提取到多视角下人脸更多有用的表情特征,其中深度可分离卷积分步提取通道信息和空间信息。卷积注意力机制模块添加在卷积层后使网络关注有效信息,最后使用 CK+和 RaFD 人脸数据库进行大量实验。实验结果表明,将 MVResNet-FER 模型运用在多角度人脸表情数据集 CK+和 RaFD 上取得了良好的效果,验证了模型的有效性。1 相关基本理论1.1 注意力机制卷积注意力机制模块19由通道注意力和空间注意力两部分组成,将两种方式融合在一起能够进行多方位卷

14、积,提取到更重要的信息,增强了网络提取有效信息的能力。图 1 为 CBAM 原理图。图 1 CBAM 的原理图Fig.1 Schematic diagram of CBAMCBAM 模块的输入是从卷积层得到的矩阵 FRC H W。先对矩阵在通道维度上进行操作,分别是最大池化和平均池化操作,将提取到的两种特征压缩合并在一起,合并后的特征图经过单个卷积核的隐藏层生成通道权值矩阵 F1RC H W,如式(1)所示:F1=MS(F)F(1)空间注意力机制是对通道注意力机制的结果进行后续操作,是在空间维度上进行操作,再一次进行最大池化和平均池化操作,将特征图叠加压缩为一个信道描述符,经过空间压缩操作的计

15、算得到空间权值矩阵 F2,如式(2)所示。经过操作后可通过矩阵建立像素点之间的重要关系,突出重要的信息区域。811哈 尔 滨 理 工 大 学 学 报 第 28 卷F2=MS(F1)F1(2)其中:MS(F)为三维的通道压缩权值矩阵;MS(F1)为空间压缩权值矩阵;“”表示矩阵间乘操作。1.2 深度可分离卷积和残差网络传统卷积的计算过程相当于将通道和空间联合映射,而深度可分离卷积的思想是将通道和空间分开映射,可以极大地减小了网络模型的参数量和计算量。具体来说,将传统卷积分为两部分,一部分是深度卷积,另一部分是一个 1 1 的卷积。具体如图2 和图 3 所示。图 2 传统卷积Fig.2 Tradi

16、tional convolution graph图 3 深度可分离卷积Fig.3 Depthwise Separable Convolution使用传统卷积进行特征提取时:若输入是 DeDe M,卷积核为 Dk Dk M,输出为 Df Df N(N代表个数),则计算量如式(3)所示:Conv=Dk Dk M Df Df N(3)使用深度可分离卷积进行特征提取时,计算分为两步。首先计算深度卷积的计算量如式(4)所示:S-conv1=D2k1 D2f M(4)其次计算 1 1 卷积的计算量如式(5)所示:S-conv2=M N D2f(5)因此深度可分离卷积的总计算量如式(6)所示:S-conv=

17、D2k1 D2f M+M N D2f(6)计算量对比如式(7)所示:S-convConv=D2k D2f M+M N D2fD2k M D2f N=1N+1D2k(7)由以上公式可看出,采用深度可分离卷积,可以大幅度的降低模型参数量和计算量。残差神经网络(ResNet)将残差的概念添加到了深度卷积神经网络中,原始的残差块由两个卷积层和两个批量归一化层组成,在卷积之后使用 short-cut 连接,来解决因网络层数过深导致的梯度爆炸和退化问题。残差块结构如图 4 所示。图 4 残差块结构Fig.4 Residual block structure残差网络由多个残差块组成,残差块需要拟合出有关恒等

18、映射的残差映射,残差单元公式为yl=h(xl)+F(xl,Wl)xl+1=f(yl)(8)其中:xl为第 l-1 个残差单元的输出;xl+1为第 l 个残差单元的输出;h(xl)=xl为恒等映射;f 为 Relu函数。基于式(8)可以求得从深层 l 到浅层 L 的学习特征,即xL=xl+L-1i=lF(xi,Wi)(9)2 MVResNet-FER 模型2.1 改进的 RESNET 结构为了提取到多视角下人脸更丰富的表情信息,提高表情分类的准确率,采用改进的 ResNet18 进行人脸全局特征提取,对残差块结构进行了优化。由于 RReLU 激活函数可以增加网络的非线性表达能力,所以在残差单元的

19、卷积层之后加入 RReLU 函数,并去除了原有结构中的两个归一化层,有效减少了其对图像空间特征信息的破坏,如图 5(a)所示。为了进一步增强网络浅层特征的表达能力,在改进残差块基础上,提出一种跨层集成策略。改进后的整体残差网络结构如图5(b)所示。通过 shortcut 聚合各个残差单元输出的特征图,残差网络结构从全局残差变为局部残差。该结构充分利用了每个残差块输出的图像特征信息,不仅补充了图像浅层特征911第 2 期关小蕊等:深度残差卷积下多视角特征融合的人脸表情识别信息,并且有效改善了过拟合,对人脸表情识别准确率的提升起到积极作用。图 5 改进的残差结构Fig.5 Improved res

20、idual structure改进的深度残差网络的输出为Xout=Nl=0Xl=X0+X1+XN(10)其中:Xl为第 l 个残差单元的输出;Xout为浅层特征和所有残差单元的输出总和。为了解决 ReLu 函数可能会在训练过程中导致部分节点失活的问题,激活函数选择 RReLU 函数,其函数为RReLU(x)=x,x 0ax,x 0(11)RReLU 相较于 ReLU 的优点是:RReLU 函数中的 a 是从给定均匀分布的范围内随机抽取的值,在测试环节就会固定下来,解决了 ReLU 函数可能导致神经元死亡的问题。2.2 MVRESNET-FER 模型结构为了更好的加快网络收敛的速度,提高多视角下

21、人脸表情识别的准确率,减少网络训练过程中参数过多带来的计算负担,本文借鉴了 Inception V1网络结构的特性,因为 Inception V1 结构最大的特点就是在增加网络通道和深度的同时,减轻网络的计算量。Inception V1 结构能实现特征图的通道变换,将H 通道变换到 I 通道,然后将不同尺寸的特征图融合在一起形成新的特征。由于 H 和 I 的取值通常情况下很大,会导致运算量过大,为了更好的进行通道变换,在 Inception 中引入 1 1 卷积,使用先降维再升维的方法节省计算量。1 1 卷积不仅能够对特征通道进行降维和升维,减少计算量,而且保留了图像的非线性表达能力。首先将

22、H 通道特征图降低为 K 通道,再升高为 I 通道,由于 K 的值比 H 和 I 都要小的多,这样很大程度上减少了参数并减轻了模型的计算量。Inception V1 模型结构如图 6 所示。图 6 Inception V1 模型结构Fig.6 Inception V1 model structure本文结合了 Inception 网络结构与残差神经网络的良好特性,并在此基础上做了改进,提出了MVResNet-FER 模型。该模型大大减轻了网络的计算负担,并结合改进的残差学习模块补充浅层特征信息,避免梯度爆炸和消失,使网络能更好的获取图像的全局特征。MVResNet-FER 模型整体结构如图 7

23、 所示。模型共有 15 个卷积层:4 个 1 1 卷积,2 个常规卷积层,9 个深度可分离卷积,其中 8 个深度可分离卷积组成了四层残差块,残差块中常规卷积层使用深度可分离卷积层来取代,卷积核大小为 3 3。同时在网络模型的第一个常规卷积层和最后一个深度可分离卷积层后各添加一个 CBAM 模块,以增强面部关键特征的提取,其中先进行通道注意力后进行空间注意力,增强多视角下人脸的有效特征并抑制无效的特征。为了防止梯度较大时部分节点失活,提升模型的线性表达,模型采用 RReLu 激活函数取代原始的 ReLu。为了更有效的缩减冗余参数,最后使用全局平均池化层(global average poolin

24、g,GAP)代替全连接层实现降维生成特征向量,减少了参数量,最后将特征向量传入 Softmax 进行类别的预测。图 7 模型结构图Fig.7 Model structure diagram021哈 尔 滨 理 工 大 学 学 报 第 28 卷模型结构中具体网络参数配置如表 1 所示。表 1 MVResNet-FER 网络配置Tab.1 Configuration of the MVResNet-FER主网络输入大小卷积核输出大小Conv-164 64 13 3 864 64 8CBAM64 64 864 64 8Conv-264 64 83 3 1664 64 16MaxPool-164 64

25、 1632 32 16Inception132 32 163 3 3216 16 32Inception216 16 323 3 648 8 64Inception38 8 643 3 1284 4 128Inception44 4 1283 3 2562 2 256S-Conv92 2 2563 3 82 2 8CBAM2 2 82 2 8Global-Pool2 2 81 1 8 表 2 为各网络结构的参数量对比情况。结果显示本文模型参数计算量较小,大大减轻了网络的计算负担。表 2 网络参数计算量对比Tab.2 Comparison of network parameter calcula

26、tions模型计算量 106Resnet23AlexNet62VGG16138MVRESNET-FER142.3 算法步骤描述MVResNet-FER 网络模型的具体算法步骤描述如下:步骤 1 对不同视角下的人脸表情图像进行数据处理。步骤 2 将经过数据处理的图像先放入常规卷积层中进行 2 次卷积运算和 1 层最大池化运算后,再放入改进的 ResNet18 卷积和最大池化运算。步骤 3 将经过深度可分离卷积获得面部关键特征获得的特征送入全局平均池化层进行融合降维,融合后的新特征为 FZ。步骤 4 将步骤 3 得到的结果与真实标签一起输入到损失函数中,通过 L1=-Ni=1y(i)log y(i

27、)+(1-y(i)log(1-y(i)计算得到损失。步骤 5使用 f(x)=1nni=1fi(x)计算反向传播误差,同时使用 x=x-fi(x)调整参数并更新 x。步骤 6 保存准确率最高的模型,然后将测试图片输入到训练好的网络中得到新的特征向量 D,最后通过 Softmax 进行分类预测,输出表情类别。3 实验结果与分析3.1 实验环境本文提出的 MVResNet-FER 模型的硬件环境为:Windows 10(64 位),Tensorflow 2.0,GPU(GTX1080Ti 显卡 128G)。软件环境为:开发环境(PyC-harm Community Edition X64),开发语言

28、(Python3.6),深度学习框架(Pytorch 0.4)。3.2 评价指标本文实验使用准确率(Accuracy)指标评价MVResNet-FER 算法的优劣。准确率能够表示被正确分类的数据和总数据之间的比重关系,具体计算为Accuracy=TP+TNP+N(12)其中:TP 为正确的被分类为真的数据量;TN 为被正确地划分为假的数据量;P+N 为总的测试数据量。3.3 CK+数据集实验The extended Cohn-Kanade Database(CK+)数据集属于小样本数据集,据集采集了 123 名实验者的 593 张正面人脸图像。包含 8 种表情:即 Happy、Angry、Sa

29、d、Fear、Surprise、Disgust、Neutral 和 Con-tempt,部分样本如图 8 所示。图 8 CK+数据集部分表情示例Fig.8 Examples of partial expressions in the CK+datas由于 CK+数据集过小,模型训练过程中网络中的参数就会过度拟合。所以为了有足够多的数据支撑 CNN 模型训练,将现有数据进行扩充,将图片经过随机缩放、平移等方法来增加训练数据。经数据增强后的数据集数量变为原来的 9 倍,大大增加了模型的训练量,减小了过拟合的风险。其中,将 CK+数据集的 1/5 作为测试集,4/5 作为训练集。CK121第 2 期

30、关小蕊等:深度残差卷积下多视角特征融合的人脸表情识别+各类表情数据分布如图 9 所示。图 9 CK+数据集各类表情分布Fig.9 Distribution of various expressionsin CK+dataset 为了防止出现过拟合现象,在数据增强的基础上,CK+数据集在训练过程中采用交叉验证法,1/5作为测试集,4/5 作为训练集。每个网络都训练 100个 epoch。选择小批量梯度下降算法进行优化,学习率可以动态更新,随着 epoches 的增大逐渐衰减。最终将验证损失值最低的模型存储下来作为最终的模型进行测试。图 10 为在 CK+数据集上进行训练时损失值loss 的变化情

31、况。随着迭代周期(epoches)的增加,模型在 CK+数据集上损失(loss)逐渐降低。收敛效果很好,没有出现过拟合的情况。图 10 CK+数据集上模型的损失值曲线Fig.10 The loss value curve of the modelon the CK+dataset表 3 CK+数据库不同视角表情识别率Tab.3 Expression recognition rate of different perspectives in CK+database表情准确率030456090整体准确率平均准确率Happy1.000.990.970.920.900.9610.956Sad0.950

32、.920.910.900.870.9230.910Angry0.990.960.950.920.890.9510.936Disgust0.960.930.920.850.820.9240.896Contempt0.940.930.930.920.880.9220.920Fear0.950.940.900.860.830.9190.896Neutral1.000.970.960.940.900.9500.954Surprise1.000.980.970.930.880.9620.952平均准确率0.9730.9520.9390.9030.8710.9490.937 表 3 为 CK+数据库上不同

33、视角表情的识别率。从表 3 可看出,开心的平均识别率是最高的,在 5 个角度下均达到了 90%以上,Happy、Angry、Sad、Sur-prise、Neutral 和 Contempt 的识别率都达到了预期目标,而害怕和轻蔑识别率均低于 90%,害怕和轻蔑的数据样本相对较小,且 CK+的数据样本分布不均衡容易导致误判造成准确率降低。此外,0时人脸表情的识别率与其他 4 个角度相比是最高的,5 个角度中 90人脸整体识别率偏低。图 11 为 CK+数据集上多个角度下图像识别率的混淆矩阵,可以看出,每种面部表情都和个别表情存在轻微混淆,但整体的识别率也较高。其中,Happy 和 Neutral

34、 表情混淆程度最小,识别率最高,Angry 和 Fear 表情更容易因为混淆出现错误,不过差距相对较小。为了验证 MVResNet-FER 网络模型的有效性,221哈 尔 滨 理 工 大 学 学 报 第 28 卷将 CK+数据库上的实验结果与表情识别的一些经典算法和未嵌入 CBAM 模块的本文方法进行比较,表 4 为在本文模型与其他几种模型准确率的对比。对比实验的经典算法模型有:Attention Net20、Xcep-tion21、LBP+SVM22。图 11 CK+数据集中不同角度图像识别率的混淆矩阵Fig.11 Confusion matrix of image recognition

35、rateat different angles in CK+dataset表 4 不同模型在 CK+数据集上的整体准确率Tab.4 Overall accuracy of different modelson the CK+dataset模型准确率/%Attention Net90.30Xception94.50LBP+SVM90.30MVResNet-FER(未嵌入 CBAM)92.71MVResNet-FER(本文方法)94.90 本文模型与其他模型进行了人脸表情识别的准确率对比,如图 12 所示。321第 2 期关小蕊等:深度残差卷积下多视角特征融合的人脸表情识别图 12 CK+数据集下

36、不同模型的准确率Fig.12 The accuracy of different models underthe CK+dataset 由实验结果可知,MVResNet-FER 模型在 CK+上得到的识别率高于 Attention Net 和 LBP+SVM,模型准确率提高了 4.6%,且网络参数和运行时间缩减了很多,同时也比 Xception 方法的准确率提升了 0.4%,且训练时间较 Xception 减少一半,参数和计算复杂度也降低了许多,对算法的整体性能提升更加明显。未添加注意力模块的的 MVResNet-FER模型识别率达到了 92.71%,而嵌入 CBAM 模块之后的模型准确率提升

37、了 2.19%,由此可知,使用改进的 ResNet 网络和 CBAM 模块对模型的准确率有了较大的提升,整个网络模型在使用全局平均池化层代替全连接层后减少了网络的参数量和计算量,保证了较高的识别率。3.4 RAFD 数据集实验Radboud 人脸数据集(RaFD)是 Radboud 大学Nijmegen 行为科学研究所整理的,共包含 67 个模特:20 名白种男性,19 名白种女性,4 个白种男孩,6个白种女孩,18 名摩洛哥男性。总共8 040张图,包含 8 种表情,即愤怒、厌恶、恐惧、快乐、悲伤、惊奇、蔑视和中立。每一个表情都有多个注视方向,且从不同的角度使用五个相机同时拍摄。RaFD 数

38、据库中的部分样本如图 13 所示。图 13 RaFD 数据集Fig.13 RaFD dataset为了防止过拟合,选择对 RaFD 数据集进行预处理操作。由于 CK+和 RaFD 数据集的照片大小不同,所以将两个数据集中所有样本图片的大小统一为 64 64 的灰度图像。首先对数据集中的图像进行人脸检测,裁剪有效面部区域。为了扩充数据集,充分训练模型,提高人脸图片的利用率,本文使用小幅度转动、翻转和平移等变换对图像进行处理。如图 14 所示。图 14 图像预处理Fig.14 image preprocessing将预处理之后的图像分为两部分,1/5 作为测试集,4/5 作为训练集。然后送入 MV

39、ResNet-FER网络中训练,网络训练过程中 epoch 设为 100,学习率设置为 0.01,当迭代次数超过 30 后学习率每 5轮衰减一次,依次衰减 5%,选取 ReLU 函数作为激活函数,通过随机梯度下降进行网络参数的优化。最终将验证数据集损失值最低的模型作为最终的训练模型进行保存。图 15 RaFD 数据集上模型的损失值曲线Fig.15 The loss value curve of the modelon the RaFD dataset由图 15 可知,随着 epoches 的增加,模型在RaFD 数据集上的损失值(loss)逐渐降低,收敛情况很好,未出现过拟合。说明在模型训练过

40、程中,RReLU 激活函数能够自适应地从数据中学习参数的优点可以有效避免训练过程中出现部分节点失活的问题,此外,由于 RReLU 函数与其他激活函数相421哈 尔 滨 理 工 大 学 学 报 第 28 卷比,本身更具有收敛性,所以对形成损失值最低的模型有积极的影响。表 5 为 RaFD 数据库上不同视角表情的识别率。从表 5 中可以看出,在 RaFD 数据集中,不同角度下人脸数据对模型的识别率影响不同。其中,正脸即角度为 0的识别率最高,达到了 98.9%,整体的平均识别率为 94.5%,也达到了预期水平。随着角度的变化,人脸部分结构的特征缺失,尤其是 90的人脸图像只能显示出半边脸,因而提取

41、到的有效特征比较少,造成表情识别率降低,为 89.1%。通过实验结果可知,文中模型使用的 RReLU 激活函数本身所具有的随机性会带来正则化的效果,为模型性能和准确率的提升有积极的作用,添加的卷积注意力机制模块也保证了面部表情较高的识别率。表 5 RaFD 数据库不同视角表情识别率Tab.5 Expression recognition rate of different perspectives in RaFD database表情准确率030456090整体准确率平均准确率Happy1.000.990.970.970.910.970.968Sad1.000.980.950.900.870.

42、960.940Angry0.970.960.950.920.890.960.938Disgust1.000.980.970.950.900.960.960Contempt0.980.930.900.920.890.950.924Fear0.960.940.920.900.890.940.922Neutral1.000.970.950.940.900.940.952Surprise1.000.950.930.940.880.960.940平均准确率0.9890.9630.9430.9300.8910.9590.945 图 16 为 RaFD 数据集多个角度下人脸图像识别率的混淆矩阵,从混淆矩阵中

43、可看出,虽然表情之间有轻微的混淆情况,但是每个类别的表情之间提取到的特征区分度比较高,所以整体识别率很高。其中,开心平均识别率是最高的,在各个角度下均达到了 90%以上,且 8 种表情识别准确率均达到了90%以上,这与 RaFD 人脸样本分布相对均衡有关,对 MVResNet-FER 模型起到了良好的训练效果,同时也证明此模型在多视角下对人脸表情的识别率是高的。521第 2 期关小蕊等:深度残差卷积下多视角特征融合的人脸表情识别图 16 RaFD 数据集中不同角度图像识别率的混淆矩阵Fig.16 Confusion matrix of image recognition rateat diff

44、erent angles in RaFD dataset 本文将 MVResNet-FER 网络在 RaFD 数据集上的实验结果与其他现有网络模型进行比较,不同模型在 RaFD 数据集上的准确率如表 6 所示。表 6 不同模型在 RaFD 上的整体准确率Tab.6 Overall accuracy of different modelson the RaFD dataset模型准确率/%Mnist-cnn61.40Xception91.40MVFE-LightNet94.40MVResNet-FER(未嵌入 CBAM)92.71MVResNet-FER95.90 可以看出,本文网络识别准确率比

45、 Mnist-cnn、Xception、MVFE-LightNet23和 未 嵌 入 CBAM 的MVResNet-FER 分 别 高 34.5%、4.5%、1.5%和3.2%。由于表情之间存在相似特征,所以添加注意力机制模块后可以帮助整个网络在多视角下具备更好的表情分类效果。同时,使用最大池化和 GAP 减少了模型训练参数和计算量,保证 MVResNet-FER网络较高的识别率。本文模型与其他模型进行了人脸表情识别的准确率对比,如图 17 所示。图 17 RaFD 数据集下不同模型的准确率Fig.17 The accuracy of different models underthe RaF

46、D dataset4 结 论本文提出了一种深度残差卷积下多视角特征融合的人脸表情识别方法,充分综合了 CBAM 和改进的 ResNet 网络的优势。一方面,添加 CBAM 模块,增强了多视角下有效特征的充分提取,并对提取到的特征进行特征融合。另一方面,利用改进的残差学习模块补充浅层特征信息,不仅解决了 ResNet 网络训练模型过程中效率低、复杂度高的问题,也提高了多视角下人脸表情的分类准确率和识别率。CK+和 RaFD 数据集上的实验结果表明,本文的MVResNet-FER 模型有明显的优势,对于多视角下特征融合后的表情识别具有较高的识别准确率。参 考 文 献:1 汤春明,赵红波,张小玉.基

47、于流形学习 2D-LDLPA 的东亚人脸表情识别算法J.计算机工程与应用,2018,54(17):146.TANG Chunming,ZHAO Hongbo,ZHANG Xiaoyu.EastAsian Facial Expression Recognition Algorithm Based onManifold Learning 2D-LDLPAJ.Computer Engineeringand Applications,2018,54(17):146.2 汤吉训生,王荣飞.自适应加权 LGCP 与快速稀疏表示的面 部表情识别J.计算机工程与应用,2017,53(1):158.621哈 尔

48、 滨 理 工 大 学 学 报 第 28 卷TANG Jixunsheng,WANG Rongfei.Facial ExpressionRecognition Based on Adaptive Weighted LGCP and FastSparse Representation J.Computer Engineering andApplications,2017,53(1):158.3 DACHAPALLY P R.Facial Emotion Detection UsingConvolutional Neural Networks and Representational Au-toen

49、coderUnits J.arXivPreprintarXiv:1706.01509,2017.4 FAN Y,LAM J C K,LI V O K.Multi-region EnsembleConvolutional Neural Network for Facial Expression Rec-ognitionC/International Conference on Artificial Neu-ral Networks.Springer,Cham,2018:84.5 MOLLAHOSSEINI A,CHAN D,MAHOOR M H.GoingDeeper in Facial Exp

50、ression Recognition Using Deep Neu-ral NetworksC/2016 IEEE Winter Conference on Ap-plications ofComputerVision(WACV).IEEE,2016:1.6 CHOLLET F.XCEPTION:Deep Learning with Depth-wise Separable Convolutions C/Proceedings of theIEEE Conference on Computer Vision and Pattern Recog-nition,2017:1251.7 NAN Y

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服