基于注意特征融合和联合损失的表情识别网络.pdf

资源描述

1、年无线电工程第卷第期：引用格式：赵扬，张建红，郁舒兰，等基于注意特征融合和联合损失的表情识别网络无线电工程，（）：，（）：基于注意特征融合和联合损失的表情识别网络赵扬，张建红，郁舒兰，凌禹杭（南京林业大学机械电子工程学院，江苏南京；南京审计大学智芯人智慧心理实验室，江苏南京）摘要：针对目前表情识别任务中模型结构复杂、参数量大及准确率低的问题，提出了一种基于注意特征融合和联合损失的人脸表情识别模型。在构建的网络模型中加入注意力特征融合模块，解决融合不同尺度特征时出现的信息丢失的问题。将卷积神经网络筛选得到的浅层特征与深层特征进行融合，以保证网络能够充分学习到图像的不同语义特征

2、信息，提升判别效果。为了减小表情类内距离、增大类间差别，采用了联合损失函数对模型进行训练，提升模型的识别准确率。使用改进后的模型在表情数据集、和上测试，分别达到了、和的准确率，在降低模型参数量的同时保证了准确率，对于未来移动端设备进行人脸表情识别具有一定的参考价值。关键词：表情识别；注意特征融合；深浅层融合；联合损失中图分类号：文献标志码：开放科学（资源服务）标识码（）：文章编号：（），（，；，）：，：；收稿日期：基金项目：推动长三角一体化发展规划“十四五”实施方案重大项目长三角社会救助援助公共服务平台（）：“”（）工程与应用引言人类一般会通过面部表情来进行情感表达，研究发现，在日

3、常交流中，大约的信息是由人脸传达出来的，来源于表达者的声调变化，由此可见，人脸表情在信息交流中起到了巨大作用。随着互联网、大数据技术的不断更新，通过机器识别人脸情绪在智慧医疗、在线教育、智能测谎、人机交互和疲劳检测等领域发挥着巨大的作用。传统的人脸表情识别方法采用的是手工特征，主要方法有方向梯度直方图（，）、小波变换和局部二值模式（，）等。例如等通过采用变换和小波变换以及鲁棒分类器来提高识别精度，传统方法虽然可以有效解决少量数据的表情识别问题，但是由于其提取特征过程需要人工进行参与且不能提取到网络深层特征，不能满足庞大数据的需求。随着深度学习技术在计算机视觉领域发展迅速，研究者们开始使用卷积神

4、经网络（）对人脸表情识别进行研究。张波等提出了基于通道注意力机制的人脸表情识别方法，模型可以对基本表情进行识别，同时设计了机器人对不同表情时的交互语音和动作，实现了人机交互。等提出了一种置信学习的应用方法，引入了个超参数来调整面部表情数据集的噪声，在不同噪声比的数据集上验证了动态噪声检测的有效性。等提出了一个具有视觉和面部标识分支的网络，视觉分支负责图像序列的输入，面部标识分支研究轨迹运动，考虑面部动作带来的特征变化影响，该方法在数据集上取得了很好的性能。等基于网络，选择最大池化和平均池化，在完整提取图像特征的同时又有效减少参数量，提高了识别的准确性。等提出了函数，引入角度间距，加入余弦余量，

5、使得模型学习到的特征在特征空间的决策边缘最大化，从而减少表情的类内距离，提升分类效果。李思诚等提出了一种改进的网络，有效提取到了类间差异极小的微表情特征。闫河等为了解决卷积降维后主干网络丢失部分特征信息的问题，引入模块和可分离卷积，保留更多的原始信息，增强主干网络的提取能力，取得了较高的识别准确率。以上方法虽然都实现了对人脸表情识别精度的提升，但是其复杂的网络结构也带来了更大的参数量和计算数，同时人脸不同表情类间差异小，类内差异大，使得模型难以充分提取人脸特征，造成识别准确率偏低。为了解决上述问题，本文提出了基于注意力特征融合与联合损失函数的表情识别方法，使用特征融合模块融合不同尺度的特征信息

6、并以此构建网络块结构，融合深浅层图像特征信息，提高模型准确率，同时使用联合损失函数对网络进行优化训练，在保证网络轻量的同时，实现了更准确的人脸表情识别。相关网络网络网络是由谷歌团队在年提出的模型，该模型是对网络的改进，核心思想是使用深度可分离卷积来替换原来的结构，以此来实现中的跨通道相关性和空间相关性的完全解耦操作。模型结构如图所示。图结构与不同的是，网络是先进行卷积然后再进行卷积操作，为了保证数据不被破坏，去掉了层。通过上述操作实现了网络参数量和复杂度的显著下降，同时为了解决网络退化的问题，加快模型的收敛效果，加入残差连接结构，最终的模型结构如图所示。但是该网络存在计算过程零散、执行效

7、率不高的问题。本文将使用模型来进行对比实验。工程与应用年无线电工程第卷第期图整体架构网络稠密网络（）模型是清华大学黄高团队在年提出的卷积模型，核心思想是建立前后相邻卷积层的密集连接，与残差思想“短路连接”相加不同，它是将采集得到的特征在通道维度上进行堆叠，实现特征的重用，有效避免了随着网络的加深带来的梯度消失问题。稠密网络的部分结构如图所示。在稠密网络中，前层信息可以传入后层，且在深度方向上进行拼接，极大地避免了信息的破坏，有效地解决了神经网络反向传播过程中带来的梯度消失问题。图稠密结构示意网络整体结构主要是由稠密块和过渡层两部分组成，其中稠密块负责对提取到的特征进行密集重用

8、，保证信息在卷积层之间相互传递，过渡层则用来调整多个稠密块提取到的特征，降低特征图的维度，减少模型的参数。稠密网络的亮点在于每个卷积层都与前面所有层进行了连接，加强了网络层之间的信息流动，相较于残差网络，模型有着更少的参数量和更高的准确率。稠密网络的输入输出关系表达式如式（）所示：（，），（）式中：为模型上一层的输出，为当前层的输出，为一个非线性变换。模型将前层的输出在通道维度上进行拼接，优化了模型内部的信息流动。本文借鉴稠密网络的密集连接思想，构建神经网络深浅层特征融合，增强模型特征提取能力。模型结构设计注意特征融合网络特征融合是指将来自不同卷积层或分支的特征信息进行融合，以使得模型可以提

9、取到更加丰富的特征。一般采用的操作是线性求和与通道维度拼工程与应用接，但是会造成参数量的增加，而且在融合不同尺度时会带来新的问题。对于人脸表情识别任务来说，希望模型能更多地关注嘴巴、眼睛等关键部位信息，忽略掉无关的特征，提升模型的感知能力。为此，引入注意力特征融合模块增强模型提取能力。图为特征网络结构图。图特征网络结构对于输入的个特征、（是感受野更大的特征）先做相加操作进行初步特征融合，随后送入个分支，通过全局平均池化操作来提取全局特征注意力，使用点卷积（）来提取局部特征的注意力信息，随后再做相加操作进行全局和局部特征综合，最后通过激活函数进行、的加权平均计算。通过训练，使得网络可以自动确

10、定权重大小，筛选出有效的人脸特征信息。网络块结构对于参数量过大，难以满足嵌入式等移动端设备应用的问题。研究人员提出了使用深度可分离卷积代替普通卷积进行特征提取。深度可分离卷积如图所示，与传统卷积不同，它是对输入图像的空间信息和通道信息分别进行操作，可以有效减少模型计算量和推理时间。图深度可分离卷积本文提出的网络块结构如图所示，在传统卷积结构基础上进行改进。首先，将卷积层替换成深度可分离卷积，减少模型参数量，然后将激活函数替换成激活函数，提升模型训练的稳定性和精确性，最后在模块中引入注意特征融合模块，实现网络自适应分配权重，提取人脸有效特征信息，同时加入残差结构来减轻模型训练带来的梯度消失问题

11、。图网络块结构联合损失函数传统的损失函数仅仅保证了类别间可分，并没有考虑类内的差异性。而对于人脸表情识别任务来说，不同人做同一个表情的差别比同一个人做不同表情的差别大得多，为了获取更好的分类效果，需要缩小数据类内距离，增大类间距离。因此本文引入和中心损失函数二者联工程与应用年无线电工程第卷第期合训练模型，提高模型的判别能力。其中公式如下：（）（）（），（）式中：（）（）（），（），（）表示第个样本，表示的第列，表示和之间的夹角，控制分类边界，其值越大分类界限越大。损失函数建立了更为严格的分类边界，有效加大了类间距离。中心损失函数可以用来减少类内差异，使得相同表情数据更加紧凑，有

12、利于分类效果的提高。其计算公式如下：，（）式中：表示样本个数，表示第个样本数据，表示特征中心。每次输入张图片，中心损失函数会减小每个样本特征与中心特征的距离。对于每次特征中心的变化量可由下式得到：（）（）（）。（）最终的联合损失函数如下：，（）式中：为权重系数，本文取值。表情识别模型本文设计的基于注意特征融合与联合损失的卷积网络模型结构如图所示。主要是由个模块堆叠而成。输入图像首先经过一个卷积核大小为的卷积层提取浅层特征信息，随后依次经过个模块，进一步提取人脸表情信息。同时为了避免网络过长带来的信息丢失的问题，本文分别使用卷积层和池化层来充分提取浅层网络的特征信息，并将浅层信息与深层信息进行融

13、合以提升模型的判别效果。所提的网络结构及详细参数如表所示。图网络模型结构表模型参数输入尺寸操作扩张通道数输出通道步长，分支结构，分支结构工程与应用续表输入尺寸操作扩张通道数输出通道步长，实验与结果分析数据集选取及实验环境本次选取、和数据集对模型进行测试。数据集是一个大规模的人脸表情数据集，不同于实验室采集的数据，它是研究人员从互联网采集的包含不同种族、性别和年龄等多样化的数据集，共包括张训练集和张测试集，可分为惊奇、厌恶、高兴、悲伤、生气、中性和害怕共种基本表情，部分示例如图所示。数据库中的图像已经对头部姿态、光照条件等外部影响进行过处理。数据集是在实验室拍摄的数据集，共分为愤

14、怒、恶心、恐惧、高兴、中性、惊讶、轻蔑和悲伤共种基本情绪，包含了张图像数据。数据集有个表情分类标签，共包含张训练图像和张测试图像，与数据集不同的是，数据集存在大量遮挡人脸照片，对模型分类结果会有一定的影响。在进行模型训练前，需要分别对数据集进行预处理操作，依次将数据集输入人脸检测算法裁剪人脸照片并将图片缩放至。本文实验使用机器的操作系统为，实验环境，使用神经网络框架，硬件平台为（）（），内存，显卡为。优化器部分选择了，在训练初期将初始学习率设定为，在模型训练轮之后，将学习率逐步衰减使得模型逼近最优点，衰减参数设置为，本次实验将模型的训练轮数设置为，批次大小为。在进行模型训练过程中，由于

15、数据集过少，直接将其输入模型容易造成过拟合现象，因此在实验前对图片进行裁剪、翻转和添加噪声等数据增强技术将数据集扩充为原来的倍，最终得到张人脸照片，随后将扩充之后得到的人脸数据再送入模型中进行训练。（）生气（）厌恶（）害怕（）开心（）中性（）悲伤（）惊奇图表情库种表情示例实验结果与分析分别在、以及人脸表情数据集上进行训练，设置为次，学习率为，张图片为一个。得到模型在验证集上的准确率分别为和。同时为了验证算法的优越性，不加任何网络的模型作为基础网络，在其中分别嵌入、注意机制，使用数据集进行对比实验。实验结果如表所示。由表可以看出，嵌入特征融合网络的识别准确率最高。表注意力模型对比结果注意

16、力模型准确率工程与应用年无线电工程第卷第期模型在验证集上的混淆矩阵如图所示。从图中可以看出，高兴和生气等表情具有更好的识别效果，由于在数据集中高兴和生气拥有更明显的面部特征，而对于伤心、惊讶和害怕的识别率相对较低，其中害怕的识别准确率最低，原因是害怕的表情中会带有皱眉、嘴巴张开等明显的特征，但惊讶也会有这类特征表现，导致模型难以区分，同时数据集中各类表情数量不平衡导致模型训练不充分也是识别率低的原因之一。图验证集识别结果混淆矩阵消融实验为了验证本文所提方法的有效性，本文对添加的特征融合注意力、联合损失以及深浅层特征融合的有效性进行了验证。消融实验结果如表所示，其中，不加任何网

17、络的基础模型记为；表示加入了注意特征融合模块。将各个模块进行对比实验，结果表明，特征融合注意力、联合损失以及深浅层特征融合个模块都可以有效提升模型的识别准确率，将三者融合加入到网络模型中将得到最好的准确率。对比基础模型，所构建的网络模型在数据集上提升了，在数据集上提升了，从而验证了所提网络模型的有效性。表消融实验方法准确率联合损失深浅特征续表方法准确率联合损失深浅特征联合损失深浅特征深浅特征联合损失其他算法对比为了验证本文算法的先进性，在所用数据集上同国内外的方法进行对比实验，对比结果如表所示。可以看出本文所提算法在、和数据集上的准确率分别达到了、和，相较于其他算法而言有着更

18、好的准确率，表明本文所提模型可以有效提取人脸表情特征，获得更好的分类效果。表准确率对比方法准确率方法准确率为了验证本文模型的轻量化改进效果，将表中的部分模型参数大小与本文模型进行对比，对比结果如表所示。由表可知，本文模型的参数量仅有，小于其他模型，同时在数据集上准确率仅仅比表中的最高准确率低，参数量却减少了，这表明本文模型较好地满足了人脸表情识别模型的轻量化和准确率的要求。表模型参数量对比单位：序号方法参数量工程与应用结束语本文提出了一种注意力特征融合机制与联合损失的人脸表情识别网络。特征融合模块使得网络可以自适应分配权重大小，自动学习到表情变化丰富区域的特征信息，提升判别准确率

19、；图像深浅层信息融合可以增加网络对图像的语义表征能力，而使用联合损失函数进行训练则可以进一步加大类间距离，进一步提高识别效果。最终实验结果表明，本文所提网络不仅可以有效提高人脸表情识别的准确率，同时模型参数量小于其他网络，较好地实现了人脸表情识别模型的准确率和轻量化的平衡。下一步考虑将所提模型部署到机器人端，并设计机器人的交互动作行为，实现人机情感交互。?参考文献，（）：李锐，蔡兵，刘琳，等基于模型的驾驶员眼睛状态识别仪器仪表学报，（）：，（）：，：张波，兰艳亭，鲜浩，等基于通道注意力机制的人脸表情识别机器人交互研究电子测量技术，（）：，（）：，（）：，：，：，（）：，（）：李思诚，周顺勇，

20、朱豪，等结合多注意力机制和中间帧序列的微表情识别无线电工程，（）：闫河，李梦雪，张宇宁，等面向表情识别的重影非对称残差注意力网络模型智能系统学报，（）：（）：，：，：，：，：，：，：，：，（）：张波，兰艳亭，李大威，等基于卷积网络通道注意力的人脸表情识别无线电工程，（）：杨双，王敬东，姜宜君，等结合的与相级联的表情识别模型研究半导体光电，（）：陈加敏，徐杨基于注意力拆分卷积残差网络的表情识别激光与光电子学进展，（）：赵益波，蒋文，孟若禹，等基于忆阻器卷积神经网络的表情识别电子测量技术，（）：罗思诗，李茂军，陈满多尺度融合注意力机制的人脸表情识别网络计算机工程与应用，（）：何超，侯明基于改进卷积神经网络的人脸表情识别方法信息技术，（）：作者简介赵扬男，（），硕士研究生。主要研究方向：计算机视觉、人脸表情识别。张建红男，（），博士，教授。主要研究方向：计算机视觉、人机交互。（通信作者）郁舒兰女，（），博士，教授。主要研究方向：人机交互、工业设计。凌禹杭男，（），硕士研究生。主要研究方向：计算机视觉、人脸表情识别和人机交互。工程与应用

展开阅读全文