1、第3卷第1期2 0 2 4年1月信 息 对 抗 技 术I n f o r m a t i o n C o u n t e r m e a s u r e T e c h n o l o g yV o l.3 N o.1J a n.2 0 2 4引用格式:李剑鹏,苏楠.基于局部空间特征引导的表情识别算法J.信息对抗技术,2 0 2 4,3(1):4 6-5 6.L I J i a n p e n g,S U N a n.E x p r e s s i o n r e c o g n i t i o n a l g o r i t h m g u i d e d b y l o c a l s p
2、 a t i a l f e a t u r e sJ.I n f o r m a t i o n C o u n t e r m e a s u r e T e c h n o l o g y,2 0 2 4,3(1):4 6-5 6.(i n C h i n e s e)基于局部空间特征引导的表情识别算法李剑鹏,苏 楠*(清华大学电子工程系,北京 1 0 0 0 8 4)摘 要 面部表情识别在计算机视觉任务中受到越来越多的关注,由于真实场景中的表情往往包含着大量由姿态、年龄、图像质量、标注等因素带来的噪声,大大增加了类内变化,给表情的分类任务带来了很大的困难。现有的基于此类问题的研究往往聚
3、焦于数据本身,通过对数据进行筛选或者扩大模型接受的数据类型的形式提高识别能力,没有考虑到卷积网络本身对图像特征关注的局限性。针对该问题,提出了一种基于局部空间特征引导的卷积神经网络,对于特征图的某部分像素点进行强调,引导卷积网络的深层特征图能够关注到多个对分类有效的局部面部区域,同时使用对数据重标记的形式抑制由标签错误导致的噪声问题。经过在多个公开的表情识别数据集中测试,并与多个同类方法对比,所提方法具有较好的识别效果。关键词 面部表情识别;卷积神经网络;特征图可视化;空间特征聚合中图分类号 T P 3 9 1.4 文章编号 2 0 9 7-1 6 3 X(2 0 2 4)0 1-0 0 4
4、6-1 1文献标志码 A D O I 1 0.1 2 3 9 9/j.i s s n.2 0 9 7-1 6 3 x.2 0 2 4.0 1.0 0 5E xpr e s s i o n r e c ogn i t i o n a lgo r i t h m gu i d e d by l o c a l spa t i a l f e a t u r e sL I J i a n p e n g,S U N a n*(D e p a r t m e n t o f E l e c t r o n i c E n g i n e e r i n g,T s i n g h u a U n i
5、v e r s i t y,B e i j i n g 1 0 0 0 8 4,C h i n a)A b s t r a c t F a c i a l e x p r e s s i o n r e c o g n i t i o n h a s r e c e i v e d i n c r e a s i n g a t t e n t i o n i n c o m p u t e r v i s i o n t a s k s.I n r e a l-w o r l d s c e n a r i o s,f a c i a l e x p r e s s i o n s o f
6、t e n c o n t a i n a s i g n i f i c a n t a m o u n t o f n o i s e i n t r o d u c e d b y f a c t o r s s u c h a s p o s e,a g e,i m a g e q u a l i t y,a n d a n n o t a t i o n,w h i c h h a v e g r e a t l y i n c r e a s e d i n t r a-c l a s s v a r i a t i o n a n d h a v e p o s e d s i
7、g n i f i c a n t c h a l l e n g e s f o r f a c i a l e x p r e s s i o n c l a s-s i f i c a t i o n t a s k s.T h e e x i s t i n g r e s e a r c h e s a d d r e s s i n g t h i s p r o b l e m o f t e n f o c u s o n t h e d a t a i t-s e l f,i m p r o v i n g r e c o g n i t i o n c a p a b i
8、l i t i e s b y f i l t e r i n g o r e x p a n d i n g t h e t y p e s o f d a t a a c c e p t e d b y t h e m o d e l s,w i t h o u t c o n s i d e r i n g t h e l i m i t a t i o n s o f t h e c o n v o l u t i o n a l n e t w o r k s i n a t t e n d i n g t o i m a g e f e a t u r e s.T o a d d
9、r e s s t h i s i s s u e,t h i s p a p e r p r o p o s e d a c o n v o l u t i o n a l n e u r a l n e t w o r k(C NN)b a s e d o n l o c a l s p a t i a l f e a t u r e g u i d a n c e.I t e m p h a s i z e s c e r t a i n p i x e l s i n t h e f e a t u r e m a p s,e n a b l i n g d e e p l a y e
10、 r s o f t h e c o n v o l u t i o n a l n e t w o r k t o a t t e n d t o m u l t i p l e l o c a l f a c i a l r e-g i o n s t h a t a r e e f f e c t i v e f o r c l a s s i f i c a t i o n.A d d i t i o n a l l y,a r e-l a b e l i n g a p p r o a c h w a s e m p l o y e d t o s u p p r e s s n o
11、 i s e c a u s e d b y l a b e l e r r o r s.T h e p r o p o s e d m e t h o d w a s t e s t e d o n m u l t i p l e p u b l i c-l y a v a i l a b l e f a c i a l e x p r e s s i o n r e c o g n i t i o n d a t a s e t s a n d h a s a c h i e v e d b e t t e r r e c o g n i t i o n p e r f o r m-a n
12、 c e c o m p a r e d t o s e v e r a l e x i s t i n g m e t h o d s.收稿日期:2 0 2 3-0 5-1 6 修回日期:2 0 2 3-0 8-2 8通信作者:苏楠,E-m a i l:s u n a n t s i n g h u a.e d u.c n第1期李剑鹏,等:基于局部空间特征引导的表情识别算法 K e y w o r d s f a c i a l e x p r e s s i o n r e c o g n i t i o n;C N N;f e a t u r e m a p v i s u a l i
13、z a t i o n;s p a t i a l f e a t u r e a g g r e g a t i o n0 引言人类的情感识别一直是自然人机交互的重要组成部分。使用机器实现对人类情感的精准把握对于智能家居、智能驾驶等智能系统的发展具有巨大的应用价值。人脸作为人的情感最直接也是最重要的表达器官,正是情感认知问题的核心。由于图像信息本身容易采集的特性,基于人脸图像的情感认知研究,即人脸表情识别的研究最为广泛。进行表情识别工作之前,首先要通过情绪表达模型对表情进行编码。目前,常见的情绪表达模型主要有面部动作编码系统(f a c i a l a c t i o n c o d i n
14、 g s y s t e m,F A C S)1、效价和唤醒值表示法(v a l e n c e a n d a r o u s a l,VA)2以及离散情绪表示法3。其中,离散情绪表示法的使用最为广 泛,对 应 的 数 据 集 种 类 也 最 多,例 如:F E R P l u s4、E x pW5、R A F-D B6、A f f-w i l d7-8等。本文也主要基于此类表达模型进行表情识别方法研究。人脸表情识别方法的工作流程基本可以分为人脸检测、特征提取和表情分类3个部分。人脸检测方法能够从图像中获取对应的人脸区域,该类方法已经有了较为成熟的算法实现,例如:多任务级联卷积神经网络(m
15、u l t i-t a s k c a s c a d e d c o n v o l u t i o n a l n e u r a l n e t w o r k s,MT C NN)9、D i l i b1 0等,本文对此不进行过多讨论。得到处理好的人脸图像之后,通过特征提取器提取人脸区域与表情分类相关的特征,然后使用分类器对这些提取好的特征进行分类,得到合适的情绪类别输出,即完成了整个表情识别的过程。由于面部表情变化以及表意的复杂性,因此如何提取出合适的面部特征用于分类是一个较为困难的问题,也是本文的研究重点。对人脸图像特征的部分提取,其本质是对输入的人脸图像进行一定的信息精炼和信息降
16、维。从图像中提取出主要的表情特征,过滤掉非表情特征,从客观上降低图像信息的维度,为后续的分类工作提供方便。特征提取方法按照发展历程可以分为传统手工特征方法、基于机器学习与深度学习的方法2大类。传统手工特征方法往往使用一些工程性的特征算子来处理和分析人脸图像,例如:S I F T1 1、HOG1 2、L B P1 3、G a b o r小波系数1 4等,这些方法通常基于人的主观先验知识设计具有特殊结构的局部算子作为滤波器,可以有效地提取出想要的图像信息,而且不需要太多的训练数据,往往具有较小的计算开销和较高的计算效率。但是,传统方法的缺点在于需要大量的专业领域知识与人工设计,例如:对于不同的问题
17、,往往难以复用,需要重新设计和调整;对于比较复杂的图像问题和大规模的图像数据,往往会遇到困难,难以处理。基于深度学习的方法能够自适应地精准提取任务需要的图像特征,相较于传统手工特征方法具有更好的泛化性,对于一些具有挑战性的真实场景具有更好的效果。F A S E L1 5发现卷积神经网络对人脸的姿势和尺度变换具有良好的鲁棒性。L I U等1 6提出了一个基于面部动作单元的卷积网络框架用于人脸识别任务。深度卷积网络能够多尺度地提取特征,对面部特征的表达更加准确。在2 0 1 3 年举办的 F E R 2 0 1 3 和 Em o t i w 2 0 1 3 表情识别挑战中,TANG1 7 和 KA
18、HOU1 8分别使用深度卷积神经网络进行特征提取并获得了挑战的最优效果。尔后一些经典的深度网络结构陆续出现,例如:A l e x N e t1 9、VG G2 0、G o o g l e N e t2 1、R e s N e t2 2等,这些深度网络结构具有传统方法难以达到的图像特征提取能力,在很多情况下已经足以满足任务的需求。但是面对人脸表情特征提取这个复杂问题,经典的深度网络往往只能关注到面部某块主要特征区域,因而会丢失很多有效信息,并且由于图像本身的问题(比如遮挡)导致该区域特征不明显,还会产生很明显的错误。从局部特征入手是一个较为直观的思路。L I等2 3提出了M u l t i-p
19、l e C NN s方法,在多个局部面部区域分别训练C NN网 络 来 实 现 对 局 部 面 部 特 征 的 关 注。WANG等2 4使用区域关注的注意力网络来解决姿态变化与面部遮挡的问题。然而,这些基于局部人脸区域的方法通常丢失了人脸的全局信息,为了补充全局信息,T B E-C NN2 5方法通过共享底层和中层特征将全局脸和多个局部面部区域的网络整合到一个模型中,实现同时对全局与局部信息的关注。但是这类方法缺乏灵活性,无法74 信 息 对 抗 技 术2 0 2 4年增强可识别性区域的重要性,也无法抑制信息量较小的部分和噪声信息,并且由于涉及人脸分割,非常依赖面部关键点检测的准确率。XU E
20、等2 6和P HAN等2 7通过改进的T r a n s f o r m e r网络实现了对多个人脸局部区域特征的密切关注,但是此类方法对数据量敏感且参数量较大,与深度卷积网络相比在实现同等性能的情况下需要较高的计算代价。针对以上这些问题,本文 提 出 了 一 个 基 于R e s N e t网络的具有局部空间特征引导的表情识别算法,主要贡献如下:1)提出了局部空间信息引导的卷积神经网络,通过多个并行的局部空间信息聚合网络引导网络关注不同的面部区域,获得区分度更高的特征图输出。2)针对“野外”真实人脸表情数据集,同时关注了数据集噪声的影响与模型特征本身的区分度问题,在使用再标记方法抑制数据带来
21、的不确定性的同时,通过局部空间特征强调网络增强模型对面部细节的关注能力,从数据与表情特征的表征2个方面增强算法的识别能力。所提出的算法经公共表情识别数据集R A F-D B与E x pW的测试,展现出了很好的表情识别效果。1 相关工作经典的深度卷积网络在处理表情识别问题时往往只能关注到一个最为明显的面部特征区域,因此,由于图像本身的质量因素导致这个代表性 区 域 的 特 征 不 够 明 显 时,就 会 出 现 误 判。D E NG等2 8基于R e s N e t-5 0网络用知识蒸馏的思路学习采用不同情绪表达模型的情感数据集的数据,通过扩充模型认知的信息类型来提高识别性能。WANG等2 9提
22、出了自修复网络(s e l f-c u r e n e t w o r k,S C N),基于R e s N e t-1 8网络在训练过程中利用网络中预训练获得的先验知识对训练数据进行判别与校正。这2种方法在当前的表情识别数据集上拥有不错的识别表现,但是都是从训练方法与数据的层面去弥补经典网络在识别能力上的缺陷,本质上没有对特征提取网络进行改进。为了进一步提高算法的识别能力,需要加强对局部区域特征的关注,使网络关注到更多的信息。一个直观的思路是进行面部分割,然而基于面部分割的方法只是通过主观经验将人脸分块提取特征,并不能强调对于特定分类任务有效的区域,也不能抑制无效信息的影响,并且分割本身较为
23、依赖人脸关键点检测算法的准确性。基于与S E N e t类似的思路,L S-C NN3 0提出空间信 息 聚 合 网 络(l o c a l a g g r e g a t i o n n e t w o r k,L AN e t)强化人脸的局部空间信息,通过串联的S E N e t与L AN e t分别对特征图中有用的空间信息与通道信息进行强调,并使用I n c e p t i o n网络学习多尺度特征,在人脸识别任务中取得了良好的效果。单一的L AN e t虽然能在一定程度上起到拓展模型对局部关注的作用,但是受噪声影响较大,即使拓展了特征图的关注区域,有时也会引入错误的信息。为了尽可能关注
24、到更多的局部特征并保证这种 区 域 强 调 的 鲁 棒 性,本 文 采 用 了 将 多 个L AN e t并行连接,并将它们的输出合并成一张特征图,共同作为最终的空间信息强调特征图的思路。为了保证这些并行的L AN e t能够分别学习到不同的局部特征,使用了多注意力随机丢弃机制(m u l t i-a t t e n t i o n d r o p p i n g,MA D)1,在训练过程中随机将某个分支的特征图置为0,这样就 可 以 引 导 各 个 分 支 探 索 多 样 化 的 面 部区域。2 基于局部空间特征引导的深度卷积神经网络 本文着眼于卷积神经网络特征图的关注点,采用L AN e
25、t强化模型对于局部空间信息的关注,扩大卷积网络深层特征图的关注区域,以增强网络的识别能力。由于S C N方法2 8对噪声处理的优秀性能和良好的可迁移性,以及应对大型人脸表情数据集中由标注错误引起的不确定性问题的需求,因此使用其中的再标记形式对主干网络进行训练,以解决大型人脸数据集中普遍存在的图像质量低以及标记错误的问题。2.1 整体结构模型的整体结构如图1所示。网络整体采用R e s N e t-5 0 作为骨干特征提取模块,在其之后以多个并行的L AN e t作为特征强调模块,用于聚合空间信息;采用7类离散情绪模型作为情绪表达的方式,使用全连接网络与 S o f t m a x 作为分类输出
26、层。此外,由于大量的公共人脸表情数据集要参与模型训练,因此使用S C N1方法中的再标记模块来抑制噪声问题。84第1期李剑鹏,等:基于局部空间特征引导的表情识别算法 图1 模型整体结构F i g.1 S t r u c t u r e o f t h e m o d e l2.2 特征强调模块对卷积神经网络而言,图像的面部特征会在识别的过程中被自动捕获,但是如果没有加以引导,那么网络往往就不能够关注到所有的可判别的面部特征,而会把关注点集中在某个区分度最高的区域中。如果这个区域被遮挡或者这个局部区域的收敛并不是一个全局最优的选择,那么网络的识别能力就会受到明显的影响。特征强调模块的主要作用是尽
27、可能地指导网络去学习并提取不同的局部特征,避免将主要关注点集中在一个点,其整体结构如图2所示,其中,h,w,c分别表示特征图的长、宽和通道数。图2 特征强调模块网络结构F i g.2 N e t w o r k s t r u c t u r e o f f e a t u r e e m p h a s i s m o d u l e 特征强调模块是基于对空间信息进行聚集的L AN e t网络实现的,其具体结构如图3所示。它采用2个连续的11卷积将各个通道的空间信息分2步汇总到一个通道中,得到一个信息富集的单通道特征图,将这个特征图作为权重图赋予原本的输入特征图得到最终的输出。图3中,r表
28、示 第1个 卷 积 所 带 来 的 通 道数减少率,并且在此卷积层后跟随有一个R e-L U激活层,另 一 个 输 出 为1通 道 的 卷 积 层 的输出激活 采 用S i g m o i d函 数,输 出 的 特 征 图 为空间注 意 力 权 重。由 于 输 入 特 征 图 的 每 个 像素单元都对应原本输入图像的一个区域斑块,因此信息 量 更 大 的 局 部 区 域 会 获 得 更 高 的 关注度,即有 更 大 的 权 重 值,而 不 太 重 要 的 区 域则会 被 赋 予 较 低 的 权 重。由 图3可 以 看 出,L AN e t网络的输出与输入特征图的大小相同,因此该模 块 可 以
29、较 为 容 易 地 插 入 到 不 同 的 网络结构中去。为了使网络尽可能地关注到更多的局部区域,本文使用了MA D2 6。该机制的思想类似于D r o p o u t,以特征强调模块为例,由于使用了多个并行 的L AN e t,在 训 练 过 程 中,为 了 使 不 同 的L AN e t学习到不同的参数,每次训练都会随机舍弃其中的数个特征图,然后对剩下的特征图以按94 信 息 对 抗 技 术2 0 2 4年像素取最大值的形式合并,保留各个分支的强调信息。因此,不同的分支在反向传播的作用下就会开始自主学习并关注不同的局部区域,对卷积网络的特征提取进行引导。定义L AN e t分支的个数为m,
30、输入的特征图大小为hw,每个分支输出的 特 征 图 为Mi,则 特 征 强 调 网 络 的 输 出Mo u t可以表示为:Mo u t(x,y)=m a xMA D(M1(x,y),M2(x,y),Mm(x,y)(1)式中,1xw,1yh。图3 L A N e t网络结构F i g.3 N e t w o r k a r c h i t e c t u r e o f L A N e t3 实验及结果分析为了测试模型的识别效果,在多个公开的数据集中进行测试,并与当前的一些表情识别算法进行了比较。3.1 数据预处理模型的训练基于目前的公开表情数据集进行,为了尽可能削弱单一数据集有可能存在的标注偏
31、见,本文使用多个数据集混合进行训练,具体如下:1)A f f-w i l d/A f f-w i l d 2数据集7-8。A f f-w i l d 数据集是由1 0 6个平均包含5 0 7.2 0 8帧的视频数据构成的“野外”型(即非实验室环境中拍摄获得)人脸表情数据集。数据集中包含大约1 5 0张不同身份的人脸。标注形式为效价与唤醒值的形式,并且数据集中的情绪具有良好的分布。但是由于标注全部为同一人完成,因此对于情绪的判断可能存在一定的主观性。A f f-w i l d 2数据集在原本数据集的基础上进行了扩充,同时,对于数据的标签形式也在原本的效价和唤醒值模型的基础上扩充了面部活动单元模型
32、与离散情绪模型2种不同类型的标签。2)E x pW数据集5。该数据集是一个包含了9 1 7 9 3张用7种离散情绪模型标记的人脸表情图像的表情识别数据集。该数据集创建的目的是研究“野外”图像中基于心理学的高级情绪关系的表征和量化。3)F E R 2 0 1 3与F E R+数据集4。F E R 2 0 1 3数据集包含大小限制为4 84 8的大约3 0 0 0 0张不同表情的面部灰度图像,图像经过了初步的面部检测和对齐,标签方式采用 7 种离散表情表示法。F E R+数据集对F E R 2 0 1 3数据集进行了重新标注,将原本的 7 种表情的标注扩充为包含轻蔑、未知和非人脸3种新标签的1 0
33、种离散情绪表示。4)真实世界面部情感数据集(R A F-D B)6 是一个包含从互联网中下载的约3 0 K面部图像的大型面部表情数据集。数据集包含2种不同类型的子集,即含有7种离散情绪标签类型的单标签子集和含有1 2类复合情绪标签的双标签子集。数据集的标记采取众包的形式进行,每个图像都由大约4 0名标记者单独注释。数据集中的图像在年龄、性别、种族、头部姿势、光照、遮挡以及人工后期处理(比如滤镜)等方面存在很大差异,具有较大的包容性。要同时使用不同的数据集首先需要对标签进行统一,虽然本文中选用的几个数据集都是基本情绪类分类,但是其中的情绪种类与编号并不相同,因此本文中统一采用的标签形式为:中立、
34、愤怒、厌恶、恐惧、快乐、伤心、惊讶分别对应06的数字。将原本数据集的标签形式统一建立到05第1期李剑鹏,等:基于局部空间特征引导的表情识别算法 新标签形式的映射。完成标签统一工作后,还需要对训练数据的数据类分布进行均衡处理。原本的各个数据集中存在分类不均衡的情况,而且类别分布情况较为相似,若将它们直接混合,则会加重类别分布的不均衡,直接影响到模型的训练结果。将不同数据集按照各个分类的数据量进行采样后混合,得到了情绪类别分布相对均衡的训练数据集。A f f-w i l d 2、E x pW、F E R+和R A F-D B 4种数据集的原本类别分布如图4所示。图4 4种数据集数据分布对比F i
35、g.4 D a t a d i s t r i b u t i o n c o m p a r i s o n o f t h e f o u r d a t a s e t3.2 模型训练为了应对数据集的噪声,模型在训练过程中采用了S C N中再标记的方法对训练数据重新标记以实现噪声抑制。再标记模块是为了处理公开数据集中广泛存在的不确定性,包括模糊图像、遮挡图像等低质量图像带来的噪声以及由标注者的主观性和不专业性引起的标注错误产生的噪声。对于低质量的图像数据,通过人脸检测方法可以进行一定程度的筛选,但是,相对难以解决由标记者的主观认知带来的图像标签与事实相违背的问题,将不同数据集中的数据进行
36、混合可以在一定程度上减轻该问题的影响,但是并没有解决问题。再标记模块利用网络中预训练学习到的先验知识对输入数据的标签的正确性进行判别,对大概率标注错误的图片重新标记,有效抑制了噪声的影响。再标记模块的整体结构如图5所示。该模块在整体识别模型的输出层增加了一个独立的全连接层用来学习一个自适应权重,该权重可以捕捉训练过程中各个样本的贡献,不确定性较高的样本将会拥有较低的贡献值。由图5可以看出,自适应权重由骨干网络中提取的特征通过一个全连接层与S i g m o i d激活函数构成。自适应权重可以表示为:i=(WTaxi)(2)式中,i表示第i个样本的权重,WTa表示对应的全连接层的权重。对于每一批
37、输入图片,先通过骨干网络进行特征提取得到特征F1,F2,Fn,进而计算得到权重1,2,n。自适应权重与15 信 息 对 抗 技 术2 0 2 4年分类层的输出相乘,经过S o f t m a x模块得到最终的分类概率向量。因此,自适应权重可以衡量训练过程中样本的重要性。于是通过权重i可以将每个训练批次的输入数据分为低质量类与高质量类2个类别,对于被分类为低质量类的图片,就需要进行数据重标记。再标记的过程是利用网络中学习到的知识逐渐对数据中的噪声进行矫正的过程。重要性低的权重值样本往往具有较高的分类不确定性,这代表其所对应的样本较大可能是噪声样本。在训练过程中,如果能够制定一个策略去抑制这些不确
38、定性样本发挥作用,那么就可以达到抑制样本噪声的效果。因此,权重大小衡量了训练过程中样本的不确定性,并在此基础上,通过赋予它们一个正确率更高的新标签,本 文 分 离 出 了 需 要 处 理 的 部 分 低 质 量数据。图5 再标记模块结构F i g.5 N e t w o r k a r c h i t e c t u r e o f r e l a b e l m o d u l e 分级正则化损失(r a n k r e g u l a r i z a t i o n l o s s,R R-L o s s)确保了高质量权重的数据分组始终比低质量权重的分组大固定的阈值,保证了分组的区分度。正
39、则化损失表示为:LR R-L o s s=m a x0,mm a r g i n-(H-L)(3)式中,mm a r g i n为设定好的超参数,也可以设置为可学习参数,H与L分别为高重要性权重的均值与低重要性权重的均值。对于需要重新标记的低重要性图片,需要去比较估计的概率向量中最大值的类别是否与原本标签类对应的类别的概率差大于某个阈值。若是,则用估计概率最大值对应的类别标签替换原本的类别标签,可表示为:Pm a x=Pg t I n d+(4)式中,Pm a x表示模型输出估计的最大类别的概率,Pg t I n d表示图像标签对应的表情分类的估计概率,表示设定的阈值。式(4)表明在再标记的过
40、程中使用了网络中学习到的知识来对每个样本的标签进行实时预测,因此本文往往在将网络训练了1 52 0个e p o c h之后再启动再标记模块,以保证整 体 模 型 学 习 到 足 够 多 的 可 用 于 矫 正 的知识。多分类任务的损失函数采用加权的交叉熵损 失 函 数(l o g i t-w e i g h t e d c r o s s-e n t r o p y l o s s,WC E-L o s s),可表示为:LWC E-L o s s=-1NNi=1l geiWTixiCj=1eiWTjxi(5)式中,WTj是第j个分类的权重,C代表类别数。于是,模型的整体损失函数可以表示为:L=
41、(1-)LWC E-L o s s+LR R-L o s s(6)式中,为权重参数。3.3 参数设置模型的输入图像数据由MT C NN算法进行人脸检测与配准,并调整为2 2 42 2 4 的分辨率;骨干网络 R e s N e t-5 0 由 P y t o r c h 工具箱实现。在视觉感知任务中,网络中学习到的某些特征可以在相关的任务之间进行转移。WANG等2 9证明了使用在人脸识别任务中预训练过的网络可以大大加快表情识别任务的收敛速度并达到更高的识别准确率。因此,特征提取的骨干网络在默认情况下采用经由 M S-C e l e b-1 M人脸识别数据集进行预训练过R e s N e t-5
42、 0网络,面部特征从最后 一 个 池 化 层 中 提 取。算 法 的 训 练 在2个25第1期李剑鹏,等:基于局部空间特征引导的表情识别算法 R T X 2 0 8 0 T i 显卡上完成,设置b a t c h s i z e大小为2 5 6。在每次的迭代过程中,用于噪声抑制的再标记模块会将训练数据分为低重要性和高重要性2组,分组的比例为 73。文献2 8 中的方法通过实验证明,再标记模块中用来计算正则化排序损失的参数mm a r g i n为0.1 5、再标记阈值参数为0.2时具有最好的识别效果,因此本文采用相同的参数设置。整个网络的优化过程由R R-L o s s与WC E-L o s
43、s共同维护,经过实验,损失函数权重取0.5,即二者的比例为11。经测试,将特征强调模块的分支数m设定为3,再标记模块从训练的第1 5个e p o c h处开始进行优化。初始学习率设置为0.1,在第2 0个和第4 0个e p o c h后分别将被除以1 0,在第6 0个e p o c h后停止训练,优化器采用A d a m(a d a p t i v e m o m e n t e s t i m a t i o n)。3.4 实验对比为了验证算法的训练效果,分别在公共数据集 E x pW 与 R A F-D B 上进行测试,并与多标签知识蒸馏网络(M E R-I L)2 9、自修复网络(S C
44、 N)2 8、共享表示集成卷积网络(E S R s)3 1以及基于T r a n s-f o r m e r的多模态融合表情识别(TM I F-F E A)2 7等方法进行对比,结果见表1所列。表1 不同数据集中识别准确率(%)T a b.1 T h e r e c o g n i t i o n a c c u r a c y o f d i f f e r e n t d a t a s e t s(%)方法数据集R A F-D BE x p WE S R s3 18 5.9 06 5.2 4ME R-I L2 98 6.1 56 7.2 9S C N2 88 7.0 36 8.8 2TM
45、 I F-F E A2 78 8.9 17 0.4 6本文方法8 7.7 47 0.5 9可以看出,在E x pW数据集上,本文方法比其他 方 法 具 有 更 优 秀 的 识 别 效 果,但 是 在R A F-D B数 据 集 上 略 逊 于TM I F-F E A方 法。E x pW数据集中存在着大量噪声数据,而由于再标记模块的存在,本文方法对于这类噪声具有良好的抗性,因此取得了较好 的 识 别 效 果。而 在R A F-D B数据集上,本文方法虽然没有取得最优的识别效果,但是事实上,本文方法在参数量远小于TM I F-F E A方法的基础上,达到了相近的结果。参数量的对比见表2所列。本文方
46、法主要由骨干网络、特征强调模块以及再标记模块构成,而再标记模块实际上体现在模型中的只是一个额外的全连接层,对参数量的影响很少,主要参数量由骨干网络R e s N e t-5 0以及特征强调模块提供,特征强调模块主要由11卷积模块与全连接网络构成,参数量也相对较小。而TM I F-F E A方法由于使用了T r a n s f o r m e r模块,即使骨干网络的参数量较小,总体参数量也远多于本文方法。因此,本文方法更加轻量化,在低参数量的情况下取得了较好的识别效果。表2 不同方法参数量对比T a b.2 C o m p a r i s o n o f p a r a m e t e r s
47、i n d i f f e r e n t m e t h o d s方法E S R s3 1ME R-I L2 9S C N2 8TM I F-F E A2 7本文方法参数量(M)5 4.33 0.62 7.44 6.02 8.23.5 消融实验本节将分别测试R e s N e t-5 0骨干网络、R e s-N e t-5 0骨干网络+噪声抑制模块、R e s N e t-5 0骨干网络+特征强调模块以及整体网络4种情况在不同测试集中的识别结果并进行对比,验证各个模块对最终识别结果的有效性,结果见表3所列。表3 不同网络结构下的识别准确率(%)T a b.3 T h e r e c o g
48、 n i t i o n a c c u r a c y o f d i f f e r e n t n e t w o r k s t r u c t u r e s(%)方法数据集R A F-D BE x p WR e s N e t-5 08 4.2 06 5.2 4R e s N e t-5 0+噪声抑制8 7.0 36 8.6 7R e s N e t-5 0+特征强调8 5.1 46 5.8 5R e s N e t-5 0+特征强调+噪声抑制8 7.7 47 0.5 9 从结果可以看出,与骨干网络相比,噪声抑制模块确实对于“野外”型数据集中存在的大量噪声起到了抑制作用,对于骨干网
49、络在混合的测试集中的识别效果具有显著提升。而特征强调模块也符合预期地起到了良好的信息聚集与强调作用,二者共同作用下达到了最好的识别效果。为了更加清楚地展示特征强调模块产生的效果,本文使用C AM3 2工具对卷积网络最终特征层输出的特征图进行可视化,结果如图6所示。图6中将多种情况的特征图做了可视化对比,图6(a)(c)分别为不使用特征强调模块、使35 信 息 对 抗 技 术2 0 2 4年用单一L AN e t模块、多个L AN e t并行模块。可以看出,在不使用特征强调模块的情况下,原本骨干网络的特征图的关注点只集中在嘴巴这一个主要区域,而在加入L AN e t模块之后,网络的关注点明显变多
50、了,一些次要的判别区域也被纳入考虑的范围,比如眼睛。但同时也使得一些不重要的面部区域的权重虚高,从而也被纳入关注范围。采用MA D训练的多个并行的L AN e t分支,由于在每次训练时都会舍弃随机分支,使得每个分支的L AN e t网络可以自由探索多样化的可辨别的面部区域特征,这在实现了多个局部关注点的同时也一定程度上抑制了单个L AN e t时出现的错误强调的问题,最终呈现的结果就是热力图上出现了一个新的高光区域。而单一通道与多分支的L AN e t的热力图可视化结果看起来似乎有所矛盾,这是因为使用单一分支训练的模型对于复杂的人脸五官变化的处理能力不足,容易出现错误强调的情况,反映在单一样本