基于DenseNet的人脸图像情绪识别研究.pdf

资源描述

1、第 42 卷第 6 期2023年 11 月Vol.42 No.6Nov.2023中南民族大学学报（自然科学版）Journal of South-Central Minzu University（Natural Science Edition）基于DenseNet的人脸图像情绪识别研究雷建云，马威，夏梦*，郑禄，田望（中南民族大学计算机科学学院&湖北省制造企业智能管理工程技术研究中心，武汉 430074）摘要针对人脸情绪识别类内差异大，类间差异小的特点，结合学生人脸图像的线上课堂情绪识别的场景，提出多尺度空洞卷积模块提取不同空间尺度特征的稠密深度神经网络模型，实现自然场景下学生人脸图像识别.

2、该模型主要由多尺度空洞卷积和DenseNet神经网络两个子网络组成，其中多尺度空洞卷积由不同空洞率的四分支网络提取不同尺度特征，空洞卷积减小特征图尺寸，减少DenseNet内存资源占用；最后在DenseNet网络中结合Adam优化器和中心损失函数.使用稠密网络的旁路连接，加强情绪特征传递和复用.研究结果表明：基于稠密深度神经网络的情绪识别网络模型能够有效提高情绪分类的准确率，模型对预处理后的FER2013+数据集识别准确率达到93.99%，可为线上教学反馈提供技术支持.关键词人脸情绪识别；稠密神经网络；空洞卷积；中心损失函数；深度学习优化器中图分类号 TP391.4 文献标志码 A 文章编号

3、 1672-4321（2023）06-0781-07 doi：10.12130/znmdzk.20230609Research on emotion recognition of face image based on densenetLEI Jianyun，MA Wei，XIA Meng*，ZHENG Lu，TIAN Wang（College of Computer Science Hubei Provincial Engineering Research Center for Intelligent Management of Manufacturing Enterprises，South

4、-Central Minzu University，Wuhan 430074，China）Abstract The characteristics of large intra-class differences and small inter-class differences in facial emotion recognition，combined with the scene of online classroom emotion recognition of student face images，a dense deep neural network model with mul

5、ti-scale atrous convolution modules to extract features of different spatial scales is proposed，that realize student face image recognition in natural scenes.The model is mainly composed of two sub-networks：Multi-scale atrous convolution and DenseNet neural network.The multi-scale atrous convolution

6、 extracts features of different scales by four-branch networks with different atrous rates.Atrous convolution reduces the size of the feature map and reduce the memory resource occupation of DenseNet.Finally，the Adam optimizer and the central loss function are combined in the DenseNet network.The by

7、pass connection of the dense network is used to strengthen the transfer and reuse of emotional features.The research results show that：The emotion recognition network model of the network can effectively improve the accuracy of emotion classification based on dense deep neural network，and the recogn

8、ition accuracy rate of the model for the preprocessed FER2013+data set reaches 93.99%，which provides technical support for online teaching feedback.Keywords facial emotion recognition；densenet；atrous convolution；center loss function；optimizer近几年来，基于卷积神经网络和循环神经网路的深度神经网络模型在计算机视觉和自然语言处理等领域应用广泛.自第一个大规模的

9、深度神经网络 AlexNet1诞生以后，各种骨干架构如VGGNet 2、GoogleNet 3、MobileNet 4、ResNet5和DenseNet6等相继被提出，网络的性能不断提升，网络规模越来越大.情绪识别的难点之一，同一个人脸有不同的表情，对应不同的情绪分类，不同人脸有相同的表情，对应相同的情绪分类，因此，人脸情绪识别的分类任务有类间差异小，类内差异大的挑战.收稿日期 2022-01-22*通信作者夏梦，研究方向：深度学习与图形识别.E-mail：作者简介雷建云（1972-），男，教授，博士，研究方向：信息安全，E-mail：基金项目湖北省科技重大专项（2020AEA011）；

10、武汉市科技计划应用基础前沿项目（2020020601012267）第 42 卷中南民族大学学报（自然科学版）1研究现状1.1传统情绪识别传统人脸情绪识别方法依赖手工设计特征或者浅层学习，如局部二值模式（local binary pattern，LBP）7、三正交平面的局部二值模式（local binary pattern from three orthogonal planes，LBP-TOP）8、非负矩阵分解（nonnegative matrix factorization，NMF）9和稀疏学习10.2013 年起，表情识别比赛如FER2013（the Facial E

11、xpression Recognition 2013）11和EmotiW12从具有挑战性的真实世界场景中收集了相对充足的训练样本，促进了人脸表情识别从实验室受控环境到自然环境下的转换（表1）.1.2基于深度学习的情绪识别由于静态数据处理的便利性及其可得性，目前大量研究是基于不考虑时间信息的静态图像进行.直接在相对较小的人脸表情数据库上进行深度网络的训练势必会导致过拟合问题.为了缓解这一问题，许多相关研究采用额外的辅助数据来从头预训练并自建网络，或者直接基于有效的预训练网络，例如AlexNet、VGG、ResNet、Mobelinet 和 GoogLeNet 进行微调.大型人脸识别数据库CAS

12、IA WebFace、CFW和FaceScrub dataset，以及相对较大的人脸表情数据库如 FER2013 和 TFD 是较为合适的辅助训练数据.Kaya等人13 （2017）指出在人脸数据上进行预训练的VGG-Face模型比在预训练的ImageNet模型更加适合于人脸表情识别任务.Knyazev 等14（2017）也指出在大型的人脸数据库上进行预训练，然后进一步在额外的表情数据库上进行微调，能够有效地提高表情识别率.1.3稠密网络架构DenseNet卷积神经网络是深度学习领域中举足轻重的网络框架，尤其在计算机视觉领域更是一枝独秀.CNN从ZFNet到VGG、GoogLeNet再到Res

13、net和最近的DenseNet，网络越来越深，架构越来越复杂，解决梯度传播时梯度消失的方法也越来越巧妙.稠密网络架构DenseNet高速公路网络是第一批提供有效训练超过100层的端到端网络的架构之一.使用旁通路径和浇注单元，公路网络与数百层可以毫无困难地优化.旁路路径被认为是简化这些深度网络训练的关键因素.ResNet进一步支持这一点，其中使用纯身份映射作为旁路路径.ResNet在许多具有挑战性的图像识别、定位和检测任务上取得了令人印象深刻的、破纪录的性能，如ImageNet和COCO目标检测.最近，随机深度被提出作为一种成功训练1202层ResNet的方法.随机深度通过在训练过程中随机丢层来

14、改进深度残差网络的训练.这表明并非所有的层都是需要的，并强调了在深层（残差）网络中存在大量的冗余6.DenseNet是一种网络架构，目的是训练更深的神经网络.由于单独的DenseNet应用到人脸情绪识别时没有结合提取情绪特征，导致识别精度不高；DenseNet网络通过通道上的融合，会减轻深度特征的权重，更多提取到的是浅层特征.本文针对人脸情绪识别的特点，在 DenseNet 中结合中心损失函数，提高情绪识别精度；使用Adam随机梯度优化器加快训练模型收敛；结合多尺度空洞卷积模块，分别用5、8和12的膨胀提权不同尺度图像特征；使用DenseNet-BC的增长率k=12，24，32分别进行情绪特征

15、提取进行研究.常见 DenseNet 网络结构如表 2所示.2基于 DenseNet 模型的面部表情识别2.1整体网络结构针对原始的稠密网络不能有效提取情绪特征，多尺度特征提取不充分，且稠密网络内存占用高的问题.本文提出多尺度卷积提取多尺度特征，减少稠密网络内存占用，同时结合改进的稠密网络模型，使用中心损失函数，加强模型对表情分类损失的学习.网络由两部分组成，第一部分为多尺度空洞卷积模块，第二部分为结合Adam优化器和中心损失函数的稠密网络DenseNet169.网络结构如图1.表1常见人脸表情数据集Tab.1Common facial expression dataset数据集

16、CK+JAFFEFER-2013+RAF-DBAffectNet数量5932133141229672450000主体12310N/AN/AN/A来源实验室实验室网络网络网络收集方法P&SPP&SP&SP&S表情种类7类基础表情+蔑视7类基础表情8类基础表情7类基础表情7类基础表情注：P=posed；S=spontaneous；Condit.=Collection condition；Elicit.=Elicitation method.782第 6 期雷建云，等：基于DenseNet的人脸图像情绪识别研究2.2多尺度空洞卷积对于人脸情绪识别，不同的人脸都由五官组成，相同的人脸受不同的外界条件影

17、响，能表达不同的情绪，面部肌肉做不同程度的收缩与舒张，因此人脸情绪识别需要模型重视深层的图像特征，针对类内差异大类间相似度高的问题，在稠密卷积网络模型中如何提高不同尺度特征的表达能力也是解决该问题的有效方法，V-J人脸检测算法采用多尺度融合的方式提高模型的精度，Inception网络则是通过不同大小的卷积核来控制感受野，MTCNN15人脸检测算法采用了多尺度模型集成以提高分类任务模型的性能.除了不同大小的卷积核控制感受野外，在图像分割网络Deeplab V316和目标检测网络Trident Networks17中使用空洞卷积来控制感受野.还有方法是通过直接使用不

18、同大小的池化操作来控制感受野，这个方法被PSPNet18网络所采用.本文提出结合多尺度空洞卷积的稠密网络形成更紧凑和位置不变的特征向量，提高不同尺度卷积特征表达能力，从而有效解决类内差异大和类间相似度小导致人脸情绪识别分类性能问题.空洞卷积也叫扩张卷积或者膨胀卷积，在卷积核中插入空洞，起到扩大感受野从而进行多尺度卷积，多尺度卷积在情绪特征识别任务中对于识别准确率相当重要，广泛应用在语义分割等任务中.在深度网络中为了增加感受野且降低计算量，采用降采样增加感受野的方法，但空间分辨率会降低，为了能不丢失分辨率，且仍能扩大感受野，可以使用空洞卷积，在分割任务中十分有用，一方面感受野大了可以检测分割大目

19、标，另一方面分辨率高了可以精确定位目标，捕捉多尺度上下文信息.空洞卷积有一个参数可以设置，空洞率，具体含义就是在卷积核中填充一定数量的0，当设置不同的空洞率，感受野就会不一样，即获得了多尺度信息.该模块包含四个分支，每个分支都由 3 个batchnorm、relu和conv组成，中间的卷积为3 3的空洞卷积，三个空洞卷积的膨胀分别为5、8和12.第4个分支在原始图像的基础上，为了和前三个分支的特征图像尺寸一致对边缘做了一定的裁剪且使用3 3卷积计算使图像变成40 40 18，最后在四个分支上进行通道上的融合，形成404054的特征图，作为稠密网络的输入.通道融合如公式（1）.表2DenseNe

20、t网络架构 k=32，卷积=BN-ReLu-ConvTab.2DenseNet Network structure k=32 conv=BN-ReLu-Conv层卷积池化稠密块（1）转换层（1）稠密块（2）转换层（2）稠密块（3）转换层（3）稠密块（4）分类层输出大小112 11256 5656 5656 5628 2828 2828 2814 1414 1414 147 77 71 1DenseNet-1217 7，s=23 3 最大池化，s=21 1卷积3 3卷积 61 1 卷积2 2 平均池化，s=21 1卷积3 3卷积 1211 卷积2 2 平均池化，s=21 1卷积3 3卷积 241

21、 1 卷积2 2 平均池化，s=21 1卷积3 3卷积 167 7 全局平均池化8D 全连接 softmaxDenseNet-1691 1卷积3 3 卷积 61 1卷积3 3卷积 121 1卷积3 3 卷积 321 1卷积3 3 卷积 32DenseNet-2011 1卷积3 3 卷积 61 1卷积3 3卷积 121 1卷积3 3 卷积 481 1卷积3 3 卷积 32 1 2 3 43 3 convd=53 3 conv d=83 3 conv d=12 convolution convolutionpoolingpoolingLinear情绪分类40 40 1240 40 1240 40

22、1240 40 1840 40 541 1 conv3 3 conv1 1 conv3 3 conv3 3最大池化 3 3最大池化 Softmax 8多尺度空洞卷积模块稠密网络DenseNet-BC模块 convolutionpooling convolutionpooling1 1 conv3 3 conv3 3最大池化 1 1 conv3 3 conv3 3最大池化稠密连接块1稠密连接块2稠密连接块4稠密连接块33 3 conv d=0 图1 网络结构图Fig.1Network structure diagram783第 42 卷中南民族大学学报（自然科学版）Y=cat（x1，x2，x3

23、，x4）.（1）x1、x2和x3分别为不同膨胀的空洞卷积分支，x4是原始图像分支，cat表示对这四个分支在通道上面进行融合.2.3DenseNet-BC网络模型DenseNet 网络由稠密块、过渡层交替连接组成.在稠密层中，任何层直接连接到所有后续层，加强特征传递，因此后面所有层都会收到前面所有层的特征图，即X0、X1、X2、X-1做为输入，如公式（2）：X=H(X0，X1，X-1).（2）2.3.1Adam优化器Adam 是一种随机梯度优化方法，占用很少的内存，只需要一阶梯度.该方法根据梯度的第一和第二矩估计值计算不同参数的学习率.该优化器结合了比较流行的两种方法AdaGrad和RMSPro

24、p方法分别在稀疏梯度和非平稳设置梯度的优点，该优化器有如下优点：参数更新幅度对于重新缩放梯度是不变的，其步长由步长超参数限制，不需要固定的目标.2.3.2中心损失函数中心损失函数针对softmax损失函数类内间距太大的问题，对每一个类都维护一个类中心，而后在特征层如果该样本离类中心太远就要惩罚，也就是所谓的中心损失，每一个特征需要通过一个好的网络达到特征层获得类中心，计算后所有样本的特征平均值为类中心，而好的网络需要在类中心加入的情况下才能得到.没法直接获得类中心，所以将其放到网络里自己生成，在每一个batch里更新类中心，即随机初始化类中心，每一个batch里计算当前数据与center的距离

25、，而后将这个梯度形式的距离加到center上.类似于参数修正.同样的类似于梯度下降法，增加一个度量，使得类中心不会抖动.3实验与结果分析对提出的网络模型进行实验验证，使用PyTorch深度学习框架，在DenseNet网络前面加入多尺度空洞卷积，同时在通道维度上结合原始输入的图像，在稠密网络中使用softmax+center 损失函数减少同类之间的距离，增加不同类的距离.使用Adam优化器进行梯度反向传播.具体分为实验环境和实验细节、数据集预处理、多尺度特征提取实验和对比实验.3.1实验环境和实现细节3.1.1实验环境本实验在Ubuntu 18.04.2 LTS操作系统环境下，基于PyTorch

26、深度学习框架构建.实验环境见表3.3.1.2实验过程输入48 48 3的图像经过多尺度空洞卷积处理之后得到 46 46 54的人脸图像，批量大小为256，结合权值衰减参数为 0.00001，学习率参数为1e-1的 Adam算法，使用 DenseNet-BC169 k=24的稠密网络训练300轮.分类全连接层包含8个神经元输出实现8分类，8个输出中最大输出的序号对应情绪状态.具体对应关系如下：生气-0，轻蔑-1，厌恶-2，害怕-3，高兴-4，中性-5，伤心-6，惊讶-7.3.2数据集预处理本文所采用到的实验数据集为网上公开数据集FER2013+，数据集由48 48 1的3万张图片组成.数据集分为

27、3部分，分别是训练集、验证集和测试集，其中公开测试集用于训练过程中的验证，私有测试集用于训练最后的测试.使用OpenCV对原始数据集进行尺寸和通道的调准，将尺寸通过双线性插值法调整到60 60的三通道图片.卷积神经网络在分类问题中，对于数据集的不同类的样本量要求均衡，本文借助数据增强，用水平翻转、垂直翻转、旋转45、旋转90、高斯模糊添加噪音、仿射变换的方法，训练集中各类样本数量变为 24000张，测试集各类样本数量变为 4000张.预处理前后数据集见表45和图2.表3实验环境Tab.3Experimental environment操作系统CPUGPU内存编程语言深度学习框架GPU加速库Ub

28、untu 20.04Intel Xeon Silver 4210 CPU 2.20GHz 2Nvida Quadro RTX 6000 4128GPython 3.6PyTorch 1.9.1CUDA 11.2表4预处理前FER2013+数据集Tab.4FER2013plus dataset before preprocessing训练集公开测试集私有测试集开心7287865893惊讶3149415396中性874011821090轻蔑1191316厌恶1192418生气2100287273恐惧5326283伤心3014351384总计2506031993153784第 6 期雷建云，等：基于

29、DenseNet的人脸图像情绪识别研究3.3多尺度特征提取实验在实验过程中，分别使用不同空洞率的三分支结构网络模型进行训练，分别使用了5、8和12的膨胀进行多尺度特征的提取的资源消耗和识别性能最佳，太大的空洞卷积无法提取细粒度信息，太小的空洞卷积无法提取大尺度信息.本实验为了保证通道融合上面尺寸的统一，使用公式（3）和公式（4）对图像的填充和裁剪进行计算，Win和Hin表示输入图像尺寸，padding表示填充数组，dilation表示膨胀数组kernel_size，描述卷积核大小数组，stride描述卷积步长数组.为了证明多尺度空洞卷积模块的有效性，将在改进的DenseNet模块前，分别添加多

30、尺度模块和不添加多尺度模块进行训练学习情绪特征，实验结果对比如表6所示，其中训练时间是指batch size为128的单批训练耗时.Wout=Win+2 padding 0-dilation 0()kernel_size0-1-1stride 0+1，（3）Hout=Hin+2 padding 1-dilation 1()kernel_size1-1-1stride 1+1.（4）3.4算法复杂度为了说明本文模型的优越性，分别将DenseNet-BC模型和 ResNet模型进行算法复杂度对比实验，实验数据如表7.本文提出改进的稠密网络模型的模型参数量明显少于其他的旁路网络.表 7 是在FER2

31、013+的8分类网络条件下进行实验，时间是指batch size为128的单批训练耗时.3.5对比实验3.5.1超参数调优实验在预处理后的FER2013+数据集上研究不同超参数对模型收敛速度和情绪分类正确率的影响.分别从 DenseNet-BC 网络增长率 k，DenseNet-BC 层数c，权重衰减d三个方面对模型进行训练.实验结果如表8所示，结果表明k=24，c=169，d=1e-5时网络性能最好，收敛最快.更深的网络会在数据集上产生过拟合，k值太大会通过通道融合的方式加强浅层特征对深层特征的干扰，导致模型提取深层情绪特征比例较少，不利于人脸情绪识别.图3为不同模块的识别性能对比.中心损失

32、函数和softmax损失相结合，学习类间的差异和类内的共同特征，有利于网络模型对情绪特征的学习，结合在深度学习中表现优秀的Adam优化器和多尺度空洞卷积，最终模型的收敛速度快，收敛效果好.这说明，多尺度特征和中心损失函数对情绪识别的精度有帮助，Adam优化器能帮助模型加速收敛.3.5.2表情识别性能本文方法在常用的面部情绪数据集FER2013+表5预处理后FER2013+数据集Tab.5Preprocessed FE2013plus dataset训练集公开测试集私有测试集开心2400040004000惊讶2400040004000中性2400040004000轻蔑2400040004000厌

33、恶2400040004000生气2400040004000恐惧2400040004000伤心2400040004000总计1920032000320000100002000030000开心惊讶中性轻蔑厌恶生气恐惧伤心训练集预处理前后对比图预处理前预处理后图2 训练集预处理前后对比图Fig.2Comparison of training set before and after preprocessing表7模型参数对比Tab.7Model parameter comparison性能DenseNet-BC k=32ResNet12116920126450101101_wide152时间/s0.

34、4530.550.7020.8790.0860.1560.2540.224参数量897101815132298209863783429562619752008354018009639508048290887表6多尺度提取模块对比Tab.6Comparison of multi-scale extraction modules模型169121含有多尺度提取模块准确率0.85530.8366训练时间0.5500.453不含多尺度提取模块准确率0.79710.7863训练时间0.5450.450785第 42 卷中南民族大学学报（自然科学版）上进行十折交叉验证，实验结果如表9和图4、5所示，针对损失

35、函数、Adam优化器和多尺度空洞卷积对实验结果的影响见图4所示.根据实验数据分析发现，都引入旁路连接的 DenseNet和 ResNet，明显能加快模型的收敛速度和取得更好的收敛效果，旁路连接有利于提取情绪特征和情绪特征复用；注重宽度的GoogLeNet收敛速度不如有旁路连接的网络模型，但也取得了不错的收敛效果；不过VGG实验效果较差，说明浅层网络很难提取到有用的情绪特征.本文在 DenseNet神经网络结构进行表情识别性能的验证，结果表明，使用更深层的DenseNet网络容易在FER2013数据集上产生过拟合，大模型需要训练的参数过多，数据集数量过少导致的原因，本文采用基于静态图像的单幅图像

36、识别，相比于图像的视频序列方法，单幅图像方法的计算量更小，关于模型的正确率没有明显差别.静态图像方法中DeRL方法19和PPDN方法20使用了中性表情图像作为其他情绪的参考，因此取得了比其他方法更好的性能.刘露露21将4个尺度特征融合放到模型的后端，DenseNet 模型中将多尺度特征放到模型的前端，显著加强多尺度特征在模型中的作用，提高表情特征的重要性，减少无用特征的干扰，实现多尺度情绪特征提取.本文的方法使用稠密网络DenseNet-BC169，模型的参数量为1855130，相比其他的轻量级模型，参数量较少，但模型准确率并没有下降，在预处理后的FER2013

37、+上面训练300轮在公共测试集上达到 93.99%的正确率.本文方法相比于其他静态图像方法有更小的计算量和更好的情绪识别性能.4结语针对人脸情绪识别问题提出基于 DenseNet-BC169的面部表情识别网络模型，该网络模型由多尺度空洞卷积模块和稠密网络模块两部分组成.通道多尺度空洞卷积模块关注不同尺度特征的重要性，加强表情特征的作用，减少无用特征的干扰，实现对多尺度特征的提取.DenseNet模块使用旁路加强特征传递，实现对显著表情区域的关注.该网络通过通道融合的方式，以较小的计算开销实现了对特征图的面部表情识别.此外，在DenseNet中结合Adam优化器加快网络收敛速度，中心损失函数得到

38、更好收敛效果.实验结果表明，本文方法对预处HappySurpriseDisgustContemptAngerFearNeutralSadness图3 识别效果Fig.3Recognition effect表9不同网络模型性能对比Tab.9Performance comparison of different network models方法VGG19ResNet152DenseNet-BC169GoogLeNet实验设置图片图片图片图片FER2013Plus（正确率/%）89.1990.2893.9988.98表8超参数实验对比Tab.8Comparison of superparametri

39、c experimentsVariablek，c=169，d=1e-5c，k=24，d=1e-5d，k=24，c=169Value1224321211692011e-41e-51e-6Accuracy/%86.3993.0290.0690.3693.9992.5689.3891.2890.390.80.60.40.2Acc050100150200Epocn图4 不同模快性能对比Fig.4Performance comparison of different models0.80.60.40.2Acc050100150200Epocn图5 不同网络模型性能对比Fig.5Performance c

40、omparison of different network models786第 6 期雷建云，等：基于DenseNet的人脸图像情绪识别研究理后的FER2013+表情数据集的面部情绪识别准确率能达到93.99%.参考文献1 KRIZHEVSKY A，SUTSKEVER I，HINTON G E.ImageNet classification with deep convolutional neural networks J.Communications of the ACM，2017，60（6）：84-90.2 SIMONYAN K，ZISSERMAN A.Very deep convol

41、utional networks for large-scale image recognitionJ.arXiv Preprint arXiv：1409.1556，2019.3 SZEGEDY C，LIU W，JIA Y Q，et al.Going deeper with convolutions C /IEEE.2015 IEEE Conference on Computer Vision and Pattern Recognition CVPR.New York：IEEE，2015：1-9.4 HOWARD A G，ZHU M，CHEN B，et al.Mobilenets：Effici

42、ent convolutional neural networks for mobile vision applications J.arXiv Preprint arXiv：1704.04861，2017.5 HE K M，ZHANG X Y，REN S Q，et al.Deep residual learning for image recognition C/IEEE.2016 IEEE Conference on Computer Vision and Pattern Recognition CVPR.NewYork：IEEE，2016：770-778.6 HUANG G，LIU Z，

43、VAN D M L，et al.Densely connected convolutional networks C/IEEE.Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii：IEEE，2017：4700-4708.7 SHAN C，GONG S，Facial expression recognition based on local binary patterns：A comprehensive study J.Image and Vision Computing，200

44、9，27（6）：803816.8 ZHAO G，PIETIKAINEN M.Dynamic texture recognition using local binary patterns with an application to facial expressionsJ.IEEE Transactions on Pattern Analysis and Machine Intelligence，2007，29（6）：915928.9 ZHI R，FLIERL M，RUAN Q，et al.Graph-preserving sparse nonnegative matrix factoriza

45、tion with application to facial expression recognitionJ.IEEE Transactions on Systems，Man，and Cybernetics，2011，B41（1）：3852.10 ZHONG L，LIU Q，YANG P，et al.Learning active facial patches for expression analysis C/IEEE.Computer Vision and Pattern Recognition（CVPR）.Portland：IEEE，2013：2562-2569.11 GOODFELL

46、OW I J，ERHAN D，CARRIER P L，et al.Challenges in representation learning：A report on three machine learning contestsJ.Neural Networks，2013，64：59-63.12 DHALL A，RAMANA O，GOECKE R，et al.Video and image based emotion recognition challenges in the wild：Emotiw 2015C/ACM.International Conference on Multimoda

47、l Interaction.Brisbane：ACM，2015：423426.13 KAYA H，GURPINAR F，SALAH A A.Video-based emotion recognition in the wild using deep transfer learning and score fusionJ.Image and Vision Computing，2017，65：66-75.14 KNYAZEV B，SHVETSOV R，EFREMOVA N，et al.Convolutional neural networks pretrained on large face re

48、cognition datasets for emotion classification from videoC/IEEE.2018 13th IEEE International Conference on Automatic Face&Gesture Recognition.Istanbul：IEEE，2018：692-696.15 ZHANG K，ZHANG Z，LI Z，et al.Joint face detection and alignment using multitask cascaded convolutional networks J.IEEE Signal Proce

49、ssing Letters，2016，23（10）：1499-1503.16 CHEN L，PAPANDREOU G，SCHROFF F，et al.Rethinking atrous convolution for semantic image segmentationJ.arXiv Preprint arXiv：1706.5587，2017.17 LI Y，CHEN Y，WANG N，et al.Scale-aware trident networks for object detection J.arXiv Preprint arXiv：1901.1892，2019.18 ZHAO H，

50、SHI J，QI X，et al.Pyramid scene parsing network C/IEEE.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Hawaii：IEEE，2017：6230-6239.19 YANG H Y，CIFTCI U，YIN L J.Facial expression recognition by de-expression residue learning C/IEEE.2018 IEEE Conference on Computer Visio

展开阅读全文