结合深度神经网络的网络监控系统微表情识别.pdf

资源描述

1、第卷第期计算机应用与软件年月结合深度神经网络的网络监控系统微表情识别罗予东李振坤（嘉应学院计算机学院广东梅州）（广东工业大学计算机学院广东广州）收稿日期：。国家自然科学基金面上项目（）。罗予东，高级实验师，主研领域：网络工程，信息安全。李振坤，教授。摘要为了提高网络监控系统微表情识别的效果，结合深度神经网络技术提出新的智能监控系统微表情识别算法。将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合，利用卷积神经网络提取目标的空间特征，再将卷积特征表示为直方图，结合直方图和卷积神经网络两者的优势设计新的人体追踪算法；设计跨模态监督的深度神经网络训练方法，将可见光视频数据送入深度

2、神经网络进行训练，利用近红外光视频对训练程序进行监督。基于公开的多模态微表情识别数据集完成了验证实验，结果显示该算法有效地提高了微表情识别的性能。关键词卷积神经网络智能监控系统微表情识别深度神经网络跨模态融合近红外光成像中图分类号文献标志码：（，）（，），引言近红外光（，）是介于可见光和中红外光的电磁波，近红外成像技术能够在光照条件差的环境下拍摄目标的图像，在安防监控、无人机以及虚拟现实等领域具有广阔的应用前景。在安防监控以及协助公安部门执法的过程中，可见光视频数据目前依然处于主要的地位，而利用近红外光能够弥补弱光或黑暗环境下有效监控数据缺失的问题，因而跨第期罗予东，等：结合深度神经网

3、络的网络监控系统微表情识别模态的识别技术在安防监控领域具有极大的应用价值。但由于可见光模态和近红外模态之间的数据分布存在巨大的差异，近红外模态的数据量也远少于可见光模态，导致跨模态训练过程极易发生过拟合的问题。许多研究人员对不同模态间数据分布差异大的问题进行了深入的研究，通常先利用或等技术提取特征，再将不同模态的特征投影到一个公共空间内，由此缩小模态间的分布差异。文献通过算法对特征点进行过滤，获得图像的兴趣点，把选取的区域作为特征提取的输入图像，通过两种特征的混合处理提高系统的总体性能。文献使用纹理特征融合表示图像的底层语义特征，使用感兴趣区域的形态学描述表示图像的高层语义

4、信息，设计了新的相似性度量方法计算图像两个模态间的相似度，最后利用多核学习方法学习特征融合的权值。文献从不同方面融合了多个模态的特征，虽然性能比单模态特征有所提高，但是受限于特征描述子的表示能力，这类方法的性能目前已经陷入了瓶颈。随着人工智能技术的发展，研究人员利用神经网络强大的非线性学习能力提取更加丰富的特征集，再次促进了跨模态融合技术的发展。其中运用神经网络与多模态融合技术处理表情识别问题，获得了显著的提升效果。文献利用多模态深度神经网络解决建筑固废对象识别问题，把图像和深度图送入神经网络进行高维特征学习，再通过最小化能量函数来寻找目标识别的全局最优解。文献深入分析了多模态面

5、部表情识别问题，通过多模态融合方法将手工定制特征和深度学习特征结合起来，结果显示多模态特征融合的情感识别性能明显好于单模态特征。虽然结合深度学习和多模态融合技术能够明显提升表情识别的准确率，但现有技术大多将深度特征、直方图特征及纹理特征等投影到同一个公共空间中，再实现特征的跨模态融合，这类方法扩大了特征空间，计算复杂度较高。安防监控应用场景中存在两个难题：可见光视频数据占据主要部分，而近红外光视频数据占据较小的部分，属于不平衡数据处理问题。采用上文的公共特征空间技术不仅增加了空间维度，而且会提高可见光目标识别的误检率。基于直方图的动态表情识别算法对环境变化和空间变形等因素具有较好的鲁棒性，

6、但特征的判别性较弱。为了解决第个难题，设计了跨模态监督的深度神经网络特征融合方法，将可见光视频数据送入深度神经网络进行训练，利用近红外光数据对训练程序进行监督，达到迁移学习的目的。为了解决第个难题，将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合，利用提取目标空间特征，再将特征表示为直方图，同时利用直方图和卷积神经网络两者的优势，设计了新的表情识别算法。安防监控的表情识别系统应用场景介绍一个智慧城市系统的组成部分通常包括智能家居、智能交通、智能购物、智能医疗、无线网络、云服务器等，图所示是一个简化的智慧城市系统框架。物联网及智能设备将采集的数据传到边缘计算模块进行处理，然后边缘计

7、算模块把结果发送至云服务器进行处理和决策，云服务器将决策结果发送至公安机关、企事业单位等机构，这些机构采取相应的措施。假设一个可疑人员进入视频监控区域，摄像头经过网络将视频发送至边缘计算模块进行预处理，边缘计算模块将数据发送至云服务器端，云服务器的虚拟机提取人脸的生物学特征，检测该人员的危险程度，最终把结果告知公安机关。图智慧城市的简单框架图所示是监控系统微表情自动识别的流程框图。首先，提取视频帧的卷积特征，通过卷积特征对人体进行追踪；然后，通过跨模态融合技术学习人脸特征；最终，通过分类器识别人脸的表情。图监控系统微表情自动识别的流程框图计算机应用与软件年基于卷积特征直方图的特

8、征提取设为目标的特征向量，设与分别为向量高度与宽度，为通道数量。基于（）模型建立特征的视觉直方图，把图像特征描述符量化成视觉词，最终生成视觉词的直方图。首先提取个码字的集合，然后把特征集的特征向量与中的每个码字比较，通过相似性度量生成的隶属向量。采用欧氏距离计算相似性：（）式中：为自然指数，是第，个特征向量对于第个码字的隶属度，表示正则化。将所有计算的隶属度向量聚集成一个直方图表示。直方图的数学式定义为：（）图所示是提取特征直方图的流程。将原特征集的每个特征向量与码字的每个特征向量比较，再计算新的隶属度值，所有的隶属度经过加权调和计算产生最终的直方图表示。图

9、提取特征直方图的流程基于卷积特征直方图的目标追踪技术提取特征的性能较好，但其中欧氏距离的计算速度较慢，模块采用内积运算能够提高计算效率，因此本文将和两个模块结合，提高神经网络的训练速度。的隶属度计算式为：（）式中：“”表示内积运算，“”表示取绝对值运算。通过式（）将所有的隶属度聚合成直方图表示，再增加一个卷积层实现式（）的运算，卷积层的激活函数为取绝对值函数，通过神经连接计算所有节点的加权调和值，该网络结构能够加快的训练速度。在目标识别与跟踪问题中，空间信息包含了重要的价值，但式（）所产生的直方图忽略了空间信息。为此设计了滑动窗口机制来提取多个直方图表示，通过聚合多个隶属度值来增

10、加空间信息。设滑动窗口的大小为，一个滑动步长为，设多维直方图的表示为，的每个元素为：（）式中：，。在中加入一个平均池化层实现多维直方图的计算。假设目标前景区域为，采用式（）计算出目标模型，的空间维度依赖于目标区域大小及的下采样率。图所示是本文多维直方图提取的简单示意图，首先设置一个大面积的搜索区域，然后将搜索区域的每个直方图与目标区域的直方图比较。（）目标直方图（）搜索区域的直方图图多维直方图的示意图采用巴氏距离比较直方图：槡（）式中：和为两个直方图。通过式（）计算出目标区域的相似性图，对多维直方图取平均值，将结果作为搜索区域的统一直方图值，选择其中相似性最高的空间

11、位置作为目标在搜索区域内的定位。跨模态深度神经网络设计跨模态监督问题利用近红外光模态提升可见光模态的微表情识别性能，通过迁移学习技术学习可见光域和近红外光域的特征，再把和组合成统一的表示。假设第期罗予东，等：结合深度神经网络的网络监控系统微表情识别学习映射函数（）和（）分别最大化特征集和的判别力，其中和分别为可见光域的特征向量和特征维度，和分别为近红外光域的特征向量和特征维度。然后学习一个映射函数生成统一的表示（，），其中（）为映射函数。上述多模态特征融合模型需要多个模态的数据，但在安防监控问题中，有时仅能获得一个模态的数据，例如：夜晚仅能拍摄近红外光的数据，

12、无法拍摄可见光的数据。因此对多模态融合进行了修改，跨模态学习的目标是学习一个新的映射函数（），且（）依赖于，函数（）的输入为，在训练过程中学习对（）的影响关系。基于神经网络实现跨模态监督设计了编码器解码器结构的深度神经网络学习变换函数，网络的输入是可见光图像，在可见光域特征之后级联一个解码器来加入近红外光域的监督数据。跨模态监督学习能够学习两个模态间的相关性，增加一个神经网络来识别面部的微表情。每个微表情分别训练一个网络结构，假设第个面部表情的判别网络为，那么可得（），表示第个面部行为的出现概率。设表示解码网络，经过跨模态监督学习获得重建的近红外光图像（）。因为（），所

13、以面部行为识别的概率为（），分类损失和近红外光图像重建损失两者在监督学习过程中存在冲突性，且分类损失的监督强度明显大于跨模态的相关性。为了解决该问题，直接将判别网络连接到解码器的输出，判别网络预测的概率变为：（）（）（）式中：（）表示解码函数。迁移学习思想的实现将第种微表情的二元交叉熵损失函数记为（），通过求偏导计算编码器的梯度：（）（）（）随之可获得以下的编码器公式：（）（）（）式中：（）表示的正则化特征表示，为类向量。直接通过梯度下降法计算类向量和特征（）间距离的极值，如果属于第个类，那么与的距离必大于，（）与的距离也必大于。假设与存在以下关系：（）如果足够小

14、，那么（）和（）间的距离（），（）远小于，因此两者的欧氏距离（）（）槡，据此可推导出以下关系：（）（）槡）（）式中：参数的更新梯度与近红外光图成比例关系。如果重建的热图与的差异较大，那么式（）不成立，从而导致梯度快速消失。根据式（）的结论，网络的训练目标是最小化，即最小化近红外光图像的重建误差，再结合近红外光图分类器对编码器解码器网络进行微调。模型仅训练一次热图分类器，然后利用该分类器对编码器解码器网络进行监督训练。训练后的编码器网络学习了可见光图像和近红外光图之间的相关性，同时也学习了近红外光图的判别特征。重建损失函数定义通常通过最小化重建图和原图间像素的均方误差来

15、优化近红外光图的重建，的计算式为：（）（）式中：（）为像素的平方误差，为像素数量。式（）对所有的像素的重建误差进行了平均化处理，每个像素对网络模型参数的贡献相等。如果重建误差大的像素数量较少，网络模型则可能过早发生收敛。因此，如下选出一部分误差大的像素来引导训练：（，）（）式中：是用于计算重建损失的像素数量，函数（，）计算了元素在向量中的排名。（）为指示函数，如果条件满足，那么（），否则（）。通过指定个差异最大的像素来引导网络模型的训练，从而避免发生过早收敛，提高网络模型的准确性。迁移学习微调神经网络训练后的编码器提取可见光图像的潜在表示，然后采用迁移学习的思想对编码器的参数进行

16、微调。假设目标数据集不包含近红外光图，增加编码器和解码器，通过反向映射从近红外光图重建可见光图像。图所示是编码器、解码器微调训练的流程，根据可见光图像的重建损失学习目标数据集的潜在表示。计算机应用与软件年图基于迁移学习的微调训练流程微表情识别系统设计图所示是微表情识别的网络结构，主要分为特征提取和特征增强两个阶段。首先训练一个分类器，同时采用近红外光图的人脸图像训练另一个分类器。然后将近红外光模态的信息迁移到可见光模态，在保持搜索空间的前提下提升可见光模态的特征性能。图跨模态监督表示学习的训练流程图所示是多模态特征融合系统的总体结构。图多模态特征融合系统的总体结构设每个

17、输入模态为，对应的特征为：（；）（）式中：，表示特征提取，为模态的相关参数。定义一个函数（；）将所有模态的特征转化成公共表示，的数学式定义为：（，；）（）模态的特征缩放因子，计算为：（）（）模态的特征平移因子，计算为：（）（）式中：，表示非线性变换。然后为每个特征向量建立变换向量：（）（）从个特征集中选出一个最佳特征集，实现方法是通过激活函数选择最相关的特征向量：（）（）（）式中：表示经过网络预测的重要性权值，为模态的数量，和分别为预测函数的权值与偏置。实验与结果分析实验环境与实验数据集在平台上编程实现本文算法，实验环境为一台机，硬件配置为（）（）处理器，主

18、频，内存。操作系统为。实验包括两个部分，第部分测试人脸追踪的性能，第部分测试微表情识别的性能。采用公开的目标追踪数据集完成人脸追踪的实验。该数据集包含不同场景下共组视频序列，选出组人脸追踪数据集完成人脸追踪实验，即、，如图所示。该数据集共有光照变化（）、平面外旋转（）、尺度变化（）、目标遮挡（）、变形（）、运动模糊（）、低分辨率（）、离开视野（）八个属性，能够全面地测试算法的鲁棒性。（）（）（）第期罗予东，等：结合深度神经网络的网络监控系统微表情识别（）（）（）（）（）（）图数据集的实例然后采用公开的多模态微表情数据集（，）完成微表情识别的实验。该数据集由可见光视频数据和

19、近红外光视频数据组成，由个人物对象在镜头前完成个指定任务，每个视频帧标注了个面部标志点。筛选出个可见光视频和个对应的近红外光视频，将可见光数据与近红外光数据设为，测试算法在不平衡数据下的性能。数据集选出个出现频率最高的面部微表情，即轻松（）、惊讶（）、悲伤（）、高兴（）、痛苦（）、恶心（）、尴尬（）、紧张（）、害怕（）、生气（）、沮丧（）、惊吓（）。图（）、（）、（）分别为可见光图像的尴尬、高兴、轻松三个表情的实例，图（）、（）、（）分别为近红外图像的高兴、惊讶、轻松三个表情的实例。（）尴尬表情（）高兴表情（）轻松表情（）高兴热图（）惊讶热图（）轻松热图图多模态数据集的实例

20、神经网络的训练方法特征提取网络的训练采用提取卷积网络的特征，采用二值交叉熵计算网络损失：（，）（）（）式中：如果标记为正（前景区域），那么；如果标记为负（背景区域），那么。图（）、（）和（）分别是图、近红外热图以及重建的近红外热图实例。经过跨模态监督学习获得重建的近红外光图像（），可看出重建过程存在明显的损失，但是损失较小。（）图（）近红外热图（）重建的热图图近红外热图重建实例跨模态监督网络的训练如图所示，微表情识别也采用的网络结构，网络深度为，随机初始化权重，输出层为个神经元，每个单元对应一个微表情。输入图像大小统一缩放成个像素，采用随机梯度下降法训练网络

21、，学习率为，计算每个微表情的二值交叉熵损失作为代价函数。考虑数据集不平衡的特点，为每个分类的损失值分配一个相应的权值。图所示是提取图像特征的网络结构，随之采用节、节的方法微调神经网络，然后基于节的方法利用近红外数据对神经网络进行监督训练。图的网络结构结果分析人脸追踪实验为了综合评价本文人脸追踪算法的性能，选择基于卷积神经网络的目标追踪算法、基于直方图的人脸识别算法及基于卷积神经网络和亲和力度量的人脸识别算法。是一种采用卷积特征的人脸识别算法，通过该算法观察将卷积特征与直方图特征相结合的思想是否有效。是一种基于（）直方图的目标追踪计算机应用与软件年算法，该算法采用

22、有向梯度直方图提取兴趣点的特征，具有较好的鲁棒性。是一种结合网络和分类器的目标追踪算法，该算法通过二值分类器提取前景区域，再通过提取前景区域的特征，由此提高卷积特征的鲁棒性。采用精度曲线和成功率曲线两个指标评价目标追踪的综合性能，两个指标需要计算中心位置误差和总覆盖率：中心位置误差定义为目标位置与真实位置间的平均欧氏距离，覆盖率定义为目标区域和真实区域的交集除以两者的并集。精度曲线的阈值设为个像素，成功率曲线的阈值设为。图所示分别为个目标追踪算法的精度曲线与成功率曲线，图（）中的（）得分分别为、和，图（）中的得分分别为、和。本文的算法的精度和成功率均获得了最佳

23、的结果，优于另一个基于的追踪算法，由此证明将卷积神经网络特征和直方图特征结合，能够增强目标追踪的性能。（）精度曲线（）成功率曲线图目标追踪算法的精度曲线与成功率曲线表所示为个目标追踪算法对于个属性的平均精度值。算法在、六个属性上均获得了最佳的精度值，但在低分辨率（）属性上略低于和两个方法，在低分辨率情况下卷积特征的判别效果下降，后期经过直方图处理后导致判别性进一步下降，因此在低分辨率情况下，和的性能均差于基于单一特征的算法。此外在离开视野（）属性上也低于方法，在第一步利用二值分类器识别前景区域，因此能够有效处理目标离开视野的情况。表目标追踪算法对于个属性的平均精度值

24、属性方法微表情识别实验为了综合评价本文微表情识别的性能，选择基于深度神经网络的微表情识别模型、基于和双向长短期记忆网络的微表情识别模型，另外也采用可见光数据和近红外光数据单独训练模型，由此观察本文多模态特征融合算法的效果。通过和分别训练不同模态的特征，最终将两个模型的结果通过加权调和的方法进行融合。采用提取视频数据的特征，利用表情的连续性特点，通过对下一帧的人脸位置进行预测，从而提升人脸识别的准确率。采用指数评价微表情识别的综合性能，实验采用折交叉检验完成实验并统计实验结果。图所示是微表情识别算法对个微表情识别的值，表是所有模型识别种微表情的平均值。是一种基于

25、可见光视频的微表情识别算法，其性能优于可见光模型，可看出该模型通过预测下一帧的人脸位置，有效地提升了微表情的识别性能。但的性能差于模型，可看出通过融合多模态的特征能够有效提升微表情的识别性能。本文算法则取得了最佳的识别结果，可看出本文跨模态监督训练的方法优于多模态直接融合的方法，由此也佐证了本文的思想。第期罗予东，等：结合深度神经网络的网络监控系统微表情识别（）第组（）第组（）第组图微表情识别的值表微表情识别算法的平均值数据或方法可见光数据近红外光数据本文算法结语为了满足智慧城市建设过程中智能安防监控系统的需要，结合深度神经网络技术提出了新的智能监控系统微表情

26、识别算法。设计了跨模态监督的深度神经网络特征融合方法，将可见光视频数据送入深度神经网络进行训练，利用近红外光数据对训练程序进行监督，提高了对人脸微表情识别的性能。安防监控系统每时每刻拍摄新的视频数据，因此需要不断地重新训练深度神经网络，而训练神经网络需要极大的开销。未来将关注于神经网络增量训练的研究，提高算法的实际应用价值。参考文献韩松臣，黄畅昕，李炜，等一种改进的基于近红外图像的去雾方法工程科学与技术，（）：高静，韩光，卢启鹏近红外光在皮肤组织中的传播和光纤探测结构设计光子学报，（）：张典，汪海涛，姜瑛，等基于轻量网络的近红外光和可见光融合的异质人脸识别小型微型计算机系统，（）：

27、刘佶鑫，魏?可见光近红外图像融合的场景类字典稀疏识别方法计算机应用，（）：汪亮亮，张贵仓，贾雯晓基于梯度融合规则的医学图像融合方法计算机应用研究，（）：侯小红，郭敏一种基于特征点检测的人脸表情识别算法西北大学学报（自然科学版），（）：王保加，潘海为，谢晓芹，等基于多模态特征的医学图像聚类方法计算机科学与探索，（）：，：，（）：，（），刘泽宇，马龙龙，吴健，等基于多模态神经网络的图像中文摘要生成方法中文信息学报，（）：文孟飞，刘伟荣，胡超网络媒体大数据流异构多模态目标识别策略计算机研究与发展，（）：韩枫，李晓玲，孙秀雯，等智慧城市公共信息服务交互系统设计与实现系

28、统仿真学报，（）：陈师哲，王帅，金琴多文化场景下的多模态情感识别软件学报，（）：（下转第页）第期区健，等：基于与深度学习的表情识别算法，（）：卢官明，何嘉利，闫静杰，等一种用于人脸表情识别的卷积神经网络南京邮电大学学报（自然科学版），（）：，：，：，：，?，：，：，：徐琳琳，张树美，赵俊莉构建并行卷积神经网络的表情识别算法中国图象图形学报，（）：产文涛基于卷积神经网络的人脸表情和性别识别合肥：安徽大学，：，：，：，：，：，（）：姚丽莎，徐国明，赵凤基于卷积神经网络局部特征融合的人脸表情识别激光与光电子学进展，（）：李校林，钮海涛基于的特征融合面部表情识别计算机工程与科学，（）：（上接第页），（）：王鑫，侯志强，余旺盛，等基于多层卷积特征融合的目标尺度自适应稳健跟踪光学学报，（）：，（）：，（）：，（），（）：，：，吴仁彪，赵婷，屈景怡基于深度的航班延误预测模型电子与信息学报，（）：，（），（）：，：，（）：，：，（）：，（），

展开阅读全文