1、第 卷第 期计算机应用与软件 年 月 结合深度神经网络的网络监控系统微表情识别罗予东李振坤(嘉应学院计算机学院广东 梅州 )(广东工业大学计算机学院广东 广州 )收稿日期:。国家自然科学基金面上项目()。罗予东,高级实验师,主研领域:网络工程,信息安全。李振坤,教授。摘要为了提高网络监控系统微表情识别的效果,结合深度神经网络技术提出新的智能监控系统微表情识别算法。将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合,利用卷积神经网络提取目标的空间特征,再将卷积特征表示为直方图,结合直方图和卷积神经网络两者的优势设计新的人体追踪算法;设计跨模态监督的深度神经网络训练方法,将可见光视频数据送入深度
2、神经网络进行训练,利用近红外光视频对训练程序进行监督。基于公开的多模态微表情识别数据集完成了验证实验,结果显示该算法有效地提高了微表情识别的性能。关键词卷积神经网络智能监控系统微表情识别深度神经网络跨模态融合近红外光成像中图分类号 文献标志码 :(,)(,),引言近红外光(,)是介于可见光和中红外光的电磁波,近红外成像技术能够在光照条件差的环境下拍摄目标的图像,在安防监控、无人机以及虚拟现实等领域 具有广阔的应用前景。在安防监控以及协助公安部门执法的过程中,可见光视频数据目前依然处于主要的地位,而利用近红外光能够弥补弱光或黑暗环境下有效监控数据缺失的问题,因而跨第 期罗予东,等:结合深度神经网
3、络的网络监控系统微表情识别 模态的识别技术在安防监控领域具有极大的应用价值 。但由于可见光模态和近红外模态之间的数据分布存在巨大的差异,近红外模态的数据量也远少于可见光模态,导致跨模态训练过程极易发生过拟合 的问题。许多研究人员对不同模态间数据分布差异大的问题进行了深入的研究,通常先利用 或 等技术提取特征,再将不同模态的特征投影到一个公共空间内,由此缩小模态间的分布差异。文献 通过 算法对 特征点进行过滤,获得图像的兴趣点,把选取的区域作为 特征提取的输入图像,通过两种特征的混合处理提高系统的总体性能。文献 使用纹理特征融合表示图像的底层语义特征,使用感兴趣区域的形态学描述表示图像的高层语义
4、信息,设计了新的相似性度量方法计算图像两个模态间的相似度,最后利用多核学习方法学习特征融合的权值。文献 从不同方面融合了多个模态的特征,虽然性能比单模态特征有所提高,但是受限于特征描述子的表示能力 ,这类方法的性能 目前已经陷入了瓶颈。随着人工智能技术的发展,研究人员利用神经网络强大的非线性学习能力提取更加丰富的特征集,再次促进了跨模态融合技术的发展 。其中运用神经网络与多模态融合技术处理表情识别问题,获得了显著的提升效果。文献 利用多模态深度神经网络解决建筑固废对象识别问题,把 图像和深度图送入神经网络进行高维特征学习,再通过最小化能量函数来寻找目标识别的全局最优解。文献 深入分析了多模态面
5、部表情识别问题,通过多模态融合方法将手工定制特征和深度学习特征结合起来,结果显示多模态特征融合的情感识别性能明显好于单模态特征。虽然结合深度学习和多模态融合技术能够明显提升表情识别的准确率,但现有技术 大多将深度特征、直方图特征及纹理特征等投影到同一个公共空间中,再实现特征的跨模态融合,这类方法扩大了特征空间,计算复杂度较高。安防监控应用场景中存在两个难题:可见光视频数据占据主要部分,而近红外光视频数据占据较小的部分,属于不平衡数据处理问题。采用上文的公共特征空间技术不仅增加了空间维度,而且会提高可见光目标识别的误检率 。基于直方图的动态表情识别算法对环境变化和空间变形等因素具有较好的鲁棒性,
6、但特征的判别性较弱。为了解决第个难题,设计了跨模态监督的深度神经网络特征融合方法,将可见光视频数据送入深度神经网络进行训练,利用近红外光数据对训练程序进行监督,达到迁移学习的目的。为了解决第个难题,将判别能力强的卷积神经网络特征与鲁棒的直方图特征结合,利用 提取目标空间特征,再将 特征表示为直方图,同时利用直方图和卷积神经网络两者的优势,设计了新的表情识别算法。安防监控的表情识别系统 应用场景介绍一个智慧城市系统 的组成部分通常包括智能家居、智能交通、智能购物、智能医疗、无线网络、云服务器等,图 所示是一个简化的智慧城市系统框架。物联网及智能设备将采集的数据传到边缘计算模块进行处理,然后边缘计
7、算模块把结果发送至云服务器进行处理和决策,云服务器将决策结果发送至公安机关、企事业单位等机构,这些机构采取相应的措施。假设一个可疑人员进入视频监控区域,摄像头经过 网络将视频发送至边缘计算模块进行预处理,边缘计算模块将数据发送至云服务器端,云服务器的虚拟机提取人脸的生物学特征,检测该人员的危险程度,最终把结果告知公安机关。图 智慧城市的简单框架图 所示是监控系统微表情自动识别的流程框图。首先,提取视频帧的卷积特征,通过卷积特征对人体进行追踪;然后,通过跨模态融合技术学习人脸特征;最终,通过 分类器识别人脸的表情。图 监控系统微表情自动识别的流程框图 计算机应用与软件 年 基于卷积特征直方图的特
8、征提取设 为目标的特征向量,设 与 分别为向量高度与宽度,为通道数量。基于 ()模型 建立特征的视觉直方图,把图像特征描述符量化成视觉词,最终生成视觉词的直方图。首先提取 个码字的集合 ,然后把特征集 的特征向量 与 中的每个码字 比较,通过相似性度量生成 的隶属向量 。采用欧氏距离计算相似性:()式中:为自然指数,是第 ,个特征向量对于第个码字的隶属度,表示 正则化。将所有计算的隶属度向量聚集成一个直方图表示。直方图 的数学式定义为:()图 所示是提取 特征直方图的流程。将原特征集的每个特征向量与码字的每个特征向量比较,再计算新的隶属度值,所有的隶属度经过加权调和计算产生最终的直方图表示。图
9、 提取 特征直方图的流程 基于卷积特征直方图的目标追踪 技术提取特征的性能较好,但其中欧氏距离的计算速度较慢,模块采用内积运算能够提高计算效率,因此本文将 和 两个模块结合,提高神经网络的训练速度。的隶属度计算式为:()式中:“”表示内积运算,“”表示取绝对值运算。通过式()将所有的隶属度聚合成直方图表示,再增加一个卷积层实现式()的运算,卷积层的激活函数为取绝对值函数,通过神经连接计算所有节点的加权调和值,该网络结构能够加快 的训练速度。在目标识别与跟踪问题中,空间信息包含了重要的价值,但式()所产生的直方图忽略了空间信息。为此设计了滑动窗口机制来提取多个直方图表示,通过聚合多个隶属度值来增
10、加空间信息。设滑动窗口的大小为 ,一个滑动步长为 ,设多维直方图的表示为 ,的每个元素为:()式中:,。在 中加入一个平均池化层实现多维直方图的计算。假设目标前景区域为 ,采用式()计算出目标模型 ,的空间维度依赖于目标区域大小及 的下采样率。图 所示是本文多维直方图提取的简单示意图,首先设置一个大面积的搜索区域 ,然后将搜索区域 的每个直方图与目标区域的直方图比较。()目标直方图()搜索区域的直方图图 多维直方图的示意图采用巴氏距离 比较直方图:槡()式中:和 为两个直方图。通过式()计算出目标区域的相似性图 ,对多维直方图取平均值,将结果作为搜索区域的统一直方图值,选择其中相似性最高的空间
11、位置作为目标在搜索区域内的定位。跨模态深度神经网络设计 跨模态监督问题利用近红外光模态 提升可见光模态的微表情识别性能,通过迁移学习技术学习可见光域 和近红外光域 的特征,再把 和 组合成统一的表示。假设第 期罗予东,等:结合深度神经网络的网络监控系统微表情识别 学习映射函数 ()和 ()分别最大化特征集 和 的判别力,其中 和 分别为可见光域的特征向量和特征维度,和 分别为近红外光域的特征向量和特征维度。然后学习一个映射函数生成统一的表示 (,),其中 ()为映射函数。上述多模态特征融合模型需要多个模态的数据,但在安防监控问题中,有时仅能获得一个模态的数据,例如:夜晚仅能拍摄近红外光的数据,
12、无法拍摄可见光的数据。因此对多模态融合进行了修改,跨模态学习的目标是学习一个新的映射函数(),且()依赖于,函数()的输入为 ,在训练过程中学习 对()的影响关系。基于神经网络实现跨模态监督设计了编码器 解码器结构的深度神经网络学习变换函数,网络的输入是可见光图像,在可见光域特征 之后级联一个解码器来加入近红外光域的监督数据 。跨模态监督学习能够学习两个模态间的相关性,增加一个神经网络来识别面部的微表情。每个微表情分别训练一个网络结构,假设第 个面部表情的判别网络为 ,那么可得 (),表示第 个面部行为的出现概率。设 表示解码网络,经过跨模态监督学习获得重建的近红外光图像 ()。因为 (),所
13、以面部行为识别的概率为 (),分类损失和近红外光图像重建损失两者在监督学习过程中存在冲突性,且分类损失的监督强度明显大于跨模态的相关性。为了解决该问题,直接将判别网络连接到解码器的输出,判别网络预测的概率变为:()()()式中:()表示解码函数。迁移学习思想的实现将第 种微表情的二元交叉熵损失函数记为(),通过求偏导计算编码器的梯度:()()()随之可获得以下的编码器公式:()()()式中:()表示 的正则化特征表示,为类向量。直接通过梯度下降法计算类向量 和特征 ()间距离的极值,如果 属于第 个类,那么 与 的距离必大于 ,()与 的距离也必大于 。假设 与 存在以下关系:()如果 足够小
14、,那么()和()间的距离 (),()远小于 ,因此两者的欧氏距离 ()()槡,据此可推导出以下关系:()()槡)()式中:参数 的更新梯度与近红外光图 成比例关系。如果重建的热图 与 的差异较大,那么式()不成立,从而导致梯度快速消失。根据式()的结论,网络的训练目标是最小化 ,即最小化近红外光图像的重建误差,再结合近红外光图分类器对编码器 解码器网络进行微调。模型仅训练一次热图分类器,然后利用该分类器对编码器 解码器网络进行监督训练。训练后的编码器网络学习了可见光图像和近红外光图之间的相关性,同时也学习了近红外光图的判别特征。重建损失函数定义通常通过最小化重建图 和原图 间像素的均方误差 来
15、优化近红外光图的重建,的计算式为:()()式中:()为像素 的平方误差,为像素数量。式()对所有的像素的重建误差进行了平均化处理,每个像素对网络模型参数的贡献相等。如果重建误差大的像素数量较少,网络模型则可能过早发生收敛。因此,如下选出一部分误差大的像素来引导训练:(,)()式中:是用于计算重建损失的像素数量,函数 (,)计算了元素 在向量 中的排名。()为指示函数,如果条件满足,那么 (),否则 ()。通过指定 个差异最大的像素来引导网络模型的训练,从而避免发生过早收敛,提高网络模型的准确性。迁移学习微调神经网络训练后的编码器提取可见光图像的潜在表示,然后采用迁移学习的思想对编码器的参数进行
16、微调。假设目标数据集 不包含近红外光图,增加编码器和解码器,通过反向映射从近红外光图重建可见光图像。图 所示是编码器、解码器微调训练的流程,根据可见光图像的重建损失学习目标数据集 的潜在表示。计算机应用与软件 年图 基于迁移学习的微调训练流程 微表情识别系统设计图 所示是微表情识别的网络结构,主要分为特征提取和特征增强两个阶段。首先训练一个 分类器,同时采用近红外光图的人脸图像训练另一个 分类器。然后将近红外光模态的信息迁移到可见光模态,在保持搜索空间的前提下提升可见光模态的特征性能。图 跨模态监督表示学习的训练流程图 所示是多模态特征融合系统的总体结构。图 多模态特征融合系统的总体结构设每个
17、输入模态为,对应的特征为:(;)()式中:,表示特征提取,为模态 的相关参数。定义一个函数 (;)将所有模态的特征转化成公共表示 ,的数学式定义为:(,;)()模态 的特征缩放因子 ,计算为:()()模态 的特征平移因子 ,计算为:()()式中:,表示 非线性变换。然后为每个特征向量 建立变换向量:()()从 个特征集 中选出一个最佳特征集,实现方法是通过 激活函数选择最相关的特征向量 :()()()式中:表示经过网络预测的重要性权值,为模态的数量,和 分别为预测函数的权值与偏置。实验与结果分析 实验环境与实验数据集在 平台上编程实现本文算法,实验环境为一台 机,硬件配置为 ()()处理器,主
18、频,内存。操作系统为 。实验包括两个部分,第 部分测试人脸追踪的性能,第 部分测试微表情识别的性能。采用公开的目标追踪数据集 完成人脸追踪的实验。该数据集包含不同场景下共 组视频序列,选出 组人脸追踪数据集完成人脸追踪实验,即 、,如图 所示。该数据集共有光照变化()、平面外旋转()、尺度变化()、目标遮挡()、变形()、运动模糊()、低分辨率()、离开视野()八个属性,能够全面地测试算法的鲁棒性。()()()第 期罗予东,等:结合深度神经网络的网络监控系统微表情识别 ()()()()()()图 数据集的实例然后采用公开的多模态微表情数据集(,)完成微表情识别的实验。该数据集由可见光视频数据和
19、近红外光视频数据组成,由 个人物对象在镜头前完成 个指定任务,每个视频帧标注了 个面部标志点。筛选出 个可见光视频和 个对应的近红外光视频,将可见光数据与近红外光数据设为 ,测试算法在不平衡数据下的性能。数据集选出 个出现频率最高的面部微表情,即轻松()、惊讶()、悲伤()、高兴()、痛苦()、恶心()、尴尬()、紧张()、害怕()、生气()、沮丧()、惊吓()。图 ()、()、()分别为可见光图像的尴尬、高兴、轻松三个表情的实例,图 ()、()、()分别为近红外图像的高兴、惊讶、轻松三个表情的实例。()尴尬表情()高兴表情()轻松表情()高兴热图()惊讶热图()轻松热图图 多模态数据集的实例
20、 神经网络的训练方法 特征提取网络的训练采用 提取卷积网络的特征,采用二值交叉熵计算网络损失:(,)()()式中:如果标记 为正(前景区域),那么 ;如果标记 为负(背景区域),那么 。图 ()、()和()分别是 图、近红外热图以及重建的近红外热图实例。经过跨模态监督学习获得重建的近红外光图像 (),可看出重建过程存在明显的损失,但是损失较小。()图()近红外热图()重建的热图图 近红外热图重建实例 跨模态监督网络的训练如图 所示,微表情识别也采用 的网络结构,网络深度为 ,随机初始化权重,输出层为 个神经元,每个单元对应一个微表情。输入图像大小统一缩放成 个像素,采用 随机梯度下降法训练网络
21、,学习率为 ,计算每个微表情的二值交叉熵损失作为代价函数。考虑数据集不平衡的特点,为每个分类的损失值分配一个相应的权值。图 所示是提取图像特征的网络结构,随之采用 节、节的方法微调神经网络,然后基于 节的方法利用近红外数据对神经网络进行监督训练。图 的网络结构 结果分析 人脸追踪实验为了综合评价本文人脸追踪算法 的性能,选择基于卷积神经网络的目标追踪算法 、基于直方图的人脸识别算法 及基于卷积神经网络和亲和力度量的人脸识别算法 。是一种采用 卷积特征的人脸识别算法,通过该算法观察 将卷积特征与直方图特征相结合的思想是否有效。是一种基于 ()直方图的目标追踪 计算机应用与软件 年算法,该算法采用
22、有向梯度直方图提取兴趣点的特征,具有较好的鲁棒性。是一种结合 网络和分类器的目标追踪算法,该算法通过二值分类器提取前景区域,再通过 提取前景区域的特征,由此提高卷积特征的鲁棒性。采用精度曲线和成功率曲线两个指标评价目标追踪的综合性能,两个指标需要计算中心位置误差和总覆盖率:中心位置误差定义为目标位置与真实位置间的平均欧氏距离,覆盖率定义为目标区域和真实区域的交集除以两者的并集。精度曲线的阈值设为 个像素,成功率曲线的阈值设为 。图 所示分别为 个目标追踪算法的精度曲线与成功率曲线,图 ()中 的 ()得分分别为 、和 ,图 ()中 的 得分分别为 、和 。本文的 算法的精度和成功率均获得了最佳
23、的结果,优于另一个基于 的追踪算法 ,由此证明将卷积神经网络特征和直方图特征结合,能够增强目标追踪的性能。()精度曲线()成功率曲线图 目标追踪算法的精度曲线与成功率曲线表 所示为 个目标追踪算法对于 个属性的平均精度值。算法在 、六个属性上均获得了最佳的精度值,但在低分辨率()属性上略低于 和 两个方法,在低分辨率情况下卷积特征的判别效果下降,后期经过直方图处理后导致判别性进一步下降,因此在低分辨率情况下,和 的性能均差于基于单一特征的算法。此外 在离开视野()属性上也低于 方法,在第一步利用二值分类器识别前景区域,因此能够有效处理目标离开视野的情况。表 目标追踪算法对于 个属性的平均精度值
24、属性方法 微表情识别实验为了综合评价本文微表情识别的性能,选择基于深度神经网络的微表情识别模型 、基于 和双向长短期记忆网络的微表情识别模型 ,另外也采用可见光数据和近红外光数据单独训练 模型,由此观察本文多模态特征融合算法的效果。通过 和 分别训练不同模态的特征,最终将两个模型的结果通过加权调和的方法进行融合。采用 提取视频数据的特征,利用表情的连续性特点,通过 对下一帧的人脸位置进行预测,从而提升人脸识别的准确率。采用 指数评价微表情识别的综合性能,实验采用 折交叉检验完成实验并统计实验结果。图 所示是微表情识别算法对 个微表情识别的 值,表 是所有模型识别 种微表情的平均 值。是一种基于
25、可见光视频的微表情识别算法,其性能优于可见光 模型,可看出该模型通过 预测下一帧的人脸位置,有效地提升了微表情的识别性能。但 的性能差于 模型,可看出通过融合多模态的特征能够有效提升微表情的识别性能。本文算法则取得了最佳的识别结果,可看出本文跨模态监督训练的方法优于多模态直接融合的方法,由此也佐证了本文的思想。第 期罗予东,等:结合深度神经网络的网络监控系统微表情识别 ()第 组()第 组()第 组图 微表情识别的 值表 微表情识别算法的 平均值数据或方法 可见光数据 近红外光数据 本文算法 结语为了满足智慧城市建设过程中智能安防监控系统的需要,结合深度神经网络技术提出了新的智能监控系统微表情
26、识别算法。设计了跨模态监督的深度神经网络特征融合方法,将可见光视频数据送入深度神经网络进行训练,利用近红外光数据对训练程序进行监督,提高了对人脸微表情识别的性能。安防监控系统每时每刻拍摄新的视频数据,因此需要不断地重新训练深度神经网络,而训练神经网络需要极大的开销。未来将关注于神经网络增量训练的研究,提高算法的实际应用价值。参考文献韩松臣,黄畅昕,李炜,等 一种改进的基于近红外图像的去雾方法 工程科学与技术,():高静,韩光,卢启鹏 近红外光在皮肤组织中的传播和光纤探测结构设计 光子学报,():张典,汪海涛,姜瑛,等 基于轻量网络的近红外光和可见光融合的异质人脸识别 小型微型计算机系统,():
27、刘佶鑫,魏?可见光 近红外 图像融合的场景类字典稀疏识别方法 计算机应用,():汪亮亮,张贵仓,贾雯晓 基于梯度融合规则的医学图像融合方法 计算机应用研究,():侯小红,郭敏 一种基于 特征点检测的 人脸表情识别算法 西北大学学报(自然科学版),():王保加,潘海为,谢晓芹,等 基于多模态特征的医学图像聚类方法 计算机科学与探索,():,:,():,(),刘泽宇,马龙龙,吴健,等 基于多模态神经网络的图像中文摘要生成方法 中文信息学报,():文孟飞,刘伟荣,胡超 网络媒体大数据流异构多模态目标识别策略 计算机研究与发展,():韩枫,李晓玲,孙秀雯,等 智慧城市公共信息服务交互系统设计与实现 系
28、统仿真学报,():陈师哲,王帅,金琴 多文化场景下的多模态情感识别 软件学报,():(下转第 页)第 期区健,等:基于 与深度学习的表情识别算法 ,():卢官明,何嘉利,闫静杰,等 一种用于人脸表情识别的卷积神经网络 南京邮电大学学报(自然科学版),():,:,:,:,?,:,:,:徐琳琳,张树美,赵俊莉 构建并行卷积神经网络的表情识别算法 中国图象图形学报 ,():产文涛 基于卷积神经网络的人脸表情和性别识别 合肥:安徽大学,:,:,:,:,:,():姚丽莎,徐国明,赵凤 基于卷积神经网络局部特征融合的人脸表情识别 激光与光电子学进展,():李校林,钮海涛 基于 的特征融合面部表情识别 计算机工程与科学,():(上接第 页),():王鑫,侯志强,余旺盛,等 基于多层卷积特征融合的目标尺度自适应稳健跟踪 光学学报,():,():,():,(),():,:,吴仁彪,赵婷,屈景怡 基于深度 的航班延误预测模型 电子与信息学报,():,(),():,:,():,:,():,(),