Emfacenet_一种轻量级人脸识别的卷积神经网络_武文娟.pdf

资源描述

1、小型微型计算机系统：年月第期收稿日期：收修改稿日期：基金项目：并行与分布处理国防科技重点实验室项目（）资助作者简介：武文娟，女，年生，硕士研究生，研究方向为电子系统集成设计；李勇（通讯作者），男，年生，博士，副研究员，研究方向为电子系统集成设计：一种轻量级人脸识别的卷积神经网络武文娟，李勇（国防科技大学计算机学院，长沙）：摘要：随着计算机技术日益发展，计算机视觉逐渐融入人们的生活，深度卷积神经网络在计算机视觉领域得到了广泛的应用然而计算资源和内存的限制，为卷积神经网络在嵌入式设备的部署带来了巨大的困难本文提出了一种新的轻量级的人脸识别的卷积神经网络，通

2、过在数据集上进行卷积神经网络的训练，并在计算机平台以及嵌入式平台上利用数据集对模型的预测效果分别进行测试，在平台下识别速度分别是、以及这种模型的倍、倍、倍，在嵌入式平台下识别速度分别倍、倍、倍而且卷积神经网络模型大小仅为，保持较高精度的同时运行效率显著提高，可以适用于嵌入式等硬件资源受限领域来实现人脸识别关键词：深度学习；卷积神经网络；人脸识别；轻量级模型；嵌入式系统中图分类号：文献标识码：文章编号：（）：，（，）：，：，：；引言卷积神经网络（，）在计算机视觉领域取得了巨大的成功，显著改善了分类问题的现状，如对象，场景，动作，等作为最具影响力图像分类的竞赛，

3、进一步推动了深度学习各领域的发展因此，接连涌现了、等竞赛中获得各界冠军和亚军的经典网络除此以外，由于卷积神经网络可以模仿生物视神经的行为实现较高的精度，因此也被广泛的应用于图像识别领域人脸识别作为图像识别的一种其主要适用于身份认证，通过区分不同的人脸实例，达到能够识别或验证图像或视频中主体身份的目的随着人脸识别在嵌入式领域应用越来越广泛，人脸识别算法的部署成为首个需要重点考虑的问题这是因为神经网络在追求越来越高的精度的同时，其深度也在逐渐增加，网络的结构也越来越复杂，与此同时对于计算和存储提出的要求越来越高然而在嵌入式端很难部署这样大而深的卷积神经网络，于是设计轻量级的神

4、经网络的成为了一种新的趋势同时轻量级的人脸识别算法面临着巨大的挑战，牺牲了网络的深度和网络层的大小，客观上来说难以在人脸识别的准确度和速度上实现双高一些高效的神经网络被提出来用于视觉领域，如、，等轻量级神经网络本文提出了一种轻量级神经网络，并根据人脸识别算法结合当前新型轻量级的神经网络的优点，设计出一种准确性和复杂性趋于平衡的网络结构参考中所提出的残差操作将其用于构建网络主体，并且在设计网络过程中利用倒置残差结构对小通道数特征使用廉价的特征变化升维增加特征多样性，然后利用深度卷积完成特征交互同时在训练过程利用损失函数来计算模型预测值和真实值的差异

5、，进一步增强类内的紧凑性以及类间的差异性，从而提高模型的泛化能力该神经网络模型的大小仅为，同时性能和精度都可以满足嵌入式系统的要求相关工作近年来一些经典的轻量级神经网络来实现网络的优化加速，其设计的主要思想不同于传统的模型压缩方法，而是采用效率更高的计算方式来减少参数量，相应可以减少参数的计算和存储，以满足嵌入式端对于图像识别速度的要求系列是团队提出一种轻量级神经网络，其主要思想是将神经网络中传统的标准卷积替换成深度可分离卷积，后续改进主要是在前期网络的基础上分别引入了倒残差结构以及线性瓶颈层结构，接着利用神经架构搜索（）构建更加高效的网络，系列主要采用组卷积和通道洗牌的方式减少参数以

6、及运算量，除此以外，从内存访问代价出发，充分的挖掘并行性，以减少网络的运行时间，从而提高模型的效率针对人脸识别来说，人脸识别算法的完善和发展主要基于个方面：）神经网络结构的设计；）损失函数的设计；）使用的人脸识别数据集等人利用神经结构搜索设计了新的基线网络，并将其放大获得一系列的模型等人引入了这一微架构，并设计了一种轻量级的深度神经网络，该神经网络主要用于人脸属性的检测等人提出了一种非常高效的模型，它可以显著提高运行效率，主要用于人脸验证等人提出了一种深度球面嵌入式的人脸识别算法，该算法的核心是提出了一种损失，使卷积神经网络能够学习角度鉴别特征，该损失函数的设计可以看作是对

7、超球面流形施加区别性的约束等人提出一种加性角边缘损失函数，以获得高分辨特征的人脸识别等人提出了一种新的损失函数大余弦损耗，通过引入余弦裕度项实现角度空间的决策裕度最大化等人提出了一种的人脸图像识别的数据集，有助于消歧和提高识别准确率来解决计算机视觉的分类问题等人介绍了一种大规模人脸数据级在人脸识别基准上性能有所提升，同时提高了每个身份图像识别的精度方法人脸识别算法的设计是为了获取人脸实例特征，达到能够识别或验证图像或视频中的主体的身份的目的人脸识别算法在边缘设备上的部署具有广泛的应用场景，这要求算法具备在非加速环境下也能够具备实时以上的识别帧速因此人脸识别算法采用的神经网络

8、模型是算法执行效率的关键，在本章将会对本文所提出的轻量级人脸识别网络的设计思路以及方法进行详细介绍倒置残差网络的设计基于嵌入式设备设计一种轻量级的神经网络本质是追求网络复杂性和准确性的平衡因此，减少网络的复杂性从根本上来说必然会牺牲一定的准确性，这是轻量级的神经网络生成特征的多样性比较低而导致的为了进一步在网络中间得到更加多样化的信息，设计网络的过程中参考一些高效的网络结构是非常必要的本文主要参考所提出的倒置残差网络用于构建的主体，通过利用逐点卷积将低维输入特征图扩展到适合非线性激活的高维空间，然后利用深度卷积实现高维张量的空间过滤，最后利用另一个逐点卷积将空间过滤的特征图投影回

9、低维子空间倒置残差网络可以将深度卷积和残差网络的优点结合起来，深度卷积的出现在一定程度上减少了参数的计算和存储，避免深度卷积导致的特征退化的问题，而倒置残差网络的引入可以使图像的特征可以反复的利用，可以在参数量减少的情况下保留图像原本的特征用于人脸识别除此以外，随着参数量的减少，算法部署在嵌入式平台上就可以减少内存空间的占用并且减少访问外部存储器的次数，以进一步提升算法的效率为了更好的利用通道之间的关系来增强提取信息特征的能力，本文在该残差网络中引入了注意力机制在深度卷积和最后一个逐点卷积之间引入等人在论文中所提到的挤压和激励块（），块可以直接应用于现有的架构执行动态信道特征重新校准来

10、提高网络的表达能力增大了网络中有效特征的决策权重并忽略其他冗余权重，同时只略微增加了模型的复杂性和计算负担该倒置残差网络模块的结构如图所示图倒置残差结构设计是深度卷积模块，而则为挤压和激励模块，是本文提出的一种轻量级的逐点卷积模块，目的是利用更少的参数产生更多特征的图像块由于中间特征图输出后很多通道特征图相似度较高，神经网络为减少中间层对于冗余特征的提取，首先从常规卷积得到一部分输入特征之后再利用分组卷积得到其余特征，最终输出特征图将上述两者进行合并具体的实现分为两步，第步利用的卷积核对输入特征图进行卷积、批量标准化以及非线性激活的处理，然后再利用的卷积核对上一步的输出

11、特征图进行以输出通道数为分组数的分组卷积，最后将第步和第步的输出特征进行拼接输出除此以外，本文在该模块中还引入了残差操作，通过添加捷径（）增强特征的可重用性，捷径（）的设计如图所示，它可以用来预防训练中特征坍塌情况的产生神经网络整体架构在本节本文将进一步探讨该网络结构在整体架构中的应用并阐述神经网络整体架构的设计将以倒置残差网络（）作为网络主体，同时为了精简网络结构，在网络整体设计中仅应用层层，具体参数配置如表所示该参数与图的结构一一对应，表示期武文娟等：一种轻量级人脸识别的卷积神经网络层中深度卷积的卷积核大小，为倒置残差结构中第个逐点卷积进行升维的膨胀因子，表示

12、倒置残差结构输出通道的数量，表示使用的数量，则为深度卷积中所采用的步长表层参数配置卷积运算是提取人脸局部特征值的重要方法，但是卷积运算所带来的参数计算、存储、传输的需求会导致嵌入式系统不堪重负为了进一步便于该神经网络在嵌入式端以及移动端的部署，除上述层网络主体应用以外，本文仅在神经网络的输入层以及输出层各设计了一层卷积层，并利用自适应平均池化获得该网络所提取的特征值除此以外，输入特征图的大小与神经网络的参数量和计算量紧密相关，输入特征图的减少也可以促进模型的进一步减重然而，这可能会导致神经网络无法学习到该类图像的特征，从而学习效果降低，模型的识别精度也随之降低因此，为了减少输入特

13、征图大小的同时不降低深度学习的效果，本文将输入特征图统一先经过了人脸检测器进行数据集图像的预处理并实现人脸对齐，然后再将图像剪裁为大小这样可以在输入特征图较小的情况下最大程度上保持图像的人脸特征信息该神经网络的整体架构、输入输出以及参数量如表所示表的整体架构，表展现该特征图通道信息以及输入输出的结果根据前文网络整体架构的设计思路，本文将一张大小的图片输入输入层的对该人脸特征图利用的卷积核进行卷积，并对卷积所得到的数据进行批量标准化（）的处理，随后利用激活函数（）引入非线性因素，从而提高模型的表达能力之后依次通过前文设计好的层层进一步获取提取特征图中的有效特征信息，

14、最后再次通过卷积、批量标准化、非线性激活以及自适应平均池化层得到人脸特征值本文利用模型可视化工具得到网络结构以及各网络层的参数根据表中各网络层的参数结果可以看出，输入特征的大小为，参数总量为，参数量大小为，且生成模型大小仅为由此可见，本文通过有效的整体网络架构设计使该轻量级神经网络模型的参数远远的少于其他现有模型，当部署到嵌入式端时，模型的参数可以完全存储在上并且消除了对于模型加载参数的需要，有利于后续嵌入式系统的开发实验在上一节主要确定了神经网络的基本架构，为实现嵌入式设备的算法部署，在本章将通过模型的训练以及测试实现人脸识别图实验基本流程

15、实验流程如图所示，在训练阶段主要基于训练数据集实现的训练，并利用损失函数获取人脸特征预测值和真实值的差异，从而指导反向传播过程中参数和权重的更新以逐渐减少损失的大小在测试阶段主要利用测试数据集来测试神经网络提取人脸特征的能力，并根据不同人脸的相似度得分获得最高分的人脸身份，然后和真实身份进行对比，从而获得测试的精度实验具体工作以及过程见节和节训练阶段人脸识别的训练阶段的是通过神经网络在数据集中获取人脸的特征，并针对不同人脸实例进行分类以区分出不同人脸的判别特征训练的最终目的是通过不断的迭代实现模型权重的更新，最终获得具备较强人脸识别能力的神经网络模型因此在模型的训练阶段，数

16、据集和损失函数的选择都十分重要数据集是神经网络训练、验证和测试的基础，决定了神经网络模型所识别的人脸特征，而损失函数是将模型的预测值和实际值相比较来评估模型的执行效果的设计和实现不依赖于对已有网络的剪枝、量化等模型压缩方法，因此需要从头开始训练该网络针对轻量级的神经网络来说，数据集的选择对于人脸特征的提取至关重要本文选择了数据集用于神经网络的训练，该数据集中共有个不同的个体，其中包括张面部图像根据个体的总数对数据集标注标签并展开训练，利用损失函数计算预测值以及标签真实值之间损失的大小，然后利用随机梯度下降的方法多次迭代反向传播中的梯度信息并更新模型的权重，最终减少真实值和预测值

17、之间差异，促进神经网络模型的收敛损失函数在判断网络性能中发挥着重大的作用，人脸识别损失函数中应用最广泛的是函数，它通过两个全连接层对提取出来的特征随后经过线性变换得到类别分数，再使用函数计算每个类别之间的得分后用交叉熵计算损失损失函数的计算公式如公式（）所示小型微型计算机系统年其中，表示属于类的第个样本的深度特征，表示权重的第列，表示偏差表示批量处理的大小，表示分类的数量（）但是这种常见的训练方式没有对提取特征提供太大约束，这将会导致训练特征在分类的超平面上离散分布同时往往容易忽略类间的距离，无法获得较强的泛化能力为了解决这一问题，涌现了一批以函数

18、为基础的改进方法，其中损失函数应用较为广泛，其计算方法如公式（）所示其中，为缩放因子，为权重与特征之间的夹角，模型的预测主要依赖该夹角是附加的角边缘惩罚，可以增加类内紧凑型以及类间的差异性与其他的几种损失函数相比，显著的提高了图像识别、图像分类任务中的模型预测的准确率本文所设计的同样利用了损失函数对模型进行训练，旨在获得更佳的人脸特征提取能力（）（），（）神经网络模型的训练主要基于深度学习框架，实验环境包括（）（）以及显卡（显存为），输入图像的大小为由于轻量级模型牺牲了一定的网络深度和网络层的大小，因此为提高模型预测的准确性需要依靠规模较大的数据集以及较多的训练测试

19、本文将训练条件中设置为轮，设置为，除此以外利用多阶学习率衰减的方法设计每一轮的学习率，然后根据轮的训练结果计算训练精度，最终保存合适的模型进入测试阶段由于测试阶段需要完成模型与、种神经网络模型的对比，还需要在测试阶段根据神经网络的特点对其他种网络的部分结构进行重新调整，从而保证输入特征图像的大小以及输出特征值维度保持不变并且需要根据训练条件使其他种神经网络和的超参数设置保持一致，确保同等条件下实现模型的训练测试阶段测试阶段的主要工作是完成对生成模型的测试，并利用非训练所用的数据集测试模型的预测结果，从而判断模型的预测能力以及泛化能力在这个过程中，首先得到原型数据集（）的人

20、脸特征，之后输入一张测试图像作为探针（），通过神经网络提取该探针的人脸特征值，并且利用点乘的方法将探针人脸和原型数据集中的人脸进行对比，相似度得分最高的则判断两张人脸为同一身份在测试阶段，主要采用数据集测试模型的预测精度人脸数据集是用于人脸识别的常用测试集数据集共有个人的张人脸图片，该人脸图片均来自与生活中的自然场景除此以外，在同一条件下将训练所得到模型和先前的研究成果、，并对比这种模型预测准确性以及识别速度测试阶段分别在计算机平台下以及嵌入式设备的软核的条件下完成测试，平台为（）（），通过在无参与时仅使用来完成前向推理，而嵌入式平台主要依靠开发板搭载，该开发板如

21、图所示该芯片逻辑资源和存储资源较为丰富，具有图开发板个逻辑单元以及接近的快速随机存储器与此同时，它内部时钟速度可以超过，具备数据速率和位数据宽度的，同时还具备诸多端口和外围设备该开发板是一种高性能、即用型的开发板，且可以用于数据视频处理利用设计套件设计了并且移植了（位）操作系统作为该轻量级人脸识别算法部署的嵌入式平台，该主要基于位核的内核，由于嵌入式平台的为软核，相比硬核牺牲了一定的性能和功耗，但是其灵活性、可移植性较强，便于面向算法落地的软硬件协同设计除此以外，由于嵌入式系统基于内核，需要依靠交叉编译的工具链实现人脸识别算法的部署但是由于工具链仍

22、然在不断更新和完善的阶段，无法实现代码的交叉编译因此部署到开发板还需要利用开源库实现到代码的转换，然后将编译好的动态库以及应用程序的二进制代码移植到开发板完成代码的运行表在下不同模型实验结果的对比（）（）表展示了在下不同模型的比较结果，从实验结果可以看出，本文所提出的轻量级神经网络模型的模型大小仅为（实际大小为），远远小于其他种神经网络的模型大小作为一种轻量级的神经网络，虽然牺牲了部分测试精度，但是单张照片的识别速度达到了，识别速度分别是、和的倍、倍、倍，因此可以在计算机的平台下满足人脸识别的实时性和准确性要求期武文娟等：一种轻量级人脸识别的卷积神经

23、网络然后，在基于嵌入式平台软核的条件下进行对比实验由于在嵌入式平台下模型大小不发生变化，且测试的精度不发生改变，实验主要考虑对比在该平台下不同人脸识别神经网络单张图片的识别速度，实验结果如表所示表嵌入式平台上不同模型实验结果的对比（）由上述实验结果可以看出，当部署到基于的嵌入式平台时，其识别速度远远高于其他种神经网络模型，分别是、和的倍、倍、倍由此可见，神经网络模型对所部署平台的存储资源和计算资源的要求比较低，特别是针对嵌入式设备等资源受限平台的部署表现非常突出结论本文提出了一种轻量级人脸识别的卷积神经网络，旨在通过所设计的轻量级神经网络来解决硬件资源受限的平

24、台算法部署困难的问题，从而实现神经网络模型运行效率的提高，便于神经网络在未来能够更为广泛的部署到嵌入式、移动端以及边缘设备上除此以外，本文在计算机端以及嵌入式端两类平台完成了模型的部署，并与在深度学习领域表现优秀的研究成果进行对比，可以看出模型预测精度牺牲不大，模型复杂度可以大幅度减少，在基于的嵌入式平台表现突出除此以外，本研究仍有一些不足，由于嵌入式平台主要基于来实现，势必会受到设计的局限性的影响，由于系列芯片资源的限制，本文将内核配置为核，该软核通过时序分析报告可以看出其时钟主频能够达到，远远小于其他基于硬核的嵌入式平台所能达到的时钟主频然而内核因其开源的特性为人脸识别算法的研究和部署提供了一种新的方案，深度学习算法的软硬件协同势必会成为未来研究的重要方向：，：，（）：，：，：，（）：，（）：，（）：，（）：，（）：，（）：，：，：，：，：，：，：，：（），：，：，：，：，：，：（），：，（），：，：，：，：，：，：，：，：，：，：，：，：（），：，：小型微型计算机系统年

展开阅读全文