HSKDLR：同类自知识蒸馏的轻量化唇语识别方法.pdf

资源描述

1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(11)-2689-14doi:10.3778/j.issn.1673-9418.2208032HSKDLR：同类自知识蒸馏的轻量化唇语识别方法马金林1,2，刘宇灏1+，马自萍3，巩元文1，朱艳彬11.北方民族大学计算机科学与工程学院，银川 7500212.图像图形智能信息处理国家民委重点实验室，银川 7500213.北方民族大学数学与信息科学学院，银川 750021+通信作者 E-mail:摘要：针对唇语识别模型的识别率较低和计算

2、量较大的问题，提出一种同类自知识蒸馏的轻量化唇语识别模型（HSKDLR）。首先，提出关注唇部图像空间特征的S-SE注意力模块，用其构建提取唇部图像通道特征和空间特征的i-Ghost Bottleneck模块，以提升唇语识别模型的准确率；其次，基于i-Ghost Bottleneck构建唇语识别模型，该模型通过优化瓶颈结构的组合方式降低模型计算量；然后，为提升模型准确率，减少模型运行时间，提出同类自知识蒸馏（HSKD）的模型训练方法；最后，使用同类自知识蒸馏方法训练唇语识别模型，并检验其识别性能。实验结果表明：与其他方法相比，HSKDLR具有更高的识别准确率和更低的计算量，在LRW数据集上的准确

3、率达87.3%，浮点数运算量低至2.564 GFLOPs，参数量低至3.872 3107；同类自知识蒸馏可被应用于大多数唇语识别模型，帮助其有效提升识别准确率，减少训练时间。关键词：唇语识别；轻量化；知识蒸馏；自知识；Ghost Bottleneck文献标志码：A中图分类号：TP391HSKDLR:Lightweight Lip Reading Method Based on Homogeneous Self-Knowledge DistillationMA Jinlin1,2,LIU Yuhao1+,MA Ziping3,GONG Yuanwen1,ZHU Yanbin11.School o

4、f Computer Science and Engineering,North Minzu University,Yinchuan 750021,China2.Key Laboratory for Intelligent Processing of Computer Images and Graphics of National Ethnic Affairs Commissionof the PRC,Yinchuan 750021,China3.School of Mathematics and Information Science,North Minzu University,Yinch

5、uan 750021,ChinaAbstract:In order to solve the problems of low recognition rate and large amount of calculation in lip reading,thispaper proposes a lightweight model for lip reading named HSKDLR（homogeneous self-knowledge distillation forlip reading）.Firstly,the S-SE（spatial SE）attention module is d

6、esigned to pay attention to the spatial features of thelip image,which can construct the i-Ghost Bottleneck（improved Ghost Bottleneck）module to extract the channelfeatures and spatial features of the lip image,thereby improving the accuracy of the lip language recognition model.Secondly,a lip readin

7、g model is built based on i-Ghost Bottleneck,which reduces the model computation by基金项目：宁夏自然科学基金（2022AAC03268，2020AAC3215）；北方民族大学中央高校基本科研业务费专项（2021KJCX09，FWNX21）；北方民族大学“计算机视觉与虚拟现实”创新团队项目。This work was supported by the Natural Science Foundation of Ningxia（2022AAC03268,2020AAC3215),the Basic Scientif

8、ic Re-search Program in Central Universities of North Minzu University（2021KJCX09,FWNX21),and the Project of“Computer Visionand Virtual Reality”Innovation Team of North Minzu University.收稿日期：2022-08-05修回日期：2022-09-26Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)唇语识别（lip r

9、eading，LR），是一种在没有声音时通过分析唇部图像序列，依靠口型特征向量和特定语音之间的对应关系，判断语言内容的技术1，是人工智能的新方向。唇语识别涉及模式识别2-3、计算机视觉4、图像处理和自然语言处理等技术，多应用于信息安全5-6、语音识别7-8、驾驶辅助9等领域。早期的唇语识别大多基于隐马尔可夫模型（hidden Markov model，HMM）10、离散余弦变换（discretecosine transform，DCT）11等传统特征提取方法提取唇部图像的浅层特征（纹理特征、形状特征、颜色特征、拓扑特征），这些方法能够解决一定数据规模下识别精度不高的问题，但需要具备丰富唇读知识

10、的研究者设计特征提取方法。此外，传统方法还存在泛化性不高的缺点12。随着深度学习技术的快速发展，涌现了多种唇语识别方法和唇语识别数据集13。Stafylakis等人14使用深度残差网络（residual neural network，ResNet）15作为前端网络设计唇语识别模型，取得了很好的识别效果。LipNet16使用 3D-CNN 提取由双向门控循环单元（bidirectional gate recurrent unit，BiGRU）分类的时空特征，在文献17的工作中，两个 3D-ResNets以双流的方式（一个用于图像流，另一个用于光流）用更大的网络为代价学习更强大的时空特征。Zhan

11、g等人18将口腔区域以外的面部区域结合起来解决孤立单词的识别问题，并添加互信息约束19，以产生更多的鉴别信息。Martinez 等人20使用一个多尺度的时间卷积网络（temporal convolutional network，TCN）取代循环神经网络（recurrent neural network，RNN）的后端，在 LRW 数据集上获得 85.3%的识别准确率。为了提高唇语识别的准确率，深度学习方法不断加深网络，然而随着网络模型的复杂度增加，其参数量和计算量快速增加，导致识别模型对设备性能的要求与日俱增。现有的唇语识别模型无法解决提高模型准确率与降低模型计算量之间的矛盾，限制了唇语识别模

12、型在移动终端和边缘设备上的应用。知识蒸馏（knowledge distillation，KD）用复杂的教师网络训练简单的学生网络使学生网络获得接近教师网络的性能，并用训练后的学生网络作为最终模型，实现模型轻量化的同时获得一定的网络性能，多被应用于分类21、分割22、检测23等机器学习任务。为解决上述问题，基于知识蒸馏的思想，本文提出一种同类自知识蒸馏的轻量化唇语识别模型（homogeneous self-knowledge distillation lip reading，HSKDLR），在提高识别准确率的同时，降低模型的参数量和计算量。本文主要有以下贡献：（1）提出S-SE注意力模块。在SE

13、模块的基础上添加关注空间特征的注意力模块，同时提取唇部图像的空间特征和通道特征。（2）提出i-Ghost Bottleneck。通过优化瓶颈结构的组合方式提高模型的识别准确率，降低模型计算量。（3）提出同类自知识蒸馏的模型训练方法（hom-ogeneous self-knowledge distillation，HSKD）。利用同类别不同样本的软标签实现无需教师网络的自知识蒸馏。（4）基于 i-Ghost Bottleneck 和 HSKD，提出一种轻量化唇语识别模型HSKDLR。使用HSKD训练基于 i-Ghost Bottleneck（improved Ghost Bottleneck）设

14、计的唇语识别模型，提高识别准确率，降低训练时间。1相关工作1.1注意力机制注意力机制在图像分类和分割等多种计算机视觉任务中发挥了重要作用24，然而注意力机制大多存在增加模型计算量的问题。常见的注意力机制多在optimizing the combination of bottleneck structures to a certain extent.Then,in order to improve the accuracy of themodel and reduce time consumption,a model optimization method of the homogeneous

15、self-knowledge distillation（HSKD）is proposed.Finally,this paper employs the HSKD to train the lip reading model and verify its recognitionperformance.And the experimental results show that HSKDLR has higher recognition accuracy and lowercomputational complexity than the compared methods.The accuracy

16、 of the proposed method on LRW dataset is87.3%,the floating-point number computation is as low as 2.564 GFLOPs,and the parameter quantity is as low as3.8723107.Moreover,HSKD can be applied to most lip reading models to improve recognition accuracy effectivelyand reduce training time.Key words:lip re

17、ading;lightweight;knowledge distillation;self-knowledge;Ghost Bottleneck2690马金林等：HSKDLR：同类自知识蒸馏的轻量化唇语识别方法空间或通道上关注图像特征。SENet（squeeze andexcitation networks）25简单地压缩2D特征图，有效构建通道间的相互依赖关系；CBAM（convolutionalblock attention module）26通过引入空间信息编码，进一步提高模型性能；后续的工作多采用不同的空间注意机制或设计高级注意力模块的方法实现，如GENet（ga

18、ther and excite network）27、GALA（globaland local attention）28、AA（attention augmented）29和TA（triplet attention）30等模型。SE（squeeze and excitation）模块25是一种常用的轻量级注意力模块，能够方便地添加到卷积结构中端到端地学习通道间的权重关系。SE 模块由挤压（squeeze）、激励（excitation）两部分组成，SE模块使用两个全连接层实现通道间的信息交流，通过获取通道间的信息权重提高模型的鲁棒性。SE模块的网络结构如图1所示。1.2Ghost模块Ghost模

19、块31使用一系列线性操作生成多个特征图，在不改变输出特征图尺寸的情况下，降低参数量和计算复杂度。图2显示了Ghost模块的原理。利用Ghost模块的优势，Han等人31提出Ghost瓶颈模块（Ghost bottlenecks）。借鉴 ResNet15整合卷积层和捷径层的思路，Ghost瓶颈模块使用两个堆叠的Ghost模块调整特征通道的维度：第一个 Ghost模块增加通道数，第二个 Ghost模块减少通道数。如图 3所示，Ghost 模块有两种结构，当stride=2时，两个Ghost模块之间加入步长为2的深度可分离卷积。在很多分类任务中，Ghost瓶颈模块有效降低了模型的参数量，提高了模型的

20、精度。但是由于Ghost瓶颈模块的 SE注意力模块缺少捕获空间特征的能力，导致唇语识别的准确率不佳。1.3知识蒸馏知识蒸馏（knowledge distillation，KD）21是 Hinton等人提出的一种轻量化神经网络，与模型剪枝、量化等轻量化方法通过改变模型的网络结构来实现轻量化的方式不同，知识蒸馏利用大型网络（即教师网络）训练小型网络（即学生网络），使小型网络获得接近大型网络的性能。知识蒸馏更适用于结构整齐的小型网络，它通常会提高目标模型（学生网络）的性能。知识蒸馏的结构如图4所示。自知识蒸馏（self-knowledge distillation，Self-KD）的教师网络和学生网

21、络为同样的网络模型，避免了设计结构复杂的教师网络。一些自知识蒸馏的理论分析32和实验证明33，自知识蒸馏在计算机视觉任务中是非常有效的。图1SE模块的网络结构Fig.1Architecture of SE module图2Ghost模块原理Fig.2Illustration of Ghost module图3Ghost瓶颈层结构Fig.3Illustration of Ghost bottleneck2691Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)2同类自知识蒸馏的轻量化唇语识别模型本文

22、基于同类自知识蒸馏（HSKD）方法和Ghost瓶颈模块，提出一种轻量化唇语识别模型HSKDLR，实现端到端的唇语识别，其网络结构如图5所示。2.1HSKDLR的网络结构如图 5 所示，HSKDLR 由前端网络和后端网络组成。前端网络包括1个卷积核大小为577的3D卷积和 16 个 i-Ghost Bottlenecks。具体地：首先，将 3D卷积作用于输入图像序列X，进行时空对齐，并用空间最大池化（max pooling）压缩空间特征；然后，使用16个i-Ghost Bottlenecks提取唇部的通道特征和空间特征，并进行全局平均池化（average pooling）；最后，使用2D卷积将输

23、出特征的维度对齐至512。后端网络由 3 个 BiGRU 网络和线性层组成，以捕获序列的潜在关系并进行分类。如图5右下所示，BiGRU包含两个独立的单向 GRU（前向隐藏层和后向隐藏层），输入序列以正常顺序传入前向 GRU，并图4知识蒸馏的结构Fig.4Architecture of knowledge distillation图5唇语识别模型的网络结构Fig.5Architecture of lip reading model2692马金林等：HSKDLR：同类自知识蒸馏的轻量化唇语识别方法以相反顺序传入后向GRU，两个GRU的输出将在每个时间步连接在一起。HSKDLR模型的特点为：首先，

24、使用S-SE注意力机制提高模型精度；其次，使用i-Ghost Bottlenecks提升模型准确率，并通过优化瓶颈结构的组合方式降低模型参数量；最后，使用同类自知识蒸馏方法提高模型的识别精度。2.2S-SE注意力机制使用SE模块的唇语识别模型虽然可以小幅提升识别精度，但会增加模型计算量。研究表明34，使用全连接层降维的方式破坏了通道与其权重的直接对应关系，丢失通道间的权重信息。为避免该问题，本文采用一维卷积代替两个全连接层，建模通道关系，如图 6所示。同时，由于 SE模块没有空间注意力机制，无法有效提取空间信息。本文参考CBAM26注意力结构，引入空间注意力机制，设计S-SE（spatial

25、SE）注意力模块提取唇部图像的空间特征和通道特征。S-SE模块主要由通道注意力模块和空间注意力模块组成。通道注意力模块的结构如图7所示。首先，将输入特征图F(C H W)分别经过全局最大池化（global max pooling，GMP）和全局平均池化（globalaverage pooling，GAP），得到两个C 11的特征图；其次，将这两个特征图分别送入15的一维卷积，将卷积后的输出特征相加；然后，经过sigmoid激活函数生成通道注意力特征；最后，将通道注意力特征和输入特征图F相乘，生成空间注意力模块的输入特征。同时使用 GAP 和 GMP 的原因是池化操作丢失

26、的信息太多，GAP和GMP的并行连接方式比单一池化丢失的信息更少，效果更好。空间注意力模块的结构如图8所示，通道注意力模块的输出作为空间注意力模块的输入特征图。首先，基于 Channel 的 GMP 和 GAP 得到两个1H W的特征图；其次，将这两个特征图基于 Channel 做Concat操作（通道拼接），并利用77的卷积操作降为1个Channel，即1H W；然后，经过sigmoid生成空间注意力特征；最后，将空间注意力特征和通道注意力特征相乘，得到最终特征。2.3i-Ghost Bottlenecks在深度神经网络中，丰富甚至是冗余的信息常常保证了对输入数据的全面理解。在许多分类任务中

27、，多数网络模型选择过滤掉这些冗余信息来提高模型的识别精度。研究表明31，冗余特征图可能是一个深度神经网络成功的一个重要特征。本文基于这一观点，使用Ghost模块利用冗余信息。针对 1.2 节所述问题，本文使用 S-SE 模块代替SE 模块，提出一种 i-Ghost Bottlenecks 模块，同时提取通道特征和空间特征，提高唇语识别模型的准确率和鲁棒性，i-Ghost Bottlenecks的结构如图9所示。2.4同类自知识蒸馏Yuan 等人35的研究指出：知识蒸馏可以看作一图6S-SE注意力机制Fig.6Illustration of S-SE图7通道注意力模块的结构Fig.7Archit

28、ecture of channel attention model图8空间注意力模块的结构Fig.8Architecture of spatial attention model2693Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)种特殊的标签平滑正则化（label smoothing regula-rization，LSR）36，两者具有相似的功能。随着温度的升高，知识蒸馏中教师软目标的概率分布更接近于标签平滑的均匀分布，但使用知识蒸馏时必须预先训练一个教师模型，这增加了模型的训练成本。利用

29、自知识蒸馏思想，本文设计了同类自知识蒸馏（HSKD），该方法具有标签平滑特性，无需提前训练教师模型。同类自知识蒸馏匹配并蒸馏唇语数据集中同一词语标签的不同样本之间的预测，对于同一词语标签的不同样本，同类自知识蒸馏会迫使神经网络产生类似的预测，而传统的交叉熵损失则不考虑预测分布的一致性。此外，与现有的大多数知识蒸馏模型相比，该方法无需预先训练教师网络，不增加额外计算量，具有防止模型产生过度自信（over-confident）预测的特点，表1比较了同类自知识蒸馏与其他知识蒸馏。图 10为同类自知识蒸馏过程示意图，它由软标签生成（第一步）和模型训练（第二步）两个过程组成，使用软标签生成的类别预测结果

30、辅助模型训练。软标签生成和模型训练的输入为同一标签的不同样本，f为同类自知识蒸馏的分项损失函数（如式（2）所示）。给定输入x X，y Y的真值标签（ground-truthlabel），其预测分布为：P(y|x;,T)=exp(fy(x;)/T)i=1Rexp(fi(x;)/T)（1）图9i-Ghost Bottleneck的结构Fig.9Illustration of i-Ghost Bottleneck表1同类自知识蒸馏与其他知识蒸馏方法的比较Table 1Comparison of HSKD with other knowledge distillation methods蒸馏方法普通知

31、识蒸馏自知识蒸馏同类自知识蒸馏有无教师网络有有无教师网络与学生网络的关系两个不同的独立网络两个相同的独立网络仅有一个网络是否需要提前训练教师网络是是否暗知识来源教师网络教师网络同标签下的不同样本图10同类自知识蒸馏过程示意图Fig.10Illustration of homogeneous self-knowledge distillation2694马金林等：HSKDLR：同类自知识蒸馏的轻量化唇语识别方法式中，fi是神经网络的logit（逻辑回归），神经网络的对数由参数化，T为蒸馏温度（T0）。同类自知识蒸馏匹配同类不同样本的预测分布，利用模型自身提取暗知识。本文使用正则化损失，对同类样

32、本执行一致的预测分布，形式上将具有相同类别标签y的两个不同样本x和x作为模型的输入图像，损失函数定义如下：(x,x;,T):=KL(P(y|x;,T)|P(y|x;,T)（2）其中，KL表示KL散度（Kullback-Leibler），不同于经典知识蒸馏方法（KD21）匹配来自两个网络对单个样本的预测，损失函数匹配同一个网络对不同样本的预测，即实现一种自知识蒸馏。同类自知识蒸馏的损失函数定义如下：S(x,x,y;,T):=CE(x,y;)+T2(x,x;,T)（3）其中，CE是标准交叉熵（cross entropy，CE）损失，是同类自知识蒸馏损失函数的权重。借鉴原始 KD方法21，本文将温度

33、T的平方乘以损失函数。为了避免过度自信的预测，同类自知识蒸馏使用其他样本的预测结果作为软标签。经过在唇语识别模型上的反复实验，同类自知识蒸馏不仅减少了识别模型的过度自信预测，而且还增强了与真值相关类的预测值，使唇语识别模型的精度得以提升。3实验3.1数据集本实验采用LRW数据集37，LRW由BBC的新闻和脱口秀节目的视频片段（1.16 s）组成，这些片段包含了超过 1 000 个扬声器、头部姿态和照明变化。LRW 数据集拥有 500个单词，每个目标单词有 1 000个片段的训练集，50个片段的验证集和评估集，总持续时间173 h。3.2数据预处理本文使用dlib检测并跟踪LRW视频的68个面部

34、关键点38，首先将唇部裁剪成尺寸为 9696的图像，其次将其随机裁剪为8888的尺寸，然后将灰度化后的图像按0.5的概率水平翻转，最后将归一化后的图像输入HSKDLR。为了减少过拟合（overfitting），本文使用mixup39进行数据增强。在此过程中，选择A：(xA,yA)和B：(xB,yB)两个样本通过加权线性插值生成新样本C：(x,y)，即x=xA+()1-xB（4）y=yA+()1-yB（5）其中，xi表示训练样本，yi表示训练样本iA,B的分类标签，是服从参数均为的 Beta分布的随机抽样值Beta(，)。表2为对模型性能的影响，根据实验结果，本文将的值设定为0.2。3.3实验环

35、境模型的搭建、训练和测试均基于 Pytorch，使用Tesla V100显卡。唇语识别模型总训练批次为96，采用余弦学习率，其计算公式为：t=121+costT（6）式中，t为批次数，T为总批次。初始学习率的值为 0.000 3，batchsize 为 32，权重衰减率为 0.000 1，使用Adam优化策略。4实验结果和分析4.1瓶颈模块的堆叠方式与数量i-Ghost Bottlenecks的堆叠方式和数量直接影响模型的识别性能，为了探究这一问题，实验考察瓶颈模块的堆叠方式和数量对识别性能的影响，实验结果如表3所示。如表 3所示，堆叠方式用(x,y)z的形式表示，x表示图9中stride=2

36、时的瓶颈结构的数量，y表示图9中stride=1时的瓶颈结构的数量，z表示以该结构表2对模型性能的影响Table 2Influence ofon model performance0.10.20.40.60.8准确率/%83.484.183.883.682.3表3瓶颈模块的堆叠方式和数量对识别性能的影响Table 3Influence of stacking mode and the number ofbottleneck modules on recognition performance堆叠方式（1,1）6（1,1）8（1,1）10（1,3）3（1,3）4（1,3）5准确率/%79.282

37、.682.283.084.184.02695Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)进行堆叠的个数。由实验结果可以看出：（1,3）的堆叠方式要明显优于（1,1）的堆叠方式；骨干网络的总层数不易过少，虽然（1,3）3与（1,1）6的总层数少于（1,3）4，计算量和参数量降低了，但也大幅降低了模型的识别精度；（1,3）5与（1,3）4达到的准确率几乎一致，本文最终采用堆叠次数更少的（1,3）4方式，在减少骨干网络的复杂度的同时并未降低模型的识别准确率。4.2不同前端的性能对比在将网络的第一个

38、卷积保持为 3D 卷积的情况下，本实验考察不同前端网络下的模型识别性能，这些前端网络分别为MobileNet V240、ShuffleNet V241、Ghost Bottleneck、SE-ResNet18和 i-Ghost Bottleneck，模型的后端网络统一使用 BGRU（bidirectional gatedrecurrent unit）。模型构成和实验结果如表4所示。由表 4可得，i-Ghost Bottleneck构成的模型具有比 MobileNet V2和 ShuffleNet V2构成的模型更高的性能。与 SE-ResNet18 构成的模型相比，i-Ghost

39、Bottleneck的识别精度下降了0.8个百分点，但参数量降低了1 3，浮点数计算量降低了3 4。与 Ghost瓶颈模块构成的模型相比，i-Ghost Bottleneck构成的模型在降低浮点数计算量和参数量的情况下，提升了识别准确率。图11显示了不同的识别模型的识别准确率曲线，由图可见，本文方法的收敛速度和识别准确率明显高于其他方法。综合以上结果，本文提出的i-Ghost Bottleneck作为骨干网络构成的唇语识别模型取得了较好的识别性能。4.3不同后端的性能对比本实验所有模型的前端网络为3D-Conv+i-GhostBottleneck，后端网络分别使用 BLSTM（bidirect

40、ionallong short-term memory）、TCN（temporal convolutionalnetwork）、MS-TCN（multi-stage temporal convolutionalnetwork）和BGRU（bidirectional gated recurrent unit），实验结果如表5所示。由表5可以看出，后端网络使用BLSTM和TCN构成模型的识别效果并不理想；后端网络使用MS-TCN时的参数量与浮点数计算量最图11不同前端构成模型的识别准确率曲线Fig.11Recognition accuracy curves of differentfront-en

41、d models表4不同前端构成的唇语识别模型的性能对比Table 4Performance comparison of lip reading models composed of different frontends唇语识别模型的网络组成前端3D-Conv+MobileNet V23D-Conv+ShuffleNet V23D-Conv+Ghost Bottleneck3D-Conv+SE-ResNet183D-Conv+i-Ghost Bottleneck后端BGRU准确率/%79.781.183.784.984.1参数量/10650.26050.01940.01959.52038.7

42、23浮点数计算量/GFLOPs2.9682.8472.60710.5982.564表5不同后端构成的唇语识别模型的性能对比Table 5Performance comparison of lip reading models composed of different backends唇语识别模型的网络组成前端3D-Conv+i-Ghost Bottleneck后端BLSTMTCNMS-TCNBGRU准确率/%77.482.681.284.1参数量/10643.59642.89136.64738.732浮点数计算量/GFLOPs7.7465.5012.2392.5642696马金林等：HSK

43、DLR：同类自知识蒸馏的轻量化唇语识别方法低，但是模型精度下降了 2.9 个百分点。综合准确率、参数量和浮点数计算量，本文采用BGRU作为后端网络。4.4不同知识蒸馏方法下的模型准确率对比为了弥补轻量化唇语识别网络的精度损失，本文采用自知识蒸馏的方法提高模型的识别精度，为考察不同知识蒸馏方法的性能表现，本实验对比普通蒸馏、自知识蒸馏、同类自知识蒸馏方法的识别性能（基于 2.4 节所述，此处也对比标签平滑正则化方法）。普通知识蒸馏方法的教师网络为3D-Conv+SE-ResNet18+BGRU，学生网络为 3D-Conv+i-GhostBottleneck；自知识蒸馏方法的教师网络与学生

44、网络均为 3D-Conv+i-Ghost Bottleneck；同类自知识蒸馏方法的模型（无教师网络）为 3D-Conv+i-GhostBottleneck；标签平滑是一种代替蒸馏的正则化方法。实验结果如表6所示。由表6可见，各种知识蒸馏方法均比标签平滑方法得到的识别效果好，推测原因可能是标签平滑在训练时，使用的“人造”软标签通过人为设定固定参数实现，这使模型的泛化能力有限。普通蒸馏的教师网络的精度要高于自知识蒸馏的教师网络（如表4所示），但表 6中的自知识蒸馏方法的唇语识别效果更好，这说明使用结构复杂的高精度教师网络训练的模型不一定取得更好的识别效果。同类自知识蒸馏可以获得高

45、于标签平滑和其他蒸馏方法的识别准确率，图 12显示了不同知识蒸馏方法的识别准确率曲线。由图12和表6可见，同类自知识蒸馏方法的识别准确率明显高于其他知识蒸馏方法和正则化方法。如图 12所示，同样采用软标签的自知识蒸馏方法明显优于采用“人造”软标签的标签平滑方法。可见，同类自知识蒸馏的软标签更有效。4.5同类自知识蒸馏应用于不同识别模型的性能对比本实验考察同类自知识蒸馏方法在唇语识别任务中的可行性与在唇语识别模型上的通用性，对比四种经典模型14,18,20,42应用同类自知识蒸馏方法后的识别效果。表 7为同类自知识蒸馏应用于其他唇语识别模型的性能对比表，图 13显示了四个模型分别使用自知识蒸馏、

46、同类自知识蒸馏后的识别准确率曲线。由表7可以看出，应用同类自知识蒸馏方法的模型识别率普遍得到提高，这证明同类自知识蒸馏可广泛应用于现有唇语识别模型，并可提高其识别率。实验也表明：应用了同类自知识蒸馏方法后的识别模型的准确率不与原识别模型的准确率成比例地提高，如表 7 中，3D-Conv+ResNet18+BLSTM 和表6不同知识蒸馏方法的模型性能Table 6Performance of different knowledgedistillation methods知识蒸馏或正则化方法标签平滑普通蒸馏自知识蒸馏同类知识蒸馏准确率/%84.785.686.887.3图12不同知识蒸馏方法的识别

47、准确率曲线Fig.12Recognition accuracy curves of differentknowledge distillation methods表7同类自知识蒸馏应用于其他模型的性能对比Table 7Performance comparison of HSKD applied toother models唇语识别模型Stafylakis14Stafylakis14+自知识蒸馏Stafylakis14+同类自知识蒸馏Stafylakis42Stafylakis42+自知识蒸馏Stafylakis42+同类自知识蒸馏Zhang18Zhang18+自知识蒸馏Zhang18+同类自知

48、识蒸馏Martinez20Martinez20+自知识蒸馏Martinez20+同类自知识蒸馏准确率/%80.481.783.682.384.185.282.783.784.884.786.886.5唇语识别模型的网络组成前端3D-Conv+ResNet343D-Conv+ResNet183D-Conv+ResNet183D-Conv+ResNet18后端BLSTMBLSTMBGRUMS-TCN2697Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)3D-Conv+ResNet18+BGRU的准

49、确率分别为82.3%和82.7%，但应用同类自知识蒸馏方法后，它们的准确率为85.2%和84.8%，应用前后的识别准确率变化较大。值得注意的是，应用同类自知识蒸馏方法的Martinez20模型所提升的精度与自知识蒸馏相当，但从图13（d）可以看出，使用了同类自知识蒸馏的模型在大多数时候的准确率均高于使用自知识蒸馏的模型。由图 13可知，同类自知识蒸馏方法在不同模型上都能取得较高准确率；相对于普通蒸馏和自知识蒸馏方法，同类自知识蒸馏方法的收敛速度较快，并且较早出现准确率下降趋势。4.6与SOTA模型的性能对比本实验比较同类自知识蒸馏模型HSKDLR和其他主流唇语识别模型的性能，实验结果如表 8所

50、示。由表8可见，并不是结构复杂的唇语识别模型能获得更好的识别性能，如Stafylakis42和Petridis43在后端均为BLSTM的情况下，前端网络为3D-Conv+ResNet18的性能优于3D-Conv+ResNet34。同时，对于Zhang18和 Zhao19，在前端网络相同的情况下，后端网络为BGRU的模型性能要优于后端为BLSTM的模型。HSKDLR的识别精度达到87.3%，超过所有非轻量结构的识别模型，并且模型的参数量和浮点数计算量远小于对比方法。HSKDLR的识别准确率比最高的 Kim44方法还高 1.9个百分点；准确率比次高的Martinez20方法高 2个百分点，参数量和

展开阅读全文