收藏 分销(赏)

基于双源自适应知识蒸馏的轻量化图像分类方法.pdf

上传人:自信****多点 文档编号:639178 上传时间:2024-01-22 格式:PDF 页数:10 大小:2.37MB
下载 相关 举报
基于双源自适应知识蒸馏的轻量化图像分类方法.pdf_第1页
第1页 / 共10页
基于双源自适应知识蒸馏的轻量化图像分类方法.pdf_第2页
第2页 / 共10页
亲,该文档总共10页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、西 安 工 程 大 学 学 报J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y 第3 7卷第4期(总1 8 2期)2 0 2 3年8月V o l.3 7,N o.4(S u m.N o.1 8 2)引文格式:张凯兵,马东佟,孟雅蕾.基于双源自适应知识蒸馏的轻量化图像分类方法J.西安工程大学学报,2 0 2 3,3 7(4):8 2-9 1.Z HAN G K a i b i n g,MA D o n g t o n g,ME NG Y a l e i.A l i g h t w e i g h t i m a

2、g e c l a s s i f i c a t i o n m e t h o d b a s e d o n d u a l-s o u r c e a d a p t i v e k n o w l e d g e d i s t i l l a t i o nJ.J o u r n a l o f X ia n P o l y t e c h n i c U n i v e r s i t y,2 0 2 3,3 7(4):8 2-9 1.收稿日期:2 0 2 3-0 3-1 7 修回日期:2 0 2 3-0 5-0 2 基金项目:国家自然科学基金面上项目(6 1 9 7 1 3 3

3、 9,6 1 4 7 1 1 6 1);陕西省自然科学基础研究计划重点项目(2 0 1 8 J Z 6 0 0 2);陕西省重点研发计划项目(2 0 2 1 G Y-3 1 1)通信作者:张凯兵(1 9 7 5),男,教授,研究方向为机器学习、图像超分辨重建等。E-m a i l:z h a n g k a i b i n g x p u.e d u.c n基于双源自适应知识蒸馏的轻量化图像分类方法张凯兵1,2,马东佟1,孟雅蕾2(1.西安工程大学 电子信息学院,陕西 西安 7 1 0 0 4 8;2.西安工程大学 计算机科学学院,陕西 西安 7 1 0 0 4 8)摘要 在知识蒸馏任务中,针

4、对特征对齐过程中存在的特征信息丢失以及软标签蒸馏方法没有考虑不同样本差异性的问题,文中提出了一种双源自适应知识蒸馏(d u a l-s o u r c e a d a p t i v e k n o w l e d g e d i s t i l l a t i o n,D S AK D)方法,从教师网络的特征层和软标签中获取更有判别性的知识,进一步提高轻量化学生网络的性能。一方面,提出了一种基于注意力机制的多层特征自适应融合模块,对教师网络和学生网络的中间层特征进行自适应融合,通过特征嵌入对比蒸馏策略优化学生网络的特征提取能力。另一方面,提出了一种自适应温度蒸馏策略,根据教师网络对每个样本的

5、预测置信度为所有训练样本自适应分配不同的温度系数,从而为学生网络提供更有判别性的软标签。实验结果表明,提出的D S AK D方法在3个基准数据集上都取得了最优的蒸馏效果,显著地提高了轻量化学生网络的分类性能。具体而言,与对比方法中性能最优的方法相比,提出的D S AK D方法在C I-F A R 1 0、C I F A R 1 0 0和I m a g e N e t数据集上的平均T o p-1验证准确率分别提高了0.4 6%、0.4 1%和0.5 9%。关键词 知识蒸馏;自适应特征融合;特征嵌入对比蒸馏;自适应温度蒸馏开放科学(资源服务)标识码(O S I D)中图分类号:T P 3 9 1.

6、4 文献标志码:AD O I:1 0.1 3 3 3 8/j.i s s n.1 6 7 4-6 4 9 x.2 0 2 3.0 4.0 1 1A l i g h t w e i g h t i m a g e c l a s s i f i c a t i o n m e t h o d b a s e d o n d u a l-s o u r c e a d a p t i v e k n o w l e d g e d i s t i l l a t i o nZHANG K a i b i n g1,2,MA D o n g t o n g1,MENG Y a l e i2(1.S

7、c h o o l o f E l e c t r o n i c s a n d I n f o r m a t i o n,X ia n P o l y t e c h n i c U n i v e r s i t y,X ia n 7 1 0 0 4 8,C h i n a;2.S c h o o l o f C o m p u t e r S c i e n c e,X ia n P o l y t e c h n i c U n i v e r s i t y,X ia n 7 1 0 0 4 8,C h i n a)A b s t r a c t I n t h e t a s

8、k o f k n o w l e d g e d i s t i l l a t i o n,a d u a l-s o u r c e a d a p t i v e k n o w l e d g e d i s t i l l a t i o n(D S AK D)m e t h o d i s p r o p o s e d t o a d d r e s s t h e i s s u e s o f f e a t u r e i n f o r m a t i o n l o s s d u r i n g t h e f e a t u r e a l i g n m e n

9、 t p r o c e s s a n d t h e l a c k o f c o n s i d e r a t i o n f o r t h e d i f f e r e n c e s i n s a m p l e s i n t h e s o f t l a b e l d i s-t i l l a t i o n m e t h o d.T h e D S AK D m e t h o d e x t r a c t s m o r e d i s c r i m i n a t i v e k n o w l e d g e f r o m b o t h t h

10、e f e a-t u r e l a y e r a n d s o f t l a b e l s o f t h e t e a c h e r n e t w o r k,w h i c h e n h a n c e s t h e p e r f o r m a n c e o f t h e l i g h t-w e i g h t s t u d e n t n e t w o r k.A n a t t e n t i o n-b a s e d f e a t u r e a d a p t i v e f u s i o n m o d u l e w a s p r

11、o p o s e d t o i n-t e g r a t e t h e i n t e r m e d i a t e l a y e r f e a t u r e s o f t h e t e a c h e r n e t w o r k a n d t h e s t u d e n t n e t w o r k,a n d t h e n t h e f e a t u r e e m b e d d i n g c o n t r a s t i v e d i s t i l l a t i o n s t r a t e g y w a s u s e d t o

12、o p t i m i z e t h e f e a t u r e s o f t h e s t u d e n t n e t w o r k.A n a d a p t i v e t e m p e r a t u r e d i s t i l l a t i o n s t r a t e g y w a s a l s o p r o p o s e d,w h i c h a s-s i g n e d d i f f e r e n t t e m p e r a t u r e c o e f f i c i e n t s t o a l l t r a i n i

13、n g s a m p l e s a d a p t i v e l y b a s e d o n t h e p r e d i c t i o n c o n f i d e n c e o f t h e t e a c h e r n e t w o r k.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t o u r p r o p o s e d m e t h o d a-c h i e v e s t h e o p t i m a l d i s t i l l a t i o n e f f e c

14、t o n t h r e e b e n c h m a r k d a t a s e t s,s i g n i f i c a n t l y i m p r o v i n g t h e c l a s s i f i c a t i o n p e r f o r m a n c e o f l i g h t w e i g h t s t u d e n t n e t w o r k s.S p e c i f i c a l l y,c o m p a r e d w i t h t h e b e s t-p e r f o r m i n g m e t h o d,

15、t h e p r o p o s e d m e t h o d i m p r o v e s t h e a v e r a g e t o p-1 v a l i d a t i o n a c c u r a c y o n C I-F A R 1 0,C I F A R 1 0 0,a n d I m a g e N e t d a t a s e t s b y 0.4 6%,0.4 1%,a n d 0.5 9%,r e s p e c t i v e l y.K e y w o r d s k n o w l e d g e d i s t i l l a t i o n;a

16、 d a p t i v e f e a t u r e f u s i o n;f e a t u r e e m b e d d i n g c o n t r a s t i v e d i s t i l-l a t i o n;a d a p t i v e t e m p e r a t u r e k n o w l e d g e d i s t i l l a t i o n0 引 言 近年来,随着深度学习技术的迅速发展,计算机视觉领域逐渐得到广泛应用,同时在图像分类1和识别技术方面取得了显著进展。然而,大多数有关图像分类的研究都是基于大型深度神经网络或其集合上的,模型有数百

17、万个参数。随着模型参数量的增加,训练过程也需要耗费大量的计算资源,导致训练好的模型难以直接部署到开发板、移动终端以及可穿戴的嵌入式设备上,从而影响深度学习模型的实际应用。知识蒸馏2作为一种有效的模型轻量化方法,已经被广泛研究并取得了显著的成果,其成果已应用于各种计算机视觉任务3-4。知识蒸馏指的是将复杂的教师网络的知识传递给一个轻量化的学生网络,从而提高学生网络的泛化能力和性能。根据从教师网络中所获取知识的类型,现有的知识蒸馏方法可以分为以下3类:基于软标签知识的蒸馏方法、基于特征层知识的蒸馏方法和基于结构化知识的蒸馏方法。基于软标签知识的蒸馏方法简单易懂,主要依赖于教师网络最后一层的输出,通

18、过促使学生网络学习教师网络的最终预测,从而达到与教师网络相近或更优的性能。文献5 最早提出通过一个温度系数对教师网络的输出概率分数进行软化,然后作为软目标来指导学生网络。文献6 提出了一种教师助教蒸馏方法,首先将助教网络作为学生从教师网络学习软标签知识,然后再指导学生网络的训练。基于特征层知识的蒸馏方法通过对齐教师网络和学生网络中间层的特征,从而使学生网络学习到教师网络特征层的高级语义信息。文献7 提出通过对齐教师网络和学生网络中间层的注意力特征图来实现知识的迁移;文献8提出最小化教师网络和学生网络之间的激活边界差异,从而将知识传递给学生网络;文献9 分别对教师网络和学生网 络的特征进 行 了

19、 空 间 池 化 金 字塔1 0处理,然后使用L 2距离来度量两者之间的距离。基于软标签知识和特征层知识的蒸馏方法都使用教师网络中特定层的输出,而基于结构化知识的蒸馏方法进一步探索不同输入样本之间的关系或者不同层之间的关系等结构化知识。文献1 1 提出通过模仿教师网络生成的解决方案流程矩阵来实施对学生网络训练的指导;文献1 2 提出将不同样本之间的角度关系和距离关系作为知识,使学生网络学习到教师网络对不同类别样本丰富的结构化知识。尽管现有的大多数知识蒸馏方法取得了一定的研究进展,但仍然存在一些明显的局限性。一方面,大多数基于特征层知识的蒸馏方法通过最小化教师特征和学生特征之间的距离来传递知识,

20、需要先将教师网络和学生网络的特征变换到同一维度,再进38第4期 张凯兵,等:基于双源自适应知识蒸馏的轻量化图像分类方法行特征对齐。然而,在特征变换的过程不可避免地会导致信息丢失,同时也增加了计算复杂度。另一方面,基于软标签知识的蒸馏方法通过使用一个带有温度系数的s o f t m a x层来软化输出概率分数,然后将其作为训练学生网络的软目标。然而,对所有训练样本使用恒定的温度系数忽略了不同数据样本之间的差异,会限制学生网络对教师网络软标签中有价值信息的学习。针 对 以 上 问 题,本 文 提 出 了 一 种 新 颖 的D S AK D方法,从教师网络的特征层和软标签中获取双源类型的知识,从而进

21、一步提高轻量化学生网络的性能。首先,对于教师网络特征层的知识,提出了一个特征自适应融合模块分别将教师网络和学生网络中间层不同尺度的特征融合在一起。然后,为了更好地迁移教师网络的特征层知识,本文提出了一种特征嵌入对比蒸馏策略,将融合后的教师特征和学生特征投影到统一的嵌入子空间1 3中进行知识迁移。最后,对原有的软标签蒸馏方法进行改进,提出了一种自适应温度蒸馏策略,根据教师网络对每个样本的预测置信度为所有样本自适应分配不同的温度系数,从而为学生网络提供更有判别性的软标签。1 D S AK D方法本文提出的D S AK D方法通过从教师网络的特征层和软标签中获取多种类型的知识,并通过构造合适的蒸馏损

22、失将知识迁移到学生网络中,从而进一步提高轻量化学生网络的性能。具体来讲,该方法主要由多层特征自适应融合、特征嵌入对比蒸馏和自适应温度蒸馏3个阶段组成,整体框架如图1所示。图 1 D S AK D方法总体框架F i g.1 O v e r a l l f r a m e w o r k o f D S AK D m e t h o d 图1中,第一阶段对教师网络和学生网络的多尺度特征进行自适应融合:对于一张训练样本 x0,y0,送入教师网络和学生网络中进行特征提取,分别提取到教师网络和学生网络第k层的特征Fk(k=1,2,3)。然后,将提取到的多尺度特征通过特征自适应融合模块进行自适应融合,从而

23、得到包含更丰富知识的教师特征和学生特征。第二阶段对融合后的特征进行优化:将得到的教师特征和学生特征投影到一个嵌入空间中,分别得到教师网络和学生网络的嵌入特征gt0和gs0。然后,随机 为样本 x0,y0选择K个负样 本 xi,yiKi=1,将这些负样本送入教师网络得到各自的嵌入特征 gtiKi=1,使用存储矩阵进行保存并更新。通过特征嵌入对比蒸馏策略对学生网络进行优化,从而实现对教师网络特征层知识的有效迁移。第三阶段主要对教师网络的软标签知识进行学习:通过提出的自适应温度蒸馏策略对每个样本自适应地设置不同的温度参数,进而从教师网络中提取到更有信息量的软标签知识。1.1 特征自适应融合模块由于卷

24、积神经网络不同层次的特征旨在编码不同类型的信息,网络浅层学习到的主要是边缘和纹理等低级特征,深层学习到的主要是更加抽象的高级语义特征。为了充分利用网络提取到的低层纹理特征和高层语义特征信息,同时考虑到两者之间的互补性,本文采用图2所示的基于注意力融合的方式对多层特征进行自适应融合1 4,得到更有互补性的教师特征对学生网络的特征进行指导。48 西安工程大学学报 第3 7卷图 2 特征自适应融合模块F i g.2 T h e i l l u s t r a t i o n o f t h e f e a t u r e a d a p t i v ef u s i o n m o d u l e如

25、图2所示,本文提出的特征自适应融合模块主要包含两步:特征图调整和自适应特征融合。将网络中间特征层不同尺度的特征表示为Fk(k=1,2,3)(例如,在R e s N e t网络中表示每个残差块的输出),由于浅层特征的特征图尺寸大,通道数少,首先采用下采样策略对浅层特征进行调整。对于1/2倍的下采样,使用步长为2的卷积,同时改变浅层特征的特征图尺寸和通道数;对于1/4倍的下采样,在上述操作的基础上,在卷积层之前加入一个步长为2的最大池化层。将调整到同一尺寸的特征进行自适应融合,计算过程可表示为Ff=F1+F2+F3(1)式中:Ff为特征自适应融合模块的输出;F1和F2分别为第1层和第2层调整后的特

26、征;、和分别为不同层特征的空间注意力权重,通过网络自适应学习得到。、和是通过s o f t m a x函数计算得到,且满足以下约束条件:+=1;,0,1。1.2 特征嵌入对比蒸馏模块教师网络和学生网络中间层的多尺度特征经过特征自适应融合模块后,分别得到包含知识更丰富的教师特征ft0Rt和学生特征fs0Rs。为了实现教师网络特征层知识的有效迁移,本文提出将融合后的教师特征和学生特征转换到一个公共特征子空间中进行特征对齐。因此,本文方法首先通过2个线性变换层分别将自适应融合后的教师特征和学生特征投影到一个d维嵌入子空间中,得到嵌入特征gt0,gs0 Rd。然后,通过L 2归一化将嵌入特征gt0和g

27、s0映射到单位超球面,通过内积来度量两者之间的相似度,公式如下:S i m(gt0,gs0)=gt0gs0=t(ft0)2s(fs0)2(2)式中:t和s分别为教师网络和学生网络线性变换层的可训练参数;S i m(gt0,gs0)为2个特征之间的相似度。随机为样本 x0,y0选择K个负样本 xi,yiKi=1,将这些负样本送入教师网络得到各自的嵌入特征 gtiKi=1,对比学习的目标就是拉进正样本的学生嵌入特征gs0和教师嵌入特征gt0之间的距离,同时远离与负样本嵌入特征 gtiKi=1之间的距离。因此,学生网络的优化目标如下式所示:L(s)c o n(,s,t)=-l ne x p(gt0g

28、s0/)e x p(gt0gs0/)+KM+Ki=1l n1-e x p(gs0gti/)e x p(gs0gti/)+KM (3)式中:为学生网络的参数;为温度系数,控制了模型对负样本的区分度;K为负样本数;M为数据集的训练样本总数。通过特征嵌入对比蒸馏模块对学生网络进行优化,进一步扩大了教师网络和学生网络之间的类内相似度和类间差异,确保了样本间结构知识的一致性,使学生网络从教师网络的特征层中学习到更有价值的知识,从而获得了性能收益。如文献1 5 所述,为了确保对比学习的性能,需要大量的负样本。而一个正样本对就需要K个负样本,进行(K+1)次的运算,极大地增加了训练负担。为了解决这一问题,本

29、文采用文献1 6 的思想,通过构造一个存储体MRNd来存储所有训练样本的d维嵌入特征,只对每次正向传播中的正样本进行更新,从而确保了计算效率。具体来讲,当批大小设置为1时,M的更新遵从下式:m0=m0+(1-)gs0(4)式中:m0为嵌入特征gs0在存储矩阵中的表征;为控制存储体如何更新的超参数。1.3 自适应温度蒸馏模块在原始知识蒸馏框架中,通过使用一个带有温58第4期 张凯兵,等:基于双源自适应知识蒸馏的轻量化图像分类方法度系数的s o f t m a x函数对教师网络的输出概率分数进行软化,然后将其作为训练学生网络的软目标。此后,这种基于温度的知识蒸馏策略1 7引起了广泛研究者的兴趣并取

30、得了巨大的成功。然而,最近关于解耦知识蒸馏的研究发现,知识蒸馏的性能受训练样本难度的影响。具体来说,文献1 8 认为高置信度样本具有大量的有用信息,但这些样本在原有的软标签蒸馏中贡献却很小。因此,本文对原有的软标签蒸馏方法进行改进,提出了一种自适应温度蒸馏策略。知识蒸馏的思想最早是在文献5 中提出的,拿一张“猫”图片举例,模型输出它为“狗”的概率比“飞机”的概率要高很多,这些错误的概率包含了不同别之间丰富的知识,并揭示了一个模型倾向于怎样泛化。软标签蒸馏方法通过定义一个温度系数,将大模型的输出l o g i t s转化为软化的概率预测分数,来监督小模型的训练,这一过程表示为Lk d=2(Xt,

31、Xs)(5)式中:()为两者的K L散度;Xs为学生网络软化的概率预测分数;Xt为教师网络软化的概率预测分数。Xt和Xs的计算过程为Xt=e x p(zi/)je x p(zj/),Xs=e x p(vi/)je x p(vj/),其中:zi和vi分别为教师网络和学生网络的l o g i t s;为温度系数。不同于现有的大多数知识蒸馏方法使用一个固定的温度系数(根据经验通常设置为4),本文对原始的软标签蒸馏方法进行改进,提出了一种自适应温度蒸馏方法。具体来讲,针对不同的训练样本,根据教师网络预测的置信度大小,自适应地给所有训练样本分配不同的温度系数。对于那些相对难以识别的样本,当教师网络预测的

32、不确定性高时,给予这些样本较小的温度系数来扩大类间差异;对于那些易于学习的样本,给予它们较大的温度系数从而更有效地利用类间信息。本文提出的自适应温度蒸馏损失如下式所示:La t d=2i(Xit,Xis)(6)式中:i为自适应温度系数。i的计算公式如下:i=m a x-(m a x-m i n)(-(zi)l n(zi)(7)式中:()为t a n h激活函数;()为s o f t m a x函数;通过定义m a x和m i n温度系数i限制在一个固定范围内。通过教师网络对每个训练样本预测概率的熵值来衡量对该样本的预测置信度,熵越高说明教师网络对该样本的预测不确定性越高1 9,通过式(7)为该

33、样本分配较小的温度系数,从而得到更有判别性的软标签。1.4 损失函数设计综上所述,学生网络在特征嵌入对比蒸馏损失、自适应温度蒸馏损失和真实标签损失的联合指导下进行训练,进而从教师网络的特征层和软标签中获取更有价值的知识,训练阶段总的损失函数可以表示为Lt o t a l=Lc l s+Lc o n+La t d(8)式中:和分别为对比蒸馏损失和自适应温度蒸馏损失的权值系数;Lc l s为学生网络的分类损失。Lc l s的定义如下:Lc l s=Lc ee x p(vi)je x p(vj),y (9)式中:Lc e为 交 叉 熵 损 失;vi为 学 生 网 络 输 出 的l o g i t s

34、;y为样本的真实标签。1.5 评价指标本文实验采用准确率2 0(A)对学生网络的分类结果进行评估,计算过程如下:A=|Dt e s t|j=1fDt e s t(yj=yj)|Dt e s t|(1 0)式中:|Dt e s t|=(xi,yi)Ni=1表示测试集样本的集合,N为测试集样本总数;fDt e s t()为指示函数,判断预测类别yj和真实标签yj是否相同。2 实验结果与分析在本节中,首先对实验所用到的数据集、主干网络和参数设置进行了介绍,然后分别在3个数据集上 开 展 了 一 系 列 对 比 实 验 来 验 证 本 文 提 出 的D S AK D方法的有效性,最后进行了模块的消融实

35、验并对超参数进行了分析。2.1 数据集介绍本文 在C I F A R 1 0、C I F A R 1 0 0和I m a g e N e t 3个基准的图像分类数据集上进行实验,通过与其他几种不同的蒸馏 算法比较来 验 证 本 文 所 提 出 的D S AK D方 法 的 有 效 性。C I F A R 1 0和C I F A R 1 0 0数据集都是由6 0 0 0 0张3 23 2大小的彩色图像组68 西安工程大学学报 第3 7卷成。其中前者包含1 0个类别,每个类别有6 0 0 0张图像;而后者包含1 0 0个类别,每个类别有6 0 0张图像。C I F A R 1 0 0数据集由于类别

36、数量更多且每个类别的训练样本数量更少,因此分类难度相对C I-F A R 1 0数据集更大。除此之外,考虑到C I F A R 1 0和C I F A R 1 0 0数据集都是3 23 2大小的图像,并不能代表自然场景中的图像,本文还在更具有挑战性的I m a g e N e t数据集2 1上进行实验。该数据集共包含1 2 8万张训练样本,涵盖了来自1 0 0 0个不同类别的物体和场景,每个类别约有1 0 0 0个训练样本,并包括5 0个验证样本和1 0 0个测试样本。2.2 实验设置本文选择多种不同类型的网络作为主干网络来开展 实 验,包 括:R e s N e t网 络、VG G网 络、W

37、 i-d e R e s N e t网络以及更轻量化的M o b i l e N e t网络和S h u f f l e N e t网络,所有的实验都是在一个深度学习平台R T X 3 0 9 0 T i G P U设备上执行,并在P y t h o n 3.7编程环境中实现。在训练过程中,采用一种标准的数据增强2 2方案(包括填充、随机裁剪和水平翻转),对训练集的图像进行 均 值 和 标 准 差 的 标 准 化 处 理。对 于C I-F A R 1 0和C I F A R 1 0 0数据集,为了确保对比实验的公平性,采用和文献2 3 相同的参数设置:共迭代2 0 0个训练轮次,批次大小设置为

38、1 2 8,优化器选择随机梯度下降法2 4,动量为0.9,权重衰减因子为5.01 0-4,初始学习率为0.1,分别在1 0 0、1 5 0次迭代下进行0.1倍的衰减。对于I m a g e N e t数据集,共迭代1 0 0个训练轮次,批次大小设置为6 4,优化器同样选择随机梯度下降法S G D,动量为0.9,权重衰减因子为1.01 0-4,初始学习率为0.1,分别在3 0、6 0和8 0次迭代下进行0.1倍的衰减。2.3 C I F A R 1 0 0数据集对比实验课题组在C I F A R 1 0 0数据集上开展了一系列对比实验来验证D S AK D方法的性能优势,包括同构网络(这里指教师

39、网络和学生网络采用同一类型的网络)的蒸馏对比实验以及更有挑战性的异构网络(这里指教师网络和学生网络采用不同类型的网络)上的蒸馏对比实验。对比方法主要包括:在基于软标签的知识蒸馏方法中性能最好的解耦知识蒸馏D e c o u p l e K D1 8方法;在基于特征层的知识蒸馏方法中性能最好的知识回顾R e v i e w K D9蒸馏方法,以及在基于结 构化知识 蒸馏方 法 中 性 能 最 好 的R K D1 2方法。除此之外,考虑到本文的方法主要是在文献2 3 公开的代码上进行改进的,因此将文献2 3 提出的对比表征蒸馏方法C R D也作为对比方法之一。所有对比实验的结果均是在作者提供的公开

40、代码的推荐参数配置下实现得到的。首先,在C I F A R 1 0 0数据集上进行同构网络对比实验来评估本文所提D S AK D方法的有效性。为了确保对比实验的公平性,本文在4种对比方法都采用的3组网络上开展对比实验。3组同构网络分别为:网络1(R e s N e t 1 1 0作为教师网络,R e s N e t 2 0作为学生网络),网络2(WR N 4 0-2作为教师网络,WR N 1 6-2作为学生网络)和网络3(VG G 1 3作为教师网络,VG G 8作为学生网络)。表1展示了在同构网络条件下,本文提出的方法和4种对比方法在C I F A R 1 0 0数据集上的T o p-1验证

41、准确率。图中加粗的字体用于标记最优的准确率,而且所有的实验结果都是重复5次实验取的平均值及标准差。表 1 在C I F A R 1 0 0数据集上的同构网络对比实验T a b.1 T h e e x p e r i m e n t a l c o m p a r i s o n o f p e e r-a r c h i t e c t u r e d i s t i l l a t i o n o n t h e C I F A R 1 0 0 d a t a s e t方法T o p-1准确率的平均值/%和标准差网络1网络2网络3D e c o u p l e K D7 1.3 9/0.2

42、 3 7 5.4 6/0.3 2 7 4.7 1/0.0 8R e v i e w K D7 1.6 0/0.2 3 7 6.0 1/0.1 6 7 4.5 7/0.1 7R K D7 1.7 1/0.1 8 7 5.5 8/0.0 9 7 3.8 8/0.1 4C R D7 1.5 0/0.0 9 7 5.5 1/0.2 1 7 4.2 9/0.1 8本文方法7 2.4 5/0.2 1 7 6.7 1/0.2 5 7 4.9 7/0.1 2 注:“/”后数值为标准差。从表1可以看出,与其他4种性能优异的蒸馏算法相比,本文提出的方法在3组不同的同构网络蒸馏实验中都获得了最佳的蒸馏性能,显著地提

43、高了学生网络的分类性能。具体来讲,基于软标签蒸馏的D e c o u p l e K D主要是从教师网络的软标签中获取知识,经过该方法训练的学生网络虽然获得了性能提升,但是没有考虑到教师网络特征层中丰富的知识。基于结构化蒸馏的R K D方法和基于对比表征蒸馏的C R D都是基于对应层之间进行蒸馏的方法,共同点是让学生网络在训练前期学习复杂的教师知识,导致经过这些方法训练的学生网络提升有限。而R e v i e w K D采用一种渐进式融合蒸馏的策略对学生网络的特征层进行知识回顾蒸馏,在4种对比方法中取得了最优的性能。不同于上述4种对比方法,本文提出的方法从教师网络中获取双源类型的知识,并通过提

44、出的特征自适应融合策略、特78第4期 张凯兵,等:基于双源自适应知识蒸馏的轻量化图像分类方法征嵌入对比蒸馏策略和自适应温度蒸馏策略对学生网络进行优化,使得学生网络能够从教师网络中的特征层和软标签中学习到更丰富的知识。与对比方法中性能最好的方法相比,在3组网络上的平均验证准确率提高了0.5 7%。为了进一步证明本文所提出方法的有效性和适用性,本文在更具挑战性的异构网络上进行了对比实验。同样地,选择4种对比方法都采用的3组异构网络进行对比,分别为:网络a(WR N 4 0-2作为教师网络,S h u f f l e N e t V 1作为学生网络),网络b(R e s-N e t 3 24作为教师

45、网络,S h u f f l e N e t V 2作为学生网络)和网络c(VG G 1 3作为教师网络,M o b i l e N e t V 2作为学生网络)。表2给出了本文方法在3组异构网络上与其他4种蒸馏算法的对比结果。表 2 在C I F A R 1 0 0数据集上的异构网络对比实验T a b.2 T h e e x p e r i m e n t a l c o m p a r i s o n o f c r o s s-a r c h i t e c t u r ed i s t i l l a t i o n o n t h e C I F A R 1 0 0 d a t a

46、s e t 方法T o p-1准确率的平均值/%和标准差网络a网络b网络cD e c o u p l e K D7 6.4 9/0.1 4 7 6.8 1/0.1 3 6 9.4 4/0.2 1R e v i e w K D7 7.0 1/0.0 8 7 6.9 1/0.1 1 6 9.9 2/0.2 0R K D7 3.8 0/0.2 9 7 3.5 7/0.4 6 5 9.8 0/0.4 1C R D7 5.6 7/0.3 2 7 5.6 0/0.1 9 6 9.7 1/0.2 3本文方法7 7.0 8/0.2 7 7 7.9 1/0.1 5 6 9.8 1/0.1 8 注:“/”后数值为

47、标准差。从表2可以看出,本文提出的方法在前2组不同的异构网络蒸馏实验中获得了最佳的蒸馏性能,在最后一组异构网络蒸馏实验中获得了次优的性能。总的来说,与对比方法中性能最好的方法相比,在3组网络上的平均验证准确率提高了0.3 4%。其中,基于结构化蒸馏的R K D方法表现最差,分析原因是异构网络在结构和特征表示上存在较大的差异,这种差异性导致教师网络中的关系信息无法有效地传递给学生网络。基于软标签蒸馏的方法D e-c o u p l e K D没有考虑到教师网络特征层的知识,效果提升有限。C R D方法没有考虑浅层特征的有效知识,从而在更具挑战性的异构网络上效果较差。然而,本文提出的方法将教师网络

48、的多尺度特征进行自适应融合,并在嵌入空间中通过对比学习进行优化,进一步提高了学生网络的特征提取能力,使得训练的学生网络在异构网络上同样蒸馏效果优异。为了更直观地展示本文所提方法的有效性,图3展示了经过训练后学生网络和教师网络l o g i t s的相关性差异,图中横轴和纵轴分别代表教师网络和学生网络的l o g i t s,颜色越深表示两者的差异越大。由于l o g i t s是模型输出的前一步骤,相关性的降低表明学生网络更准确地学习到了教师网络的软标签知识。因此,这里选择WR N 4 0-2作为教师网络,WR N 1 6-2作为学生网络,与基于软标签蒸馏的D e-c o u p l e K

49、D方法进行对比。(a)D e c o u p l e K D方法(b)本文方法图 3 教师网络和学生网络l o g i t s的相关性差异F i g.3 C o r r e l a t i o n d i f f e r e n c e s i n l o g i t sb e t w e e n t e a c h e r a n d s t u d e n t n e t w o r k 从图3可以看出,经过本文方法训练的学生网络与教师网络的l o g i t s相关性差异更小。D e c o u p l e K D对所有的训练样本设置同一温度系数来得到样本的软标签,没有考虑不同样本的差异

50、性,从而导致学生网络不能更好地学习和模拟教师网络的预测能力。而本文方法通过为所有的训练样本分配不同的温度系数,减小了数据集中的难分样本和噪声对学生网络的干扰,帮助学生网络从教师网络的特征层和软标签中学习到更具鲁棒性和判别性的知识,有利于进一步减少教师网络和学生网络之间的l o g i t s差异,从而提高了学生网络的性能。2.4 C I F A R 1 0和I m a g e N e t数据集泛化性实验为了进一步证明本文方法的泛化性能,本文在C I F A R 1 0数据集和更具挑战性的I m a g e N e t数据集88 西安工程大学学报 第3 7卷上开展了对比实验。表3展示了本文提方法

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服