收藏 分销(赏)

基于冗余滤波器剪枝-辅助网络蒸馏混合压缩算法优化_张敏.pdf

上传人:自信****多点 文档编号:290853 上传时间:2023-07-08 格式:PDF 页数:9 大小:1.09MB
下载 相关 举报
基于冗余滤波器剪枝-辅助网络蒸馏混合压缩算法优化_张敏.pdf_第1页
第1页 / 共9页
基于冗余滤波器剪枝-辅助网络蒸馏混合压缩算法优化_张敏.pdf_第2页
第2页 / 共9页
基于冗余滤波器剪枝-辅助网络蒸馏混合压缩算法优化_张敏.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第4 0卷第3期2 0 2 3年6月河 北 省 科 学 院 学 报J o u r n a l o f t h e H e b e i A c a d e m y o f S c i e n c e sV o l.4 0 N o.3J u n.2 0 2 3收稿日期:2 0 2 3-0 3-1 5基金项目:河北省自然基金项目(F 2 0 1 8 2 0 7 0 3 8)作者简介:张 敏(1 9 9 6),男,河北张家口人,硕士研究生,研究方向为网络压缩、图像处理.通信作者:王建军(1 9 6 5),男,河北兴隆人,硕士,教授,研究方向为网络压缩、网络安全、大数据处理算法和计算机应用.文章编号:1

2、 0 0 1-9 3 8 3(2 0 2 3)0 3-0 0 0 1-0 9基于冗余滤波器剪枝-辅助网络蒸馏混合压缩算法优化张 敏1,王伟然2,王建军1(1.河北经贸大学 信息技术学院,河北 石家庄 0 5 0 0 6 2;2.武警河北总队综合信息保障中心,河北 石家庄 0 5 0 0 7 3)摘 要:针对师生网络差距过大、教师网络复杂度高时,学生网络对图像分类任务的准确率明显下降的问题,提出了一种基于冗余滤波器剪枝-特征相关性辅助蒸馏混合压缩算法。该算法引入了教师辅助网络,充当师生网络的媒介,有效缩小师生网络差距过大的问题;然后利用冗余滤波器结构化剪枝算法(R F S P),对教师网络和教师

3、辅助网络进行剪枝操作;最后对剪枝后的教师网络进行中间层特征相关性蒸馏,挖掘更多教师网络的特征知识,可以更有效的将信息传递给学生网络。实验结果表明,特征相关辅助网络知识蒸馏(GW_R AK D)与R F S P算法的有效结合,能够进一步提高学生网络对图像分类的准确性。关键词:冗余滤波器剪枝;教师辅助网络;知识蒸馏;R e s N e t;混合压缩算法中图分类号:T P 3 0 1 文献标识码:AO p t i m i z a t i o n o f h y b r i d c o m p r e s s i o n a l g o r i t h m b a s e d o n r e d u

4、n d a n t f i l t e r p r u n i n g a n d a s s i s t a n t n e t w o r k d i s t i l l a t i o n Z H A N G M i n1,WA N G W e i r a n2,WA N G J i a n j u n1(1.C o l l e g e o f I n f o r m a t i o n T e c h n o l o g y,H e b e i U n i v e r s i t y o f E c o n o m i c s a n d T r a d e,S h i j i a z

5、 h u a n g H e b e i 0 5 0 0 6 2,C h i n a;2.T h e C o mp r e h e n s i v e I n f o r m a t i o n A s s u r a n c e C e n t e r o f H e b e i A r m e d P o l i c e C o r p,S h i j i a z h u a n g H e b e i 0 5 0 0 7 3,C h i n a)A b s t r a c t:A h y b r i d c o m p r e s s i o n a l g o r i t h m b

6、a s e d o n r e d u n d a n t f i l t e r p r u n i n g f e a t u r e c o r r e l a t i o n a s s i s t e d d i s t i l l a t i o n i s p r o p o s e d t o a d d r e s s t h e s i g n i f i c a n t d e c r e a s e i n a c c u r a c y o f i m a g e c l a s s i f i c a t i o n t a s k s i n s t u d e

7、n t n e t w o r k s d u e t o t h e l a r g e g a p b e t w e e n t e a c h e r a n d s t u d e n t n e t w o r k s a n d t h e i n c r e a s i n g c o m p l e x i t y o f t e a c h e r n e t w o r k s.A t e a c h e r a s s i s t e d n e t w o r k i s i n t r o d u c e d i n t o t h i s a l g o r i

8、t h m t o s e r v e a s a m e d i u m f o r t h e t e a c h e r-s t u d e n t n e t w o r k,w h i c h r e d u c e t h e p r o b l e m o f e x c e s s i v e n e t w o r k g a p b e t w e e n t e a c h e r s a n d s t u d e n t s n e t w o r k e f f e c t i v e l y.T h e n,r e d u n d a n t f i l t e

9、r p r u n i n g a l g o r i t h m i s u s e d t o p r u n e t h e t e a c h e r n e t w o r k a n d t e a c h e r a s s i s t e d n e t w o r k.F i n a l l y,t h e m i d d l e l a y e r f e a t u r e c o r r e l a t i o n d i s t i l l a t i o n i s p e r f o r m e d o n t h e p r u n e d t e a c h

10、e r n e t w o r k t o e x p l o r e m o r e f e a t u r e k n o w l e d g e o f t h e t e a c h e r n e t w o r k,DOI:10.16191/ki.hbkx.2023.03.001河北省科学院学报2 0 2 3年第4 0卷w h i c h c a n m o r e e f f e c t i v e l y t r a n s m i t i n f o r m a t i o n t o t h e s t u d e n t n e t w o r k.T h e e x p

11、 e r i m e n t a l r e s u l t s s h o w t h a t t h e e f f e c t i v e c o m b i n a t i o n o f f e a t u r e r e l a t e d a u x i l i a r y n e t w o r k k n o w l e d g e d i s t i l l a t i o n a n d r e d u n d a n t f i l t e r p r u n i n g a l g o r i t h m c a n f u r t h e r i m p r o v

12、 e t h e a c c u r a c y o f i m a g e c l a s s i f i c a t i o n o f s t u d e n t n e t w o r k s.K e y w o r d s:R e d u n d a n t f i l t e r p r u n i n g;T e a c h e r a s s i s t a n c e n e t w o r k;K n o w l e d g e d i s t i l l a t i o n;R e s N e t;H y b r i d c o m p r e s s i o n a l

13、 g o r i t h m0 引言随着人工智能的快速发展,深度神经网络在各种应用中发挥重要作用。尤其在图像分类任务中1,深度神经网络效果显著,但网络加深在移动端部署上产生巨大开销,因此网络压缩成为最近研究重点。获得高效的轻量级网络模型主要有5种方法:直接手工设计轻量级网络2、量化3、基于神经架构搜索的网络自动化设计4、知识蒸馏5以及剪枝6。其中,知识蒸馏的工作原理是为教师和学生网络的输出添加强约束,鼓励学生模仿教师的算法。然而当教师网络与学生网络深度相差较大,或者教师网络本身层数很深时,教师网络的精度虽然得到提升,但学生网络的精度却在下降。可能原因是教师网络本身结构已经非常稳定,无法产生较好

14、的软目标,或者学生网络没有能力跟上教师网络进行学习,造成只使用蒸馏方法而无法对模型进行有效的压缩。研究发现,知识蒸馏具有较好正交特性,与网络剪枝算法结合后可有效提高模型性能7,同时知识蒸馏和剪枝算法压缩效果显著,备受研究者关注。1 相关研究概述主要对知识蒸馏和网络剪枝两种网络压缩方法相关研究现状进行概述。H i n t o n等人82 0 1 5年首次提出知识蒸馏概念,使用带有“温度”超参数的S o f t m a x函数将L o g i t s软化,得到软标签。根据知识蒸馏位置,将知识蒸馏分为基于结果输出层知识蒸馏(B L K D)、基于中间层特征知识蒸馏(B F K D)和基于特征关系的知

15、识蒸馏(B R K D)。其中,B L K D针对网络最后输出层进行损失计算,主要集中于正则化和优化方法。Z h a o等人9提出了解耦知识蒸馏,对传统蒸馏损失进行改写,有效提高B L K D性能;B F K D针对中间层特征进行研究。C h e n等人1 0在知识蒸馏中提出跨级连接路径方法,使用教师网络中的底层功能监督学生的深层功能,进而提高整体表现,B R K D主要探索特征之间相关性。F a r h a d i等人1 1提出了时间知识蒸馏,对教师网络中时间相关性知识进行提取;C h e n等人1 2从特征嵌入的角度提出蒸馏新范式,通过引入局部保存损失,使学生网络生成低维特征。剪枝是一种修

16、剪网络结构的操作,能够生成可以加速和压缩的模型。在不对网络性能产生显著影响的情况下,对网络参数实现最大化修剪。剪枝可分为非结构化剪枝1 3和结构化剪枝1 4。对于结构化剪枝,一般分为基于权重的剪枝和基于特征图的剪枝。Y v i n e c等人1 5通过滤波器相似性对其进行度量,使用无数据结构化压缩;S u i等人1 6针对特征所在当前层,利用通道独立性对通道重要程度评价,通道独立性由交叉通道相关性确定;B a o等人1 7通过构建权重剪枝后,对网络与知识蒸馏进行正交性结合,提高学生网络的准确性。综上,B L K D和B F K D忽略样本类内实例的相关性,无法有效提取类内样本的相似性特征;同时

17、B R K D一般采用欧氏距离度量分布特征的相关性,在分布没有重叠时可能会导致梯度消失等问题。本文基于正交性在不降低单个方法性能的前提下,可使模型整体的效率增益的特性提出了基于冗余滤波器剪枝-特征相关性辅助蒸馏混合压缩算法。首先对网络中冗余滤波器进行结构化剪枝,扩大教师预测的不确定性;然后引入教师辅助网络,对中间层特征相似性知识进行特征相关性分步蒸馏,缓解教师与学生之间的网络差距,进而提高学生网络对图像分类任务的性能。2第3期张 敏等:基于冗余滤波器剪枝-辅助网络蒸馏混合压缩算法优化2 模型总体设计本文算法的网络模型如图1所示,包括教师辅助网络、冗余滤波器结构化剪枝(R F S P)和基于G

18、a u s s i a n R B F-W a s s e r s t e i n的特征相关性辅助知识蒸馏(GW_R AK D)三部分,以深层残差网络(R e s N e t)作为师生网络进行讨论。图1 本文算法的网络模型2.1 教师辅助网络当教师网络规模逐渐增大时,教师网络精度虽在逐步提高,但学生网络准确率反而下降。即随着教师网络复杂性增大,学生网络无法有效学习教师网络知识。引入教师辅助网络缩小教师和学生之间的网络差距,教师辅助网络规模介于教师与学生之间。首先,教师辅助网络由教师网络通过蒸馏方式得到;然后以教师辅助网络作为教师网络对学生网络进行训练。教师辅助网络与学生网络规模更相近,使得学生

19、网络具备向教师辅助网络学习的能力。2.2 R F S P算法复杂的教师网络确定性高,但难以产生软目标。知识蒸馏时,学生网络无法对教师网络传递的信息进行挖掘。此时需对教师网络和教师辅助网络实施剪枝操作,降低教师网络确定性,同时减少教师辅助网络中的冗余滤波器,并将剪枝后的教师辅助网络传递给学生网络。另外,知识蒸馏具有模型集成正交特性7,通过融合剪枝算法可使模型达到良好平衡,使模型实现性能增益。应用R F S P算法对教师网络和教师辅助网络剪枝。由于剪枝特征图等同于修剪滤波器,二者作用相当,本研究对此不加以区分。R F S P算法根据滤波器之间的相似度确定其冗余情况,进而对R e s N e t全连

20、接层和卷积层的冗余滤波器进行剪枝。由于完全连接层可被视为特殊卷积层,所以应首先设计完全连接层的剪枝操作。设网络共有l层,Xl,Yl分别表示第l层的输入层和输出层,Wl是第l层的权重集合;在全连接层中,Xl,Yl的大小分别为Al1,Bl1;Wl的大小为AlBl,Al是第l层输入节点的个数,Bl是第l层输出节点的个数;Xla表示Xl中第a个节点,Ylb代表Yl中第b个节点,w-a表示Wl的第a行,w-a=Wa,1,.Wa,b。其中对于某一层l,输出层Yb=aWa,bXa(省略偏置项)。如果对于某一层l输入节点Xa1和Xa2的对应权重w-a1和w-a2,存在w-a2w-a1,表示相关系数,即输入层中

21、存在Xa1与Xa2为相关项,则可以通过剪枝操作进行合并。采用斯皮尔逊相关系数表示w-a1与w-a2的冗余度,也表示Xa1与Xa2的相似度,3河北省科学院学报2 0 2 3年第4 0卷如式(1)。s i m(Xa1,Xa2)=s(w-a1,w-a2)=E(w-a1-w-a1)(w-a2-w-a2)(w-a1-w-a1)(w-a2-w-a2)(1)式中:w-a是w-a的平均值,w-a是w-a的标准差,E表示期望。其次对于卷积层的剪枝,全连接层视为权重大小为11AB的卷积层,对于滤波器大小为KKAB的卷积层,一个滤波器可看作一组KK个独立节点。因此卷积层的剪枝如式(2):s i m(Xa1,Xa2)

22、=1K2KiKjs(w-i,j,a1,w-i,j,a2)(2)其中,K为卷积核宽度。因此对于卷积层中存在冗余度的滤波器,可通过滤波器之间的相似性进行合并。2.3 GW_R A K D算法B L K D和B F K D仅关心特征输出的结果,忽略样本之间的相关性。本节提出GW_R AK D算法,网络模型如图2所示。矩阵中每个方格表示样本特征之间的特征相关性,每个样本生成二维相关性矩阵,n个样本生成三维相关性矩阵。图2 GW_R A K D模型此蒸馏方法针对中间层特征知识的相关性进行蒸馏。首先将教师和学生网络的中间层特征看做两个不同的分布,通过G a u s s i a n R B F计算两个分布相

23、关性构建相似度矩阵;然后使用W a s s e r s t e i n距离使学生分布更加逼近教师分布,由于教师网络蒸馏到教师辅助网络与教师辅助网络蒸馏到学生网络方法相同,本节首先只考虑教师网络和学生网络。设有M个训练样本x=xiMi=1,Ft和Fs分别表示教师网络和学生网络的特征集合,m a t r i x表示矩阵集合,fi表示中间层特征,其中fti和fsi分别表示教师网络和学生网络的中间层特征,Ft和Fs的特征集合表示如式(3):Ft=m a t r i x(ft1,ft2,ftM)Fs=m a t r i x(fs1,fs2,fsM)(3)4第3期张 敏等:基于冗余滤波器剪枝-辅助网络蒸馏

24、混合压缩算法优化 针对特征分布,用Ri j=G(fi,fj)度量分布的相似性,从而构建相似度矩阵,其中Ri j代表相似度矩阵,G表示G a u s s i a n R B F核函数,G a u s s i a n R B F适合处理高维、复杂的非线性问题,G如式(4):G=e x p(-fi-fj22)PP=0e x p(-2)(2)PP!(fifj)P(4)式中为可调参数,P为泰勒展开的阶数,通常=0.4,P为2。最后通过Ri j,利用W a s s e r s t e i n距离使学生模仿教师的分布,即使用W a s s e r s t e i n距离找到学生分布模仿教师分布的最短距离,W

25、 a s s e r s t e i n距离如式(5):W(Rt,Rs)=m i npni=1nj=1pi jR(fTi,fSj)=m i np(5)式中p为fT和fS的离散联合概率,Rt、Rs分别表示从教师网络和学生网络的中间层提取的相似度矩阵,利用S i n k h o r n算法得到,S i n k h o r n主要处理高维分布的W a s s e r s t e i n距离,为F r o b e n i u s点积。当教师网络复杂度提高,网络结构变深时,学生网络没有足够的学习能力对教师网络进行学习。引入教师辅助网络与学生网络更贴近,使学生网络具备向教师学习的能力。将教师辅助网络中间层

26、特征集合表示为Fa s s i s t a n t,fa s s i s t a n ti表示教师辅助网络的中间层特征,Fa s s i s t a n t式如式(6):Fa s s i s t a n t=m a t r i x(fa s s i s t a n t1,fa s s i s t a n t2,fa s s i s t a n tM)(6)利用G a u s s i a n R B F-W a s s e r s t e i n把教师网络中间层特征相关性知识蒸馏到教师辅助网络,再把教师辅助网络作为教师网络进行蒸馏得到学生网络,如式(7),为师生网络的蒸馏操作。(Ft,Fa s

27、s i s t a n t)=W(Rt,Ra s s i s t a n t)(Fa s s i s t a n t,Fs)=W(Ra s s i s t a n t,Rs)(7)3 本文算法实验验证针对C I F A R图像分类公开数据集设计了滤波器剪枝和教师辅助网络消融实验分析与本文算法性能分析实验,并对结果展开讨论。3.1 实验数据集和实验环境实验使用C I F A R图像分类公开数据集。C I F A R数据集分为C I F A R 1 0和C I F A R 1 0 0数据集,C I-F A R 1 0包括6 0 0 0 0张大小为3 23 2的彩色图像,分为1 0个类。每个类包含6

28、 0 0 0张图片,含有5 0 0 0个训练图像和1 0 0 0个测试图像。C I F A R 1 0 0数据集数量与C I F A R 1 0相同,共有2 0个超类,将每个超类分成5类,共分为1 0 0个子类,每个子类包含6 0 0张图片,含有5 0 0个训练图像和1 0 0个测试图像,每个类别之间没有重叠图像,是目前图像分类研究中使用最广泛的数据集。实验环境在W i n d o w s 1 0操作系统下采用P y-t o r c h的深度学习框架,并使用NV I D I A T 6 0 0 L a p t o p G P U进行训练加速。针对R F S P算法,使用准确率和网络缩减程度评估

29、剪枝效果;对于蒸馏结果,采用准确率评价蒸馏效果。选用的优化器为S G D,学习率为0.1,e p o c h为1 5 0,在第3 0、9 0和1 2 0个e p o c h除以1 0,该模型使用随机梯度优化,动量为0.9。3.2 R F S P和教师辅助网络消融实验分析3.2.1 C I F A R 1 0数据集针对C I F A R 1 0数据集,以R e s N e t-1 1 0作为教师网络,R e s N e t-2 0作为教师辅助网络,进行R F S P操作。与其它滤波器剪枝算法比较,见表1。结果表明R F S P算法网络的缩减程度相比其他算法有所增大,准确率虽低于剪枝前,但增加了网

30、络的不确定性。说明剪枝操作,可以对网络进行加速,降低网络确定性。针对教师辅助网络重要性进行实验。在没有剪枝的前提下,只采用所提GW_R AK D蒸馏方法,对是否经过教师辅助网络采用分步蒸馏,学生网络的准确率如图3所示。其中,T为教师网络,T A表示教师辅助网络,S是学生网络,数字代表残差网络深度,如T 1 1 0代表教师网络为R e s N e t-1 1 0。从图3中可看出,经过5河北省科学院学报2 0 2 3年第4 0卷教师辅助网络分步蒸馏的学生网络性能有较大提升。另一方面当教师网络较深,且不采取教师辅助蒸馏时,学生网络的性能反而下降。如图3中教师网络为R e s N e t-1 1 0,

31、学生网络为R e s N e t-8(T 1 1 0-S 8)的学生网络性能相比T 2 6-S 8较差。而经过教师辅助蒸馏后,教师网络较深时学生网络的性能变高。可以看出,经过教师辅助网络分步蒸馏,能缩小教师网络与学生网络的差距,且所提GW_R AK D蒸馏方法可有效提取教师网络特征知识,改善学生网络的性能。表1 教师网络与教师辅助网络下R F S P与其他剪枝方法比较网络剪枝算法剪枝前准确率/%剪枝后准确率/%网络缩减程度/%R e s N e t-2 0S F P9 1.5 69 1.1 82 9.3S R F P9 1.5 69 1.3 32 9.3A S F P9 1.5 69 1.3

32、82 9.3R F S P9 1.5 69 1.2 72 9.5R e s N e t-1 1 0P F E C9 3.5 69 2.8 23 8.6S F P9 3.5 69 2.8 62 8.2S R F P9 3.5 69 3.3 92 8.2A S F P9 3.5 69 3.4 72 8.2R F S P9 3.5 69 3.3 72 8.5图3 有无教师辅助网络的学生网络准确率(无剪枝)3.2.2 C I F A R 1 0 0数据集针对C I F A R 1 0 0数据集,对R e s N e t-2 0、R e s N e t-5 6和R e s N e t-1 1 0进行R

33、F S P操作,与其他滤波器剪枝算法比较见表2。所提R F S P算法的网络缩减程度在R e s N e t-1 1 0网络上相比其他算法有所增大,准确率低于剪枝前。说明对复杂的深层网络进行剪枝时,可以对网络进行加速,但却增大网络的不确定性。在没有剪枝的情况下,以R e s N e t-1 1 0作为教师网络,R e s N e t-5 6(T A=5 6)、R e s N e t-3 2(T A=3 2)、R e s-N e t-2 0(T A=2 0)和R e s N e t-1 4(T A=1 4)分别作为教师辅助网络,在所提蒸馏算法下,以R e s N e t-8作为学生网络计算准确率

34、,如图4所示。从图4中可知,R e s N e t-2 0效果最好。因此在剪枝操作后,采用R e s N e t-2 0作为教师辅助网络进行蒸馏训练。6第3期张 敏等:基于冗余滤波器剪枝-辅助网络蒸馏混合压缩算法优化表2 R F S P与其他滤波器剪枝方法比较网络剪枝算法剪枝前准确率/%剪枝后准确率/%网络缩减程度/%R e s N e t-2 0S F P6 8.5 36 6.0 32 9.3S R F P6 8.5 36 6.1 72 9.3A S F P6 8.5 36 6.2 42 9.3R F S P6 8.5 36 6.1 32 9.3R e s N e t-5 6S F P7 1

35、.6 86 9.5 82 8.4S R F P7 1.6 86 9.5 32 8.4A S F P7 1.6 86 9.6 22 8.4R F S P7 1.6 86 9.5 92 8.4R e s N e t-1 1 0S F P7 3.8 17 1.7 82 8.2S R F P7 3.8 17 1.8 92 8.2A S F P7 3.8 17 2.1 62 8.2R F S P7 3.8 17 1.9 22 9.362.0061.7561.5061.2561.0060.7560.5060.2560.00TA=56TA=32TA=20TA=1461.0661.5361.9261.34准确

36、率/%图4 不同教师辅助网络下的学生准确率3.3 本文算法性能分析3.3.1 C I F A R 1 0数据集通过G a u s s i a n R B F建立相似度矩阵,对样本间类内相关性矩阵进行可视化,如图5所示。从图5中可知,经过G a u s s i a n R B F可提取更高的类内样本相似性。以R e s N e t-8为学生网络,R e s N e t-1 1 0作为教师网络,R e s N e t-2 0为教师辅助网络。通过所提GW_R AK D算法,在是否经过R F S P操作,与其他蒸馏算法进行比较,得到蒸馏结果见表3。表中蒸馏算法“无”代表不使用蒸馏方法,“Y P”表示经

37、过R F S P操作,“N P”表示不经过R F S P操作。从实验可看出,不采用蒸馏方法时,N P的准确率高于Y P。但经过蒸馏后,Y P的准确率超过N P的准确率,证明蒸馏算法与剪枝算法具有正交特性,可提升学生网络性能。利用所提方法,教师辅助网络与学生网络的准确率均有所上升,可以证明本文算法的有效性。图5 类内相关性矩阵可视化7河北省科学院学报2 0 2 3年第4 0卷表3 本文算法与其他蒸馏方法(带教师助理)比较网络蒸馏算法(N P)准确率/%(Y P)准确率/%R e s N e t-1 1 0无9 3.5 69 3.3 7R e s N e t-2 0无9 1.5 69 1.2 7K

38、 D9 2.1 79 2.2 4A T9 2.3 19 2.5 1S P9 2.4 89 2.6 3本文算法9 2.6 49 2.9 1R e s N e t-8无8 7.9 68 7.8 5K D8 8.2 68 8.4 3T AK D8 8.3 78 8.5 2A n n e a l i n g-K D8 8.9 68 9.2 6本文算法8 9.3 58 9.8 43.3.2 C I F A R 1 0 0数据集针对C I F A R 1 0 0数据集,对教师网络和教师辅助网络剪枝后,以R e s N e t-8为学生网络,将GW_R AK D算法与其他蒸馏算法进行比较,得到蒸馏结果见表4

39、。从表4中可看出,经过蒸馏后,教师辅助网络与学生网络的准确率均有所上升,可证明本文算法的有效性。表4 本文算法与其他蒸馏算法比较网络蒸馏算法N P准确率/%Y P准确率/%R e s N e t-1 1 0(教师网络)无7 3.8 17 1.9 2R e s N e t-2 0(教师助理网络)无6 8.5 36 6.1 3K D6 9.3 66 9.5 1A T6 9.5 36 9.7 3S P6 9.7 97 0.0 6R K D6 9.7 17 0.0 2本文算法6 9.9 87 0.5 6R e s N e t-8(学生网络)无6 0.5 76 0.2 6K D6 0.7 46 0.8

40、2T AK D6 1.3 56 1.5 6R C O6 1.2 76 1.3 3A n n e a l i n g-K D6 1.8 66 2.0 2本文算法6 1.9 26 2.4 54 结论对于师生网络差距过大、教师网络本身更加复杂时,学生网络对图像分类任务的准确率明显下降问题,提出了基于冗余滤波器剪枝-特征相关性辅助蒸馏混合压缩算法。该算法首先引入了教师辅助网络缩小师生网络差距;然后利用冗余滤波器剪枝算法,对教师网络和教师辅助网络进行剪枝操作;最后对剪枝后的教8第3期张 敏等:基于冗余滤波器剪枝-辅助网络蒸馏混合压缩算法优化师网络进行中间层特征相关性蒸馏,挖掘更多教师网络的特征知识。实验

41、结果表明,GW-R AK D算法与R F S P算法的有效结合,能够进一步提高学生网络对图像分类的准确性。在后续研究中,可尝试与硬件进行有效结合,进一步提高网络加速的能力。参考文献:1 L TH C T,B UNG E R T T J,K L E I N L,e t a l.T o w a r d r e a l i s t i c e v a l u a t i o n o f d e e p a c t i v e l e a r n i n g a l g o r i t h m s i n i m a g e c l a s s i f i c a t i o nE B/O L.(2

42、0 2 3-0 1-2 5)2 0 2 3-0 5-2 4.h t t p s:/d o i.o r g/1 0.4 8 5 5 0/a r X i v.2 3 0 1.1 0 6 2 5.2 Z HAN G X i a n g y u,Z HOU X i n y u,L I N M e n g x i a o,e t a l.S h u f f l e N e t:a n e x t r e m e l y e f f i c i e n t c o n v o l u t i o n a l n e u r a l n e t w o r k f o r m o b i l e d e v

43、 i c e sC/2 0 1 8 I E E E/C V F C o n f e r e n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n.S a l t L a k e C i t y,UT,U S A:I E E E,2 0 1 8:6 8 4 8-6 8 5 6.3 吕君环,许柯,王东.基于指数移动平均知识蒸馏的神经网络低比特量化方法J.模式识别与人工智能,2 0 2 1,3 4(1 2):1 1 4 3-1 1 5 1.4 缪斯,祝永新.针对图像盲去模糊的可微分神经网络架构搜

44、索方法J.计算机工程,2 0 2 1,4 7(9):3 1 3-3 2 0.5 仇真,奚雪峰,崔志明,等.基于多分辨率自蒸馏网络的小样本图像分类J.计算机工程,2 0 2 2,4 8(1 2):2 3 2-2 4 0.6 褚晶辉,李梦,吕卫.基于深度学习的自适应动态滤波器剪枝方法J.激光与光电子学进展,2 0 2 2,5 9(2 4):2 4 1 5 0 0 3.7 P A R K S U,YOO K Y,KWAK N.O n t h e o r t h o g o n a l i t y o f k n o w l e d g e d i s t i l l a t i o n w i t

45、h o t h e r t e c h n i q u e s:f r o m a n e n-s e m b l e p e r s p e c t i v eE B/O L.(2 0 2 0-0 9-1 4)2 0 2 3-0 5-2 4.h t t p s:/d o i.o r g/1 0.4 8 5 5 0/a r X i v.2 0 0 9.0 4 1 2 0.8 H I N TON G,V I NYA L S O,D E AN J.D i s t i l l i n g t h e k n o w l e d g e i n a n e u r a l n e t w o r kE

46、 B/O L.(2 0 1 5-0 3-0 9)2 0 2 3-0 5-2 4.h t t p s:/d o i.o r g/1 0.4 8 5 5 0/a r X i v.1 5 0 3.0 2 5 3 1.9 Z HAO B o r u i,C U I Q u a n,S ON G R e n j i e,e t a l.D e c o u p l e d k n o w l e d g e d i s t i l l a t i o nC/2 0 2 2 I E E E/C V F C o n f e r e n c e o n C o m p u t e r V i s i o n a

47、 n d P a t t e r n R e c o g n i t i o n(C V P R).N e w O r l e a n s,L A,U S A:I E E E,2 0 2 2:1 1 9 4 3-1 1 9 5 2.1 0 CHE N P e n g g u a n g,L I U S h u,Z HAO H e n g s h u a n g,e t a l.D i s t i l l i n g k n o w l e d g e v i a k n o w l e d g e r e v i e wC/2 0 2 1 I E E E/C V F C o n f e r e

48、 n c e o n C o m p u t e r V i s i o n a n d P a t t e r n R e c o g n i t i o n(C V P R).N a s h v i l l e,T N,U S A:I E E E,2 0 2 1:5 0 0 6-5 0 1 5.1 1 F A RHA D I M,YAN G Y Z.T e m p o r a l k n o w l e d g e d i s t i l l a t i o n f o r a c t i v e p e r c e p t i o n:U S 2 0 2 2 0 1 2 1 8 5 5

49、A 1P.2 0 2 2-0 4-2 1.1 2 CHE N H a n t i n g,WANG Y u n h e,CHAN G X u,e t a l.L e a r n i n g s t u d e n t n e t w o r k s v i a f e a t u r e e m b e d d i n gJ.I E E E T r a n s a c t i o n s o n N e u r a l N e t w o r k s a n d L e a r n i n g S y s t e m s,2 0 2 1,3 2(1):2 5-3 5.1 3 P I E T R

50、 ON M,?Z UR E K D,SN I E?Z YNS K I B.S p e e d u p d e e p l e a r n i n g m o d e l s o n G P U b y t a k i n g a d v a n t a g e o f e f f i c i e n t u n-s t r u c t u r e d p r u n i n g a n d b i t-w i d t h r e d u c t i o nJ.J o u r n a l o f C o m p u t a t i o n a l S c i e n c e,2 0 2 3,6

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服