多教师对比知识反演的无数据模型压缩方法.pdf

资源描述

1、计算机科学与探索Journal of Frontiers of Computer Science and Technology1673-9418/2023/17(11)-2721-13doi:10.3778/j.issn.1673-9418.2204107多教师对比知识反演的无数据模型压缩方法林振元1，林绍辉1+，姚益武2，何高奇1，王长波1，马利庄11.华东师范大学计算机科学与技术学院，上海 2000622.北京大学信息科学技术学院，北京 100871+通信作者 E-mail:摘要：知识蒸馏是用于压缩深度神经网络的一种有效方法，但是由于用户数据隐私保护、数据机密性或传输的限制，很多时候人

2、们无法获取到原始数据。现有的无数据知识蒸馏方法仅使用单教师模型进行有偏特征统计，生成的数据和原始数据相比存在着多样性和泛化性差问题，从而导致压缩后模型的准确率不高。为了解决此类问题，提出了一种多教师对比知识反演的无数据模型压缩方法（MTCKI），该方法从多个可用的教师模型中提取知识并将其融合到学生模型中，以消除模型有偏统计带来的偏差，增强了合成图片的泛化性。为提升合成的图像多样性，采用对比学习的策略将当前批次生成的图像与历史的图像进行对比，迫使生成器合成与历史不相似的图片。同时，提出多教师-学生对比的策略，进一步提升学生网络的表征能力。实验表明，该方法不仅能生成视觉上令人满意的图像，而且在多个

3、指标上优于现有的方法。生成的合成图像更接近原始数据集的分布，而且只需要一次生成的图片数据集就能泛化用于不同模型训练。关键词：模型压缩；无数据；知识蒸馏；数据保护；隐私保护文献标志码：A中图分类号：TP391Multi-teacher Contrastive Knowledge Inversion for Data-Free DistillationLIN Zhenyuan1,LIN Shaohui1+,YAO Yiwu2,HE Gaoqi1,WANG Changbo1,MA Lizhuang11.School of Computer Science and Technology,East Ch

4、ina Normal University,Shanghai 200062,China2.School of Electronics Engineering and Computer Science,Peking University,Beijing 100871,ChinaAbstract:Knowledge distillation is an effective method for model compression with access to training data.However,due to privacy,confidentiality,or transmission l

5、imitations,people cannot get the support of data.Existingdata-free knowledge distillation methods only use biased feature statistics contained in one model and run into pro-blems with low generalizability and diversity in synthetic images and unsatisfactory student model performance.Toaddress these

6、problems,this paper proposes a multi-teacher contrastive knowledge inversion(MTCKI)method thatextracts and fuses model-specific knowledge from the available teacher models into a student model to eliminatemodel bias.Further,this paper improves the diversity of synthesized images using contrastive le

7、arning,whichencourages the synthetic images to be distinguishable from the previously stored images.Meanwhile,this paperproposes the strategy of contrastive loss based on multi-teacher and student to improve the feature representationability of student network.Experiments demonstrate that MTCKI not

8、only can generate visually satisfactory imagesbut also outperforms existing state-of-the-art approaches.The resulting synthesized images are much closer to the基金项目：国家自然科学基金（72192821，62102151）；上海市科技委扬帆计划项目（21YF1411200）；中国人工智能学会-华为Mind-Spore学术奖励基金（CAAIXSJLJJ-2021-031A）。This work was supported by the N

9、ational Natural Science Foundation of China(72192821,62102151),the Sailing Program of the Scienceand Technology Commission of Shanghai(21YF1411200),and the CAAI-Huawei MindSpore Open Fund(CAAIXSJLJJ-2021-031A).收稿日期：2022-04-27修回日期：2022-07-14Journal of Frontiers of Computer Science and Technology计算机科学

10、与探索2023,17(11)知识蒸馏（knowledge distillation，KD）1-5是一种常见的模型压缩方法，在大多数现有的 KD方法中，使用基于 logits1或来自教师的特征信息2的方法可以将知识从教师网络转移到学生模型，但在这其中需要访问整个训练数据。本文将这些 KD 方法称为数据驱动的 KD方法。然而在现实中，由于隐私、保密或传输限制，在蒸馏过程中原始训练样本通常不可用。例如，患者的医疗数据是保密的，不会公开共享以泄露患者的隐私。如果没有数据的帮助，这些方法在获取不到原始数据的情况下将无法使用。许多工作6-8使用生成对抗网络研究无数据模型压缩。然而，这些研究都关注于提高从特

11、定的单一模型反演数据的性能，导致生成的数据缺乏多样性和泛化性。一方面，从某一特定模型反演知识会使合成图像有偏差。由于生成的样本是从单一的教师模型反演学习得到的，只含有教师网络所包含的结构先验知识，导致这些合成的数据不能用于蒸馏到其他的模型。如图 1 所示，在相同的设定下分别将 DAFL（data-free learning）6、DFQ（data-free quantization）9、DeepInversion10、CMI（contrastive model inversion）7方法合成的数据直接用于训练不同架构的网络，实验结果表明同一个方法得到的训练数据用于训练不同网络时效果差异很大，而且

12、与 CIFAR-10原始数据相比性能上仍存在较大的差距。以 Inception-V3 为例，现有的方法CMI7所合成的数据与原始数据得到distribution of the original dataset and can be generated only once to provide comprehensive guidance for variousnetworks rather than a specific one.Key words:model compression;data-free;knowledge distillation;data protection;privac

13、y protection图1跨模型无数据蒸馏的结果概述Fig.1Overview of results of cross-model data-free distillation2722林振元等：多教师对比知识反演的无数据模型压缩方法的性能仍然相差了 10个百分点，而且使用合成的数据来训练不同的网络结构很不稳定，不同网络的准确率有较大的方差，说明先前的方法合成的数据可能包含了某一种网络结构的先验知识以至于无法很好推广适用于其他的模型的训练。因此，这种方法显然无法拓展至多种网络进行压缩。而使用不同的教师网络进行多次多个模型的压缩将显著增加多个模型的训练时间和数据内存存储。另外，Chen等6使用

14、特定的教师模型（ResNet-3411）合成数据去训练其他模型，例如 ResNet-18、WRN-16-1，WRN-16-1的最终性能明显低于 ResNet-18 的性能。因此本文的目的在于所合成的数据可以直接用于训练其他结构的网络。另一方面，目前的工作在判别器中使用信息熵6或学生-教师分歧9来生成多样化的图像，由于缺乏与历史生成的图像的比较，生成图片的多样性仍然有所欠缺。在这种情况下，该类算法在生成的图像中会遇到重复模式，生成器极有可能生成与历史实例高度相似的实例。为了解决这些问题，本文提出了一种多教师对比知识反演的无数据蒸馏方法（multi-teacher contras-tive kno

15、wledge inversion，MTCKI），图 2 描述了所提出方法的工作流程。MTCKI算法在实际应用中，也有着巨大的需求。例如，模型的供应端（公司和企业）是会有很多不同网络架构的预训练模型，而客户端需要部署一个小模型在自己的终端设备上。本文提出了一种供应端-客户端合作的模式，供应端将已经训练好的多个教师模型提供给客户，而不提供原始的训练数据，而客户端只通过这些训练好的教师网络去得到一个学生网络用于部署。单个学生可以访问多个教师从而得到多个教师网络提供的全面指导，由此训练出的学生模型对模型偏差具有较强的鲁棒性。本文首先提出了基于多教师集成的模型反演，充分反演来自教师的更丰富的信息以生成可

16、泛化的数据。同时，本文进一步提出了多教师和学生之间的对比交互正则化，其中包含教师内对比和师生对比，以提高合成数据的多样性。具体来说，教师内部对比用于逐步合成具有与历史样本不同模式的新样本。本文还提出了师生对比，师生对比旨在使得生成器合成的图片能让学生网络和教师网络映射到相同的表示空间中，采用对比学习的方法拉近同一物体的多视角表示，并区分开不同物体的特征。学生网络学到的不仅是学生网络所擅长提取的特征，比如鸟的嘴，还能从与教师网络的表示的拉近过程中明白鸟的嘴、翅膀、眼睛、羽毛都可以被看作同一物体的不同视角，从而学习到更好的特征表示。基于以上原理，生成器所合成的图片融合了多视角的特征信息使得合成的图

17、片具有泛化性和多样性，一次生成的图片数据集能够用于蒸馏或从头训练多个不同的学生网络。本文方法以对抗的方式训练图像生成和知识转移的过程，最终可以获得高精度的学生模型和高质量的生成数据。本文的主要贡献总结如下：（1）提出了一个新的无数据知识蒸馏框架，从多个可用的教师模型中提取“多视角”知识，同时提高学生模型精度和合成高质量数据。（2）设计了一种对比交互方式，充分利用来自多位师生的知识，生成具有高泛化性和多样性的合成数据。一次生成的图片数据集能够用于蒸馏或从头训练多个不同的学生网络。图2多教师对比知识反演的无数据模型压缩方法整体架构Fig.2Overall framework of multi-te

18、acher contrastive knowledge inversion for data-free distillation2723Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)（3）实验表明本文方法优于现有的方法。本文方法不仅合成了更接近原始数据集分布的高保真数据，而且还达到了与在原始数据集上训练的预训练模型相媲美的结果。1相关工作1.1数据驱动的知识蒸馏知识蒸馏1旨在通过从大型教师网络转移知识来提高小型学生网络的性能。产生的知识可来自类后验概率1或中间特征1-2,7,12-13。目前已

19、有利用多个教师构建更丰富和有启发性的信息来训练学生模型的研究，其中知识来自集成logits14-15或特征16-18。例如，Lan 等14构造了一个多分支结构，每个分支表示学生，并对每个分支进行融合得到教师网络，将最终的集成logits作为蒸馏知识。You等17使用多个教师网络的结合来提取不同实例中间层中的三元组排序关系，鼓励与学生保持一致。本文方法在以下两方面与之前的方法完全不同：（1）本文的框架以无数据的方式构建，这相比之前的数据驱动的知识蒸馏更加灵活；（2）本文考虑了多位教师之间的内部和相互关系，与基于多教师的知识蒸馏相比，它可以提取更丰富的知识进行蒸馏。1.2无数据的知识蒸馏无数据知识

20、蒸馏的关键是在无需真实图像的情况下进行图像合成。一般可以大致分为两类：（1）在先验知识上使用梯度下降直接学习图像，如激活统计19和批量正则化（batch normalization，BN）统计10；（2）对抗性训练以在噪声输入上学习生成器。DAFL6和 DFQ9在第一阶段使用生成对抗网络（generativeadversarial networks，GAN）生成图像，可进一步用于学习学生模型。最近，ZAQ（zero-shot adversarial quan-tization）20提出了一个两级差异建模框架，用对抗的方式对学生和老师之间的中间特征进行差异估计，并通过知识转移来学习学生。训练后，

21、无需重新训练即可同时获得合成图像和学生模型。ZeroQ21、Knowledge Within22以及 MixMix23使用合成的数据集来执行无数据量化。然而，这些方法是模型定制的，生成的图像不能推广到其他模型进行蒸馏。与这些方法不同，本文方法提出了多教师和学生之间的对比交互，以生成高泛化和高多样性的图像。虽然MixMix23也利用多教师使用合成的数据集来执行无数据量化，但本文方法利用最终特征信息和师生交互来更好地提高合成图像的泛化性和多样性。此外，学生和图像生成的学习是以端到端的方式训练的，这与MixMix中的两步训练完全不同。1.3对比学习对比学习24-28已广泛应用于无监督学习，能够学习有

22、效的特征表示以提高下游任务的性能。实例级对比是一种简单而有效的策略，旨在将正样本和锚点拉近，同时将其推离表示空间中的负样本。例如，He 等26使用记忆库来存储来自动量编码器的负样本，并使用InfoNCE损失27从查询编码器和动量编码器之间的表示中构建对比。Chen等24用大批量数据替换记忆库，让两个网络在不同输入增强上进行对比。对比学习的思想同样也有被应用于知识蒸馏29-31。例如，Tian等29通过最大化教师和学生表示之间的互信息，将对比学习与知识蒸馏相结合。然而，这些方法中的对比知识是由真实数据和一个教师网络形成的，然而，本文方法不需要任何真实数据，只需构建多教师和学生之间的对比。2多教师

23、对比知识反演方法2.1预备知识为了更好地说明所提出的方法，本文首先使用一个预训练的教师网络介绍了三个广泛使用的模型反演损失。令fT(x,t)和fS(x,s)分别表示来自输入图像x的教师和学生编码器的输出，其中参数分别为t和s。由于预训练教师中给定固定参数，本文通过省略t将fT(x,t)表示为fT(x)。x=G(z,g)是参数为g的生成器G从噪声输入z合成的图像。本文的目标是通过减小教师网络带来的偏差来生成具有多样性的高保真数据集X，以替代原始图像X。（1）One-hot预测损失。它用于生成器合成与教师网络训练数据相兼容的图像，使教师能够对x X做出 one-hot 的预测5。因此，给定一个预定

24、义的类c，本文将one-hot预测损失表示为：Loh(x)=CE(fT(x),c)（1）这里的CE是指交叉熵损失。（2）BN 层中的特征正则化损失。BN 层已广泛用于 CNN，它通过在训练期间用平均统计量对特征图进行归一化来缓解协变量偏移。训练后，这些统计数据存储了有关X的丰富信息（例如：运行均值(x)和运行方差2(x)。因此，Yin 等10通过最小化所有层的x和x的统计数据之间的距离来提出特征正则化：2724林振元等：多教师对比知识反演的无数据模型压缩方法Lfr(x)=l(|l(x)-E(l(x)|X)|2+)|2l(x)-E(2l(x)|X)|2（2）（3）对抗蒸馏损失。通过对抗性蒸馏损

25、失以鼓励合成图像使学生-教师产生较大的分歧10,32-33，可以表示为：Lad(x)=-KLfT(x),fS(x,s)（3）其中，KL是KL散度，是温度参数。如上所述，本文整合了无数据蒸馏的基本框架，无数据蒸馏的整体模型反演损失可以通过组合公式（1）（3）来表示：Linv(x)=iLoh(x)+2Lfr(x)+3Lad(x)（4）其中，i,i=1,2,3是平衡参数。然而，直接通过最小化等式（4）生成的图像X存在两个问题：（1）缺乏泛化性。给定一个特定的预训练模型，式（4）的优化等价于求解欠定方程，很难得到近似x的最优解。此外，合成图像不完整，无法访问其他模型的知识，因此它们的泛化能力受到很大限

26、制。（2）缺乏多样性。在不观察和处理历史数据的情况下，很容易产生重复图像，导致合成图像多样性低。为了很好地解决这些问题，本文提出了一种多教师对比知识反演方法来生成具有泛化性和多样性的图像。2.2多视图的教师网络集成文献34提出了多视图假设，即“多视图”结构非常普遍存在于许多现实世界的数据集中。这些数据中存在多个特征，可用于正确分类图像。例如，通过观察翅膀、身体大小或嘴巴的形状，可以将鸟类图像分类为鸟类。模型往往只需要获取一部分的特征，由于大部分的图像可以被正确分类，模型便不再学习额外的特征。在现有的无数据蒸馏方法中，即使学生可以提取单一老师学习的所有特征，他们仍然无法“看到”该特定教师未发现的

27、特征，从而限制了学生的表现。除此之外，由于图像的合成受限于教师网络，生成器合成的图像缺乏多视图结构，以至于学生网络难以看到物体的全部特征，这也就限制了合成数据的泛化性能。即使某些模型缺少单个学生可以学习多视图知识的视图，基于集成的方法也可以收集到大部分这些视图。受文献14,34的启发，本文首先考虑多个集成教师来构建一个可靠的多分支模型。整体的框架如图2所示，本文的框架包含多个教师网络、一个学生网络以及一个生成器。本文选择所有教师的平均最终输出作为模型预测，而不是按文献14使用门控组件。此外，本文使用不同的教师来获取各种统计知识，以提高合成图像的多视图结构，从而提升数据的泛化性能。因此，方程式中

28、的模型反演损失式（4）可以重新表述为：L(mt)inv(z;g)=1L(mt)oh(z;g)+2L(mt)fr(z;g)+3L(mt)ad(z;g)（5）其中，L()mtoh、L()mtfr和L(mt)ad是三个损失，分别用于 one-hot预测、特征正则化和对抗性蒸馏。本文进一步将这三个损失构造为：L(mt)oh(z;g)=CE(fMT(x),c)（6）Lfr(z;g)=1Mm=1Ml(|(m)l(x)-E(m)l(x)|X)|2+)|2(M)l(x)-E(2(M)l(x)|X)|2（7）Lad(z,g)=-KLfMT(x),fS(x,s)（8）其中，fMT(x)=1Mmf()mT(x)是集

29、成M个教师模型的输出。x为带有参数g的生成器G的输出。生成器G可以通过最小化方程（5）来生成有一定泛化性的图像，这是因为它能够反演来自多个预训练教师的知识。然而，合成图像仍然缺乏多样性，这可能导致在训练学生网络期间过度拟合。为此，本文提出了多名教师和一名学生之间的对比交互，以提高数据多样性并产生高保真图像。2.3多教师和学生之间的对比策略对比学习23,25-26以自监督方式在特征表示上取得了巨大成功，可以有效地转移到下游任务，例如分割和目标检测。实例级对比是一种简单而有效的策略，目的在于将锚点拉近正实例，同时将其推离表示空间中的负实例。MOCO（momentum contrast）26算法使用

30、记忆库（比如存储来自历史数据的特征）通过将当前的实例与历史存储的实例的匹配来进行对比，从而学习图像特征表示。它启发了本文使用记忆库进行对比学习来生成具有高度多样性的数据。受此启发，任意选取生成器合成的同一批图像中的一张图像为待测图像，将待测图像的表示和数据增强后的待测图像的表示作为正样本对，生成器合成的同一批图像中待测图像以外的图像的表示作为负样本，并将生成器合成的历史图像的表示作为负样本。本文首先引入一个头部投影网络h将输入f(m)T(x)投影到一个新的特征空间中。因此，本文可以获2725Journal of Frontiers of Computer Science and Technol

31、ogy计算机科学与探索2023,17(11)得每个带有参数(m)h的教师的输出q(m)t=h(f(m)T(x),(m)h)。本文遵循MOCO的流程，并通过InfoNCE27为每个教师编码器独立地构造教师内对比损失（intra-teachercontrastive loss），可以表示为：Litcl=-m=1Mlgexp(sim(q(m)t,k(m)+)/1)i=0Kexp(sim(q(m)t,k(m)i)/1)（9）其中，k(m)+为数据增强后图片输入到第m个训练好的教师模型得到的表示，k(m)i为第m个训练好的教师模型对应的第i个负样本，K为负样本数量，sim(,)是余弦相似度。教师内对比损

32、失可以帮助生成器逐步合成一些与历史样本不同的新样本。然而，它只独立考虑了教师的实例级对比，本文希望通过不同网络对物体不同视图下的特征关系进行对比学习，从而使得学生网络以及生成器对于数据中的多视图知识的分布学习到更好的表征。换句话说，同一个物体在不同视图下的表征应当是相似的，不同物体的表征则远离。基于上述思想，学生网络学到的不仅是学生网络所擅长提取的特征，比如鸟的嘴，还能从与教师网络的表示的拉近过程中明白鸟的嘴、翅膀、眼睛、羽毛都可以被看作同一物体的不同视角，从而学习到更好的特征表示。故本文进一步提出了师生对比，旨在使生成器合成的图片能让学生网络和教师网络映射到相同的表示空间中，采用对比学习的方

33、法拉近同一物体的多视角表示，并将不同物体的特征区分开来。首先，从当前批次中的第i个图像构造学生的特征，表示为qis=h(fS(x,s),h)。然后，本文将学生的特征qis和相同的第i图像中教师的特征进行拉近，并将qis和负实例的表示推远，包括记忆库和其他不包括当前批次中的第i个图像实例。因此，师生对比损失可以表述为：Ltscl=-1Ni=1Nm D(s)lgexp(sim(qis,qi(m)t)/2)Neg（10）其中，Neg是负样本的集合，可以定义为：Neg=j=0Kexpsim(qis,k(s)j)2+j iexpsim(qjs,qis)2这里，D(s)是教师网络索引集，k()sj为学生模

34、型输出的历史图像记忆库中的第j个负样本的特征表示。通过结合式（9）和式（10），本文可以将多教师和学生之间的对比交互损失表示为：Lci=Litcl+Ltscl（11）本文通过最小化式（11）来反演出来自多个教师的更丰富的知识。它有效地生成具有多样性和更真实的图像。需要注意的是，与MOCO不同，本文的框架是以对抗的方式进行训练，不需要动量编码器。2.4优化本文方法包含两个阶段：通过生成器G生成图像以及从教师蒸馏知识到学生网络。对于图像生成，本文结合了模型反演损失L(mt)inv和对比交互损失Lci，可以表示为：LG=L(mt)inv(z;g)+Lci(z;g,(m)h,h)（12）其中，是L(m

35、t)inv和Lci之间的平衡参数。对于知识蒸馏，本文的目标是将知识从多教师集成的预测结果蒸馏到学生网络，则式（8）改为：LS=KLfMT(x),fS(x,s)（13）本文的框架在两阶段过程中进行训练，如算法1所示，其中生成器和学生交替更新。在每次迭代中，首先训练生成器使得其输出的图片通入教师网络后的统计量信息逼近存储在教师BN层中的统计数据，使得特征图处于一个合理的范围内。随后使用对比学习与历史样本进行对比，融合教师网络多视角的信息，并消除存储在图像中的模型结构所带来的偏差信息。然后训练学生网络使其输出与教师集合预测的输出之间的距离最小化。通过交替更新学生和生成器，算法收敛到最优点。算法1 多

36、教师对比知识反演的算法Input:Pretrained model zoo,subset sizeM1.Randomly select Teacher Modelsf()1T,f()2T,f()MT2.Initialization:G(;g),z(0,1),Student modelfS(;s),Image Bank.3.fore=1:MAX_EPOCHSdo4.fori=1:MAX_ITERATIONSdo5.fort=1:MAX_STEPSdo6.Generate a batch of samplesG(z)from noisez.7.Compute lossLGwith Eq.(12).

37、8.Update parameters ofG:g g-gLG.9.Store samplesG(z)to Image Bank.10.end for11.fork=1:MAX_STEPSdo12.Sample a batch of imagesG(z)from Image Bank.13.Compute lossLSwith Eq.(13).14.Update parameters ofS:s s-sLS.15.end for2726林振元等：多教师对比知识反演的无数据模型压缩方法16.end for17.end forOutput:Student modelfS(;s)and Image

38、 Bank.3实验3.1实验设置（1）数据集和模型。本文在不同的网络架构上评估提出的方法，包括 ResNets11、带 BN 层的 VGG35、WRN36、Inception-V337和 MobileNet-v238。在 3个广泛使用的数据集 CIFAR-10、CIFAR-100 和 Caltech-10139上进行了实验用于测试合成图像的质量，并训练教师网络和学生网络。本文选择ResNet-34、VGG-11、WRN-40-2 和 Inception-V3 作为教师模型。选择WRN-16-1、ResNet-18、WRN-16-2、WRN-40-1和VGG-8作为学生模型，并对其进行评估。本文

39、在表1中总结了这些在原始CIFAR-10/100和Caltech-101数据集上训练的教师的准确率，其中“Ensemble”表示ResNet-34、VGG-11 和 WRN-40-2 集成后的准确率。将本文方法与现有的最先进的方法 DAFL6、DFQ9、Deepinv（deep inversion）10、CMI7进行了比较。（2）实验设置细节。本文使用PyTorch来实现提出的多教师对比知识反演，算法1中的优化问题在具有24 GB显存的NVIDIA GTX 3090 GPU上运行来进行实验。权重衰减设置为 0.000 1，动量设置为 0.9。对于数据集 CIFAR-10和 CIFAR-100，

40、本文将小批量（minibatch）大小、总训练回合（epoch）数和初始学习率分别设置为256、200和0.1。学习率在120、150、175和 190 个 epoch 上按 0.1 的比例衰减。对于数据集Caltech-101，本文首先从原始数据集中随机抽取20%的图像作为测试集，并将所有图像的大小调整为128128。本文使用更大的生成器来合成图像，教师数设置为 3（在 3.3节中有对集成教师网络个数的影响的分析）。对于在数据集 Caltech-101 上的实验，将批量大小设定为 32，合成图像大小尺寸为128128，epoch为 400，学习率在 250、300、350 和 375 个 e

41、poch 上按0.1衰减，同时遵循了CMI中对于超参数的设定，1、2、3分别设置为 0.5、1.0和 0.5，其余训练参数设置为与 CIFAR-10/100 相同。对于超参数，本文使用0.1,1.0范围内的交叉验证来确定多教师模型反演损失和对比交互损失之间的最佳权衡。（3）生成器和头部映射层的结构。生成器G的内部结构由一个全连接层（fully connected layers，FC）、三个卷积层组成，其中一个卷积层是由一个卷积、批量归一化和 LeakyReLU 组成。输入噪声的维度设置为256。对于头部投影架构，本文使用两个全连接层将网络的输出表示映射到同样的256维。（4）评价指标。本文选择

42、学生的准确率和生成的图像与原始数据之间的 FID（Frechet inception dis-tance score）作为评估标准。FID 是生成对抗网络GAN中常见的衡量指标，用于衡量两个数据集的相似程度，分数越低两者的分布越接近。3.2与现有算法的比较本文在数据集 CIFAR-10、CIFAR-100和 Caltech-101上进行实验。CIFAR-10是一个常用的分类数据集，图像均匀分布在10个类别中。它总共有50 000张训练图像和10 000张测试图像，所有这些图像的大小都是3232像素。CIFAR-100中的图像与CIFAR-10相同，只是它们分为100个类别。Caltech-10

43、1是一个包含101个类别的图像分类数据集。每个类别的样本数量从40到800不等，每张图像的大小约为300200。本文选择ResNet-34、VGG-11和WRN-40-2作为本文的多个教师。在数据集CIFAR-10、CIFAR-100和Caltech-101中集成的预训练教师达到95.83%、80.08%和67.08%的准确率。本文以定量和定性的方式将本文方法与最优方法（state-of-the-art，SOTA）进行比较。（1）客观指标分析。表2记录了本文方法和先前的方法在不同数据集CIFAR-10、CIFAR-100和Caltech-101上的比较结果。本文可以观察到：本文方法在所有 3

44、个数据集上都优于现有方法。例如，当在CIFAR-10 数据集上蒸馏到相同的 WRN-16-1 时，本文方法达到了 91.59%的准确率，比最佳的 CMI基线提高了2.49个百分点。对于CIFAR-100，在蒸馏到相同的WRN-16-2时，本文比CMI高出了2.08个百分点的准确率。对于更复杂的场景 Caltech-101，本文方法在蒸馏到 MobileNet-V2 时与 Deepinv 相比增加了3.89个百分点的准确率。在本文所采用的多教师表1在不同数据集上预训练教师网络的准确率Table 1Accuracy of pre-trained teachers ondifferent datas

45、ets单位：%预训练模型ResNet-34VGG-11WRN-40-2EnsembleCIFAR-1095.7092.2594.8795.83CIFAR-10078.0571.3275.8380.08Caltech-10176.1780.0569.6081.102727Journal of Frontiers of Computer Science and Technology计算机科学与探索2023,17(11)集成的准确率和 CIFAR-10上的一个特定 ResNet-34的准确率（95.7%）几乎一致时，本文方法在提取同一个学生时相比其他基线实现了显著的性能提升。这也就表明模型性能的提升

46、来自于多教师结构和提出的对比交互损失，而不是简单来自于强教师。教师和学生之间的同构结构有助于提高学生在所有基线中的表现。例如，在CIFAR-10上，本文使用相同的WRN-16-1 作为学生，相比于 ResNet-34 作为教师，WRN-40-2作为教师时显著提高了学生WRN-16-1的准确率。值得注意的是，本文的预训练教师没有使用 MobileNet-V2，然而本文的合成图像仍然可以有效地训练模型。而且本文方法已经和使用原始数据训练的MobileNet-V2的准确度非常接近。这意味着使用本文提出的多教师对比知识反演方法的合成图像对于各种模型的训练具有很高的泛化性。与其他方法相比，本文用不同的学

47、生模型生成的数据集的FID值都是最低的，并且方差较小。这意味着本文的合成图像与原始数据集最一致。本文方法在CIFAR-10数据集上的 FID 值（即 52.20）甚至可以与一些使用原始数据的GAN方法8相媲美。（2）主观视觉分析。本文进一步将提出的方法与现有方法的合成质量进行比较，如图 3 所示。与DAFL6、DFQ9、Deepinv10、CMI7相比，可以明显看出本文的多教师对比知识反演所生成的图像质量最高。例如，DAFL 使用 CIFAR-10数据集上的预训练教师生成的图像类似噪声图像。Deepinv 能够生成图3不同方法反演生成的图片展示Fig.3Images inverted from

48、 pre-trained model by different methods表2在不同数据集上无数据蒸馏方法的结果Table 2Results of data-free distillation on different datasets数据集CIFAR-10CIFAR-100Caltech-101教师网络WRN-40-2ResNet-34ResNet-34ResNet-34ResNet-34ResNet-34ResNet-34ResNet-34ResNet-34VGG-11ResNet-34学生网络(Pre-/%)WRN-16-1(90.77)ResNet-18(95.02)WRN-16-

49、1(90.77)WRN-40-1(92.45)WRN-16-2(92.95)ResNet-18(77.10)WRN-16-1(65.31)WRN-16-2(73.56)WRN-40-1(72.19)MobileNet-V2(76.09)WRN-16-2(69.96)DAFL准确率/%67.7192.2263.7781.0880.7474.4731.7543.8947.4453.9941.93FID234.90278.76224.66227.40278.97149.28139.93139.72151.61322.23356.23DFQ准确率/%86.1494.6182.4788.9489.797

50、7.0148.4260.7760.0073.3558.06FID86.0689.2194.6377.1699.38102.8294.8597.0594.11277.29294.53Deepinv准确率/%83.0493.2668.1883.0376.8961.3225.0633.8438.0271.3235.32FID195.68198.74199.71198.95163.02163.20162.55206.50218.43CMI准确率/%90.0194.8489.1092.1292.0077.0457.4567.8567.4473.2660.72FID81.3768.6979.8766.08

展开阅读全文