收藏 分销(赏)

MAFDNet:复杂环境下图像自适应分类新方法.pdf

上传人:自信****多点 文档编号:852982 上传时间:2024-03-29 格式:PDF 页数:14 大小:3.24MB
下载 相关 举报
MAFDNet:复杂环境下图像自适应分类新方法.pdf_第1页
第1页 / 共14页
MAFDNet:复杂环境下图像自适应分类新方法.pdf_第2页
第2页 / 共14页
MAFDNet:复杂环境下图像自适应分类新方法.pdf_第3页
第3页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、ISSN 10049037,CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38,No.6,Nov.2023,pp.1392-1405DOI:10.16337/j.10049037.2023.06.014 2023 by Journal of Data Acquisition and Processinghttp:/Email:sjcj Tel/Fax:+8602584892742MAFDNet:复杂环境下图像自适应分类新方法叶继华1,黎欣1,陈进1,江爱文1,化志章1,万文涛2(1.江西师范大学计算机信息工程学院,南昌 3

2、30022;2.江西师范大学教育学院,南昌 330022)摘要:复杂环境下,往往困难样本和简单样本并存,现有分类方法主要针对困难样本进行设计,所构建网络用于分类简单样本时会造成计算资源的浪费;而网络修剪和权重量化等方法则不能同时兼顾模型的准确度和存储开销。为提升计算资源的使用效率并有更好的准确率,本文着眼于输入样本的空间冗余,提出了复杂环境下图像自适应分类网络 MAFDNet,并引入置信度作为分类准确性的判断,同时提出了由内容损失、融合损失和分类损失组成的自适应损失函数。MAFDNet由 3个子网组成,输入图像首先被送入到低分辨率子网中,该子网有效提取了低分辨率的特征,具有高置信度的样本先被识

3、别并从网络中提前退出,低置信度的样本则需要依次进入更高分辨率的子网中,而网络中的高分辨率子网具有识别困难样本的能力。MAFDNet将分辨率自适应和深度自适应结合在一起,通过实验表明,在相同计算资源条件下,MAFDNet 在 CIFAR10、CIFAR100 和 ImageNet 这 3 个复杂环境数据集上的top1准确率均得到提升。关键词:MAFDNet;复杂环境;自适应分类;自适应损失;置信度中图分类号:TP391 文献标志码:AMAFDNet:A New Method of Image Adaptive Classification in Complex EnvironmentYE Jih

4、ua1,LI Xin1,CHEN Jin1,JIANG Aiwen1,HUA Zhizhang1,WAN Wentao2(1.College of Computer Information Engineering,Jiangxi Normal University,Nanchang 330022,China;2.College of Education,Jiangxi Normal University,Nanchang 330022,China)Abstract:In complex environments,difficult samples and simple ones often c

5、oexist.The existing classification methods are mainly designed for difficult samples,and the constructed network causes a waste of computing resources when it is used to classify simple ones.However,network pruning and weight quantization couldn t take into account both accuracy and storage cost.To

6、promote the efficiency of computing resources with better accuracy,focusing on the spatial redundancy of input samples,this paper proposes an adaptive image classification network MAFDNet in complex environment,introduces the confidence as the classification accuracy of judgment,and puts forward the

7、 adaptive loss function composed of the content loss,fusion loss and classification loss at the same time.MAFDNet consists of three subnets.The input images are first sent to the low-resolution subnet,which effectively extracts low-resolution features.Samples with high confidence are first identifie

8、d and removed from the network in advance,while samples with low confidence need to enter the subnet with higher resolution in turn.The high resolution subnet in the network has the ability to identify difficult samples.MAFDNet combines resolution adaptive 基金项目:国家自然科学基金(62167005,61966018);江西省教育厅重点科研

9、项目(GJJ200302)。收稿日期:20230305;修订日期:20230406叶继华 等:MAFDNet:复杂环境下图像自适应分类新方法and depth adaptive.Through experiments,the top-1 accuracy of MAFDNet is improved in CIFAR-10,CIFAR-100 and ImageNet data sets under the same computing resource conditions.Key words:MAFDNet;complex environment;adaptive classificati

10、on;adaptive loss;confidence引 言在实际场景中,因光照不足、物体遮挡和雨雾模糊等恶劣环境导致获取的图像模糊不清晰、严重退化,难以被正确分类,此类图像被称为困难样本;简单样本则为较容易正确分类的图像。针对简单和困难样本同时存在的情况,即复杂环境下,简单的网络只可正确分类简单样本,很难正确分类困难样本,复杂的网络虽然可以正确分类困难样本,但是对于简单样本来说无疑存在较大的计算资源的浪费。尽管计算机硬件的进步使人们能够训练非常深的卷积神经网络(Convolutional neural network,CNN),例如 ResNet1和 DenseNet2,但深层 CNN 带来

11、的大量计算消耗在许多应用中仍然无法承受。为了既可以正确分类困难样本,又可以较少的资源正确分类简单样本,国内外许多学者已做了很多研究,例如,网络修剪3、权重量化4和自适应网络57等。其中,网络修剪首先将低于某个阈值的权重连接全部剪除,之后对剪枝后的网络进行微调以完成参数更新。这种方法的不足之处在于,剪枝后的网络是非结构化的,即被剪除的网络连接在分布上没有任何连续性,这种稀疏的结构导致 CPU 高速缓冲与内存频繁切换,从而限制了实际的加速效果,同时稀疏数据结构将会需要额外存储开销,而且目前对稀疏操作加速支持的库非常有限;权重量化则通过将 float32格式的数据转变为 int8格式,虽然可以降低内

12、存和存储的开销,但在一定程度上降低了模型的精度;自适应网络旨在通过动态调整网络结构来减少简单样本上的计算冗余,已显示出很好的性能,但是仍存在模型准确率和计算消耗不能同时兼顾的问题,本文基于已有的自适应网络模型,利用数据样本中的信息冗余,克服了之前自适应网络的不足。现有的大多数关于自适应的工作都集中在通过容易识别的特征来减少网络的深度或宽度。研究表明,不同样本的分类难度大不相同:简单样本可以通过较少层数或通道较小的网络进行正确分类,而另一些样本可能需要较复杂的网络。例如多尺度密集网络(Multiscale dense network,MSDNet)6允许一些样本在达到其预测置信度时从辅助分类器中

13、退出,没有考虑通过利用图像中的空间冗余来设计自适应模型。本文与现有工作侧重于网络结构中的计算冗余相反,目的是利用数据样本中的信息冗余。由于低分辨率特征图足以对简单样本进行分类,而使用高分辨率特征图来探测细节对于准确识别某些困难样本是必要的。从信号频率的观点8,可以使用包含在低分辨率特征中的低频信息正确地对简单样本进行分类,当无法精确预测具有低分辨率特征的样本时,高频信息仅用作识别困难样本的补充。为加快网络速度,目前主要通过修改网络模型来实现。如设计轻量级模型 MobileNet9和 ShuffleNet10、修剪冗余网络连接3或量化网络权重4、知识蒸馏11等方法,这些方法可以看作是静态模型加速

14、技术,通过整个网络推断所有输入样本。相反,动态自适应网络可以根据输入复杂度策略性地分配适当的计算资源,以对输入图像进行分类,该研究方向近年来受到越来越多的关注。最直观的是集合多个模型,并以级联或混合方式有选择地执行模型的子集。最近的工作还提出自适应地跳过层或块12,或动态选择通道13,分类器也可以附加在深度网络的不同位置,以允许尽早分类成功简单样本。然而,这些现有技术中的大多数集中于利用网络的架构冗余来设计自适应网络。由于输入图像的空间冗余已在最近的工作中得到证明8,因此本文提出了一种新颖的自适应学习模型,该模型同时利用了神经网络的结构冗余和输入样本的空间冗余。由于单尺度网络中的下采样操作可能

15、会限制网络识别物体的能力,因此最近的研究提出在网络中1393数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023采用多尺度特征图以同时利用粗略和精细特征,可显著改善许多视觉任务的网络性能,包括图像分类14、目标检测15、语义分割16和姿态估计17,并且多尺度结构在自适应网络6和高效存储网络18中体现了显著的效果。虽然通过深层神经网络保持高分辨率特征图对于识别某些非典型困难样本或某些特定任务(例如姿态估计)17是必要的,但对高分辨率特征的频繁卷积操作通常会导致模型的资源匮乏。可以观察到,对于所有具有低分辨率输入的样

16、本,轻量级网络可以产生较低的错误率。ADASCALE19还自适应地选择了输入图像的比例,该比例提高了视频对象检测的准确性和速度。基于上述分析,本文提出了基于 DenseNet融合的自适应分类网络 MAFDNet(Multiresolution image adaption classification network based on dense network fusion),该网络实现了在深度 CNN 中分辨率自适应的思想。MAFDNet由具有不同输入分辨率的子网组成,简单样本通过最低分辨率的子网进行分类,当先前的子网无法达到给定阈值时,将使用分辨率更高的子网,同时,来自先前子网的粗略特征

17、将被重用并融合到当前子网中。当使用低分辨率子网可以准确预测样本时,则避免对高分辨率特征执行不必要的卷积操作,MAFDNet的自适应机制减少了冗余的计算,从而提高了网络的计算效率。本文参考文献 6 中单张图像预测和多张图像预测的设置,在 3个图像分类数据集(CIFAR10,CIFAR100和 ImageNet)上评估 MAFDNet性能。1 MAFDNet网络 1.1分辨率自适应设置将 MAFDNet设置为具有 K 个分类器的网络,分类器连接在模型的不同深度上。给定一个输入图像 x,第 k个分类器(k=1,2,K)的输出可以表示为pk=fk(x,k)=pk1,pk2,pkCT RC(1)式中:k

18、表示与第 k个分类器相对应的子网的参数,每个元素pkC 0,1 为第 C个分类器的预测置信度,k在此处具有共享参数。自适应模型通过样本的复杂度动态分配适当的计算资源,样本将在其输出满足输出条件的第一个分类器处退出网络。由于 softmax 作为输出层,结果可以直接反映概率值,并且避免了负数和分母为 0的情况,因此在本文中,将 softmax 输出的概率最大值作为分类正确的置信度,这意味着最终输出将是第一个分类器的最大输出大于给定阈值的值。这可以表示为k*=min k|maxCpkC y arg maxCpk*C(2)式中阈值控制了测试时分类精度和计算成本之间的平衡。1.2总体框架图 1为 MA

19、FDNet的总体架构。它包含一个初始层和对应于不同分辨率的 H 个子网。每个子网在最后几个块中都有多个分类器。与 MSDNet 相似,本文采用多尺度体系结构和密集连接。尽管MAFDNet和 MSDNet具有类似的多尺度结构,但是它们的详细体系结构设计和计算却有很大差异。最突出的区别是 MAFDNet需要首先提取低分辨率特征,而这不遵循经典的深层 CNN(包括 MSDNet、ResNet和 DenseNet等)中首先提取高分辨率特征的传统设计。MSDNet和 MAFDNet之间差异的更多详细信息将在 1.4节中讨论。MAFDNet的基本思想是,网络首先使用最低空间分辨率的特征图即第一个子网预测样

20、本,以避免因对大型特征进行卷积而导致较高的计算成本。如果第一个子网对样本的预测不可靠,则第一个子网的中间特征将以更高的分辨率融合到下一个子网中。然后,由具有较大特征的下一个子网执行分类任1394叶继华 等:MAFDNet:复杂环境下图像自适应分类新方法务。重复此过程,直到一个子网产生可靠的预测,或者进入最后一个子网。在每一个子网中添加了密集跳跃连接,就是把密集块看成一个整体,第一个卷积层的输出以及每个密集块的输出,都输入给之后的所有密集块。由于这样做,所有的特征都串联起来,这样直接输入全连接层会产生巨大的计算开销,因此添加了一个核大小为 11的卷积层来减小特征数量,这个卷积层称为瓶颈层。算法

21、1进一步说明了 MAFDNet的分辨率自适应过程。算法 1 MAFDNet的分辨率自适应过程输入:待分类图像 x(1)初始化层生成 S个大小的 H 个基本特征图(例如,图 1中 3个标度,s=1代表最低分辨率),对应于子网 h中尺度 s的基本特征可以表示为xs,h0;(2)子网 i(i初始值为 1)使用低层次的特征xi,i0进行分类;(3)如果子网 i中的分类器预测置信度(使用 softmax概率的最大值作为置信度度量)超过预先确定的阈值,则退出网络;(4)如果子网 i无法以高置信度获得分类结果,子网 i中的中间特征被依次融合到子网 i+1中;(5)使用较大特征(xi+1,i+10)的子网 i

22、+1进一步对样本 x进行分类;(6)如果中间子网的分类器预测置信度无法达到阈值,则返回步骤(3)直到分类器的预测置信度达到预先确定的阈值或者达到整个网络的最后一个分类器。输出:步骤(3)中的分类器预测结果。值得注意的是,即使是 MAFDNet通常也会由粗到细的处理输入图像,MAFDNet中的每个子网在正向传播期间仍会对特征进行下采样,直到达到最低分辨率(s=1),并且所有分类器仅在每个子网的最后几个卷积块之后添加。上述分辨率自适应过程符合图像识别的常规认知。即使仅提供低分辨率输入,也能以高置信度对具有代表性特征的简单样本进行正确分类。具有非典型特征的困难样本只能从基于高分辨率特征图中提取带有精

23、细细节的信息来正确分类。1.3网络细节1.3.1初始化层初始化层用于生成包含 S个尺度的 H 个基本特征,在图 1中其仅包含垂直连接,可以将其垂直布局视为一个微型 H 层卷积网络(H 为网络中基本特征的数量)。图 1显示了具有 3个尺度的 3个基本特征的 MAFDNet。具有最大比例的第一个基本特征是从常规卷积(此处的常规卷积层由一个瓶颈层和一图 1本文提出的 MAFDNet整体框架Fig.1Overall framework of the proposed MAFDNet1395数据采集与处理 Journal of Data Acquisition and Processing Vol.38

24、,No.6,2023个规则的卷积层组成。每一层由 BN 层、ReLU 层和 1 个卷积层组成。)产生的,而粗略特征是从以前的高分辨率特征中通过步长卷积(即步长为 2 的卷积)得到的。值得注意的是,这些基本特征的比例可以相同。例如,一个 MAFDNet 可以具有 3 个比例的 4 个基本特征,其中最后两个基本特征具有相同的分辨率。1.3.2不同尺度的子网因为初始化层生成 H 个基本特征,可将 MAFDNet分为 H 个子网络,这些子网络由不同的卷积块组成。除第一个子网外,每个子网都由其对应的基本特征图和上一层子网的中间特征图组成。子网 1处理最低分辨率的图像,输入为输入x1,10。子网 1中的密

25、集块有 t层,如图 2(a)所示。每个密集块中第 i层的输出x1,1i(i=1,2,t)也将传播到子网 2,以重用子网 1的特征。通常,可以将子网 1视为具有多个分类器的 DenseNet,从而处理分辨率最低的特征图。尺度为 s的子网 h(h 1)处理基本特征xs,h,并从子网(h-1)融合特征。同时在参考文献 20 在子网中添加了密集跳跃连接,就是把密集块看成一个整体,第一个卷积层的输出以及每个密集块的输出,都输入给之后的所有密集块。由于这样做,所有的特征都串联起来,这样直接输入全连接层会产生巨大的计算开销,因此添加了一个核大小为 11的卷积层来减小特征数量。将具有特征融合功能的密集块称为融

26、合块,如图 2(b,c)所示,假设子网(h-1)具有bh-1个块,则子网 h 中的前bh-1个块都将是融合块。图 2MAFDNet的卷积块:密集块和融合块Fig.2MAFDNet s convolution blocks:Dense block and fused blocks1396叶继华 等:MAFDNet:复杂环境下图像自适应分类新方法本文设计了两种不同的特征融合方法。一种保持输入图像的分辨率不变,如图 2(b)所示,而另一种则通过步长卷积减小特征图的大小,如图 2(c)所示。为了生成分辨率更高的新特征图作为输入,图 2(b)中的融合块首先生成带有常规卷积层的xs,hin。上一个子网的特

27、征尺度(s-1)由 UpConv层处理,该层由常规卷积层和上采样双线性插值组成,这样可以确保产生的特征具有相同的空间分辨率。然后,通过密集连接将所生成的特征融合在一起。如图 2(c)所示,具有下采样功能的融合块使用步长卷积层来降低该块末尾的空间分辨率。如蓝色虚线箭头所示,在合并操作之后,还会进行密集连接的连接。由于当前子网中的特征尺度减小了,因此前一个子网的特征将由常规卷积层进行处理以保持较低的分辨率,然后在图 2(c)的方框末尾通过拼接进行融合。尺度为 s的子网 h:对于具有bh块的子网,块 1到块 bh-1(bh-1bh)都是融合块,而其余的都是常规密集块。在正向传播过程中对特征图进行了

28、s次下采样,依次在 bh-s,bh-s+1,bh-1上进行。这样可以确保连接分类器每个子网的末尾特征具有最低的分辨率。与文献 1,6 中的架构设计相似,本文加入过渡层以进一步压缩每个子网中的特征图。过渡层的设计与文献 1,6 中的过渡层完全相同,由 11卷积操作以及 BN 层和 ReLU 层组成。过渡层进一步保证了 MAFDNet的计算效率。为简单起见,在图 1中省略了这些过渡层。每个分类器由两个卷积层、1个平均池化层和 1个线性层组成。分类器在不同子网的最后几个密集块中实现,fk()表示第 k个分类器。在单张图像的测试过程中,该图像依次通过每个子网络,直到耗尽预算并输出最新的预测。在多张图像

29、的测试过程中,如果一个分类器的预测置信度(本文使用 softmax概率的最大值作为置信度度量)超过预先确定的阈值,则退出网络。在训练前,先计算网络进入到第 k个分类器所需要的资源消耗Ck,本文用0 q 1表示一个图像达到退出网络的概率。假设在所有层中都有概率 p的可能退出网络,则图像在第 k个分类器处退出的概率为qk=z(1-q)k-1q(3)因为要保证所有层的退出概率之和为 1,故此处 z 是一个归一化常数,满足kp(qk)=1。在测试时,需要确保Dtest中所有样本的总消耗不超过预算 B,由此产生约束条件|Dtest|kqkCk B,在验证集上,由约束中的 q来确定阈值,以使大约|Dtes

30、t|qk数量的验证样本在第 k个分类器处退出。1.4损失函数本文的自适应损失函数 Loss由交叉熵损失LossCE、融合损失Lossfu和内容损失Losscontent组成。交叉熵损失LossCE用来训练分类器,融合损失Lossfu用来削弱不同子网融合带来的损失,使得不同子网的图像融合具有更完整的信息,内容损失Losscontent确保处理后的图像内容保持不变。1.4.1交叉熵损失在训练过程中,所有的分类器使用交叉熵损失函数L(fk),并且最小化权重累加损失,即LossCE=1|D|(x,y)DkwkL(fk)(4)式中:D代表训练集,wk 0表示第 k个分类器的权重。经验发现,对所有损失函数

31、使用相同的权重(即满足k:wk=1)效果更好。1.4.2融合损失值得注意的是,对图像进行不同层级之间的融合会造成原图像信息的部分损失。针对此问题,定1397数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023义了图像融合损失Lossfu。令fh为图像原始向量表示,fh为融合后的向量表示,则图像融合损失函数Lossfu可定义为Lossfu=0|fh-fh 112(fh-fh)21|fh-fh 22|fh-fh-1222|fh-fh 2(5)式中1、2为超参数。图像融合损失的原则为计算融合后的图像向量与融合前图像向量

32、间的信息损失,目的在于降低一部分融合损失的同时,保证融合图像在模型中的重要意义。所以,图像融合损失定义为当融合图像向量与融合前图像向量差异小于某一超参数时,损失为 0,当二者差异在两个超参数之间时,通过二次函数的形式缓慢降低误差,而对于二者差异过大,超过了2的情况,则采用线性的方式快速降低误差。通过图像融合损失,可以得到图像表示向量fh,有效地削弱了图像信息融合过程中损失带来的影响,模型可以更有效地对数据进行训练。1.4.3内容损失为了初始化层可以生成效果较好的不同分辨率的图像,加入内容损失函数Losscontent。Vj(Y)表示第 j层网络在处理图像 Y 时的激活情况,其形状为(Cj,Hj

33、,Wj)。使用 L2 损失的平方,根据图像的形状归一化,比较 ground truth图像 Y和预测图像Y的激活情况,即Lj=|Vj(Y)-Vj(Y)|22CjHjWj(6)n表示输入图像的数量,m表示初始化层网络的层数,内容损失Losscontent为Losscontent=1nj=1mnLj(7)将式(6)代入式(7)可得Losscontent=1nj=1mn|Vj(Y)-Vj(Y)|22CjHjWj(8)综上,本文的自适应损失函数可表示为Loss=LossCE+Lossfu+Losscontent(9)1.5分辨率和深度自适应本文提出的 MAFDNet可以同时实现 MSDNet 中采用的

34、深度 自 适 应 和 分 辨 率 自 适 应 的 思 想。图 3 说 明 了 MSDNet 和MAFDNet 的主要区别。在 MSDNet 中,分类器位于最低分辨率子网中,如果中间的预测置信度无法达到阈值,则将执行所有尺度的所有层。但是,在 MAFDNet中,具有最小尺度的密集块首先被激活,并且深度适应在单个尺度内进行。如果先前的子网无法做出可靠的预测,则输入样本将传播到下一个子网,并重复深度适应过程,直到预测的可信度大于阈值,或者达到整个网络的最后一个分类器。这样的自适应方案将分辨率和深度适应结合在一起,与 MSDNet相比有了显著改进。图 3MSDNet和 MAFDNetFig.3MSDN

35、et and MAFDNet1398叶继华 等:MAFDNet:复杂环境下图像自适应分类新方法2 实验和分析由于 CIFAR和 ImageNet数据集中的图像均包含简单样本和困难样本,本文在 CIFAR和 ImageNet数据集上进行了实验。CIFAR10和 CIFAR100这两个数据集都包含 50 000张训练图像和 10 000张测试图像,本文在训练集中拿出 5 000 张图像作为寻找最佳置信度阈值的验证集;ImageNet数据集包含120万张 1 000个类别的图像和 50 000张验证图像,本文使用数据集的原始验证集作为测试集,从训练集中选择 50 000张图像作为验证集。使用随机梯度

36、下降训练网络,动量梯度下降法是计算梯度的指数加权平均数,并利用该数值来更新参数值,与原始的梯度下降相比,不但能使用较大的学习率,其迭代次数也减少,神经网络模型中常用的动量值为 0.9,因此本文设置动量为 0.9。由于权重衰减率的大小直接影响了复杂模型损失函数的值,为防止过拟合,调节模型复杂度对损失函数的影响,设置权重衰减率为 110-4。对于 CIFAR 数据集,考虑到数据集的大小和图片的尺寸,设置批训练数量为 64,模型的初始学习率大小设定为 0.1,最大迭代次数为 300,在 150到 225次迭代时,学习率除以 10,参照 MSDNet的参数设置,设置网络的子网个数为 3,从低层次子网到

37、高层次子网的卷积块个数分别为 2、4和 6,特征图的尺度分别为 88、1616和 3232,通道个数分别为 64、32和 16,对于每个融合块,压缩系数为 0.25,这意味着新增通道中的 75%由当前的子网络产生,其余 25%由之前特征分辨率较低的子网络和当前子网络前面卷积层计算得到。通过以下两步来控制每个卷积块的层数:(1)每个卷积块的层数设置为 4;(2)每个卷积块的层数在之前卷积块层数的基础上加 2。ImageNet数据集也用相同的训练策略,批训练数量为 256,最大迭代次数为 90,在 30 到 60 次迭代时,学习率除以 10。参照 MSDNet的参数设置,设置网络的子网个数设置为

38、4,从低层次子网到高层次子网的卷积块个数分别为 2、4、6和 8,每个卷积块的层数为 8,特征图的尺度分别为 5656、112112、168168和 224224,通道个数分别为 128、64、64和 32,对于每个融合块,压缩系数为 0.25。本文参考文献 6,在 CIFAR 和 ImageNet数据集上使用标准数据增强方法。在 CIFAR10 和 CIFAR100 两个数据集上,先对图像每个边界进行 4 个像素的零填充,然后把图像随机裁剪为 3232 像素的大小。图像以 0.5的概率水平翻转,RGB 通道归一化通过减去相关的通道平均值然后除以其标准偏差的方式实现。在 ImageNet数据集

39、上,训练时本文参考文献 6 中训练的数据增强方案,测试时图像采取中心裁剪的方式裁剪为 224224像素的大小。2.1任意时间分类在任意时间分类中,存在一个可用于每个测试样本的计算资源 B,输入样本依次通过网络直到 B全部用完并且输出最接近的预测值。本文用浮点运算数(Floating point operations,FLOPs)衡量网络的计算资源。按照参考文献 6 中的设置,除了 MSDNet,还选取了几个效果不错的模型作为 Baseline,包括 ResNet和 DenseNet。表 1 显示了本文模型和其他 Baseline 的分类准确率。总体而言,MSDNet的效果明显优于 ResNet

40、和 DenseNet,而本文模型 MAFDNet更优于 MSDNet,特别在总体计算资源很低的时候。在 CIFAR10(CIFAR100)上,当 计 算 资 源 为 0.2108至 0.8108 FLOPs 时,MAFDNet 比DenseNet、ResNet和 MSDNet的准确率分别高 5%(9%10%)、3.6%6%(10%21%)和 1%(2%5%)左右。与 MSDNet相比,MAFDNet以较少的计算资源(0.2108FLOPs 左右)实现了更高的分类准确率。在 ImageNet 上,当计算资源为 0 至 2109 FLOPs 时,MAFDNet 准确率比 MSDNet 高 1%5%

41、。虽然最终的分类器准确率 MSDNet和 MAFDNet相差不多(75%左右),但是 MAFDNet比 MSDNet少了约 25%的计算资源。1399数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.6,2023可以观察到,在较少的计算资源下,MAFDNet达到了比 MSDNet、ResNet和 DenseNet更好的实验效果。这是因为模型的预测性能首先取决于第一层轻量级的网络,它可以很好地降低网络的计算资源。在所有数据集上,MAFDNet分类性能始终优于 ResNet,这符合子网 1专门用来识别简单样本的期望。因为子网

42、1直接在低分辨率的特征图上进行操作,避免了对高分辨率特征图进行卷积,第一个分类器从而获得较高的计算效率。因为子网 1被视作 MAFDNet中专门优化计算资源的轻量级模型,所以MAFDNet中早期的分类器在分类任务中显示了其优势。与重复计算相似低层次特征图的 MSDNet不同,MAFDNet将之前轻量级网络的特征图融合到大型网络中,从而充分获取之前的特征。当有更多的计算资源时,这种机制有效地提高了分类的准确率。2.2预算批分类在预算批分类中,在预先知道有限的计算资源 B 的情况下,模型需要先分类一个样本集Dtest=x1,x2,xM,预算批分类可能会花费少于 B/M 的计算资源用于简单样本分类,

43、同时,花费大于 B/M的计算资源用于困难样本分类,因此,当拥有多个测试样例,预算 B 就被认为是一个软约束。本文根据不同的计算消耗设置了一系列阈值,对于给定的输入图像,让它依次通过网络中的每个分类器,在分类器的输出置信度达到阈值时即退出网络,然后将该分类器的输出作为该图像的最终分类结果。在 CIFAR 和 ImageNet 数据集上,Baseline 采用 ResNet和 DenseNet。表 2 总结了实验的结果。本文选择在测试集的每个预算批分类上准确率最高的模型。在两个 CIFAR 数据集上的实验结果表明,MAFDNet在所有的计算资源下始终优于 DenseNet、ResNet和 MSDN

44、et。一般情况下,具有多尺度密集 连 接 结 构 的 网 络 在 相 同 计 算 资 源 条 件 下 比 其 他 模 型 的 准 确 率 更 高。对 于 少 计 算 资 源(0.2108FLOPs),在 CIFAR100上,本文模型仅使用 58%左右的计算资源即可达到 MSDNet在此计算资源下的分类准确率。在 CIFAR10和 CIFAR100数据集上,相比于 DenseNet和 ResNet,特别是在计算资源较少时,本文模型分类准确率遥遥领先。当计算资源为 0.1108至 0.3108 FLOPs 时,虽然本文模表 1不同模型在各数据集上任意时间分类的 top1准确率Table 1Top1

45、 accuracy for classification of different models at anytime on each dataset%数据集CIFAR10CIFAR100ImageNet计算资源/1080.20.40.40.60.60.80.81.01.01.21.21.40.20.40.40.60.60.80.81.01.01.21.21.40101020203030404050DenseNet84.584.587.887.889.991.257.257.257.261.461.461.467.267.270.154.054.062.162.166.566.566.571.

46、4ResNet85.385.389.790.191.291.845.047.847.861.461.463.763.763.76767.069.854.054.062.862.869.769.7MSDNet89.591.291.292.892.893.393.393.593.593.861.467.867.869.769.772.07273.873.874.05462.662.670.070.074.374.374.8MAFDNet91.592.292.293.193.193.393.393.493.493.766.468.768.772.072.072.272.273.854.067.467

47、.471.271.275.11400叶继华 等:MAFDNet:复杂环境下图像自适应分类新方法型和 MSDNet在 CIFAR10 上达到的性能相近,但是在 CIFAR100 数据集上中高计算资源区间(超过0.2108 FLOPs)时,MAFDNet 的分类准确率始终高于 MSDNet 1.5%左右。当计算资源高于 0.5108 FLOPs时本文模型的准确率可达 94.5%,高于其他 3个模型的准确率。在 ImageNet上,实验结果与在 CIFAR上类似。可以观察到 MAFDNet的实验效果一直优于 MSDNet,其 top1 准确率在计算资源为 1109、1.5109、2 109 FLOP

48、s 时分别高出 1.4%、1.6%和 1.5%。实验结果表明,随着计算资源的增加,MAFDNet比 MSDNet表现更好。在同样的计算资源下,本文模型比这些深度神经网络的分类准确率更高。在同样的分类准确率下,ResNet和 DenseNet相比,本文模型所消耗的的计算资源分别为其计算资源的 56%和 44%左右。所有的这些结果都表明本文模型性能的优越性。2.3消融实验不同模型在各数据集上任意时间分类和预算批分类的 top1 准确率分别如表 3 和表 4 所示,其中MAFDNetBF 为 MAFDNet 去除不同尺度之间的融合,MAFDNetNF 为 MAFDNet 去除相同尺度之间的融合。从表

49、 3、4可看出,任意时间分类和预算批分类两种情况下,MAFDNetBF 在计算资源较少(CIFAR10、CIFAR100和 ImageNet分别不高于 0.4108、0.4108和 1109 FLOPs)的时候,分类准确率与 MAFDNet相比并无太大的差异。这是因为较少的计算资源即可成功分类的一般为简单样本,其在低层次网络被成功分类的概率比较大,而第一层网络并没有融合到其他层的特征,所以 MAFDNetBF在少量计算资源时与 MAFDNet性能相近;在计算资源较多(CIFAR10、CIFAR100和 ImageNet分别高于0.4108、0.4108和 1109 FLOPs)时,此时分类样本

50、为困难样本的可能性较大,所以其在高层次网络被成功分类的概率比较大。由于 MAFDNet中来自先前低层次子网的粗略特征将被重用并融合到高层次表 2不同模型在各数据集上预算批分类的 top1准确率Table 2Top1 accuracy of budget batch classification for different models on each dataset%数据集CIFAR10CIFAR100ImageNet计算资源/1080.10.30.30.50.50.70.70.900.20.20.40.40.60.60.80.81.051010151520202525303035354040

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服