收藏 分销(赏)

基于对比学习的多肉植物分类识别方法研究.pdf

上传人:自信****多点 文档编号:575698 上传时间:2024-01-02 格式:PDF 页数:9 大小:4.78MB
下载 相关 举报
基于对比学习的多肉植物分类识别方法研究.pdf_第1页
第1页 / 共9页
基于对比学习的多肉植物分类识别方法研究.pdf_第2页
第2页 / 共9页
基于对比学习的多肉植物分类识别方法研究.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、河南农业科学,2 0 2 3,52(7):154-16 2Journal of Henan Agricultural Sciencesdoi:10.15933/ki.1004-3268.2023.07.016基于对比学习的多肉植物分类识别方法研究封雨欣,梁少华,童浩(长江大学计算机科学学院,湖北荆州4340 2 3)摘要:针对多肉植物种类多,类内差异大、类间差异小,数据难收集,导致传统分类算法不能有效解决多肉植物图像分类的问题,提出一种基于对比学习的多肉植物图像分类网络CL_ConvNeXt。该网络以ConvNeXt为基础结构引入对比学习思想,在网络中间层添加非线性投影层(Projection

2、head)作为辅助分类器来帮助模型对浅层网络进行特征提取;在一个批处理中通过数据增强来构造正样本,将剩余样本看作负样本;将交叉熵损失函数和对比损失函数进行加权计算,重新设计新的损失函数计算方法,实现单阶段模型训练。训练时采用迁移学习将预训练权重迁移到模型中来提高模型训练时的收敛速度,通过优化各种策略和参数来进一步提升模型的识别准确率。结果表明,在自制的190 类多肉植物数据集中,在使用相同训练策略和环境配置的情况下,最终模型CL_ConvNeXt对多肉植物图像分类识别准确率达到了91.7 9%,较原ConvNeXt模型结构的识别准确率提升了12.2 4个百分点,对解决多肉植物图像分类识别问题有

3、较好的效果。关键词:多肉植物;图像分类;对比学习;ConvNeXt;投影层中图分类号:S126Research on Succulent Plant Classification and Recognition Method文献标志码:ABased on Contrastive Learning文章编号:10 0 4-32 6 8(2 0 2 3)0 7-0 154-0 9FENG Yuxin,LIANG Shaohua,TONG Hao(College of Computer Science and Technology,Yangtze University,Jingzhou 434023,

4、China)Abstract:In view of the large variety of succulents,the large intra-class differences and the smallinter-class differences,as well as the difficulty of data collection,traditional classification algorithmscannot effectively solve the problem of succulent plant image classification.This paper p

5、roposed acontrastive learning based succulent plant image classification network CL_ConvNeXt.The network wasbased on ConvNeXt structure and introduced the idea of contrastive learning.A non-linear projection layer(Projection head)was added in the middle layer of the network as an auxiliary classifie

6、r to help themodel extract features from the shallow network.In a batch,positive samples were constructed throughdata augmentation,and the remaining samples were considered as negative samples.The cross entropyloss function and the contrastive loss function were weighted to newly design loss functio

7、n calculationmethod,which could achieve one-stage model training.Transfer learning was used during training totransfer the pre-trained weights to the model to improve the convergence speed of the model,and variousstrategies and parameters were optimized to further improve the recognition accuracy of

8、 the model.Theexperimental results showed that on the self-made 190-class succulent plant dataset,under the same收稿日期:2 0 2 3-0 3-30基金项目:国家自然科学基金项目(6 2 0 0 6 0 2 8)作者简介:封雨欣(1999-),女,湖北十堰人,在读硕士研究生,研究方向:计算机视觉。E-mail:8 6 2 352 92 4q q.c o m通信作者:梁少华(196 5-),男,湖北荆州人,副教授,硕士,主要从事人工智能、石油软件开发等研究。E-mail:1998 5

9、46 6 q q.c o m第7 期training strategy and environment configuration,the recognition accuracy of the final modelCL_ConvNeXt for succulent plant image classification reached 91.79%,which was 12.24 percentagepoints higher than that of the original ConvNeXt model structure,showing good effect on solving t

10、heproblem of succulent plant image classification and recognition.Key words:Succulents;Image classification;Contrastive learning;ConvNeXt;Projection head据统计,目前有超过12 0 0 0 种多肉植物,隶属约8 0 科。但在国内的多肉植物市场中,供人们欣赏的作为盆栽类的多肉植物种类只有百余种。多肉植物的外观特征很难准确评估和描述,种类间存在的差异很小,肉眼很难进行分辨,只有少数植物学家和多肉植物从业者能够完全识别它们。由于多肉植物种类繁多,类与

11、类之间差异小,而类的内部由于生长周期、生长状态和环境的不同存在较大差异,这使得多肉植物的分类与其他分类任务相比更加复杂,属于细粒度分类问题。深度学习技术为解决多肉植物图像分类问题带来了新思路,不仅大大节省了时间和精力,更是将人工智能和农业科学相结合促进了现代农业的发展。在多肉植物图像分类技术研究中,刘俨娇2 提出的基于深度卷积网的多肉植物分类使用了包含10 个种类的多肉植物数据集和9个种类的生石花细粒度数据集,通过微调AlexNet,多肉植物和生石花的分类准确率分别达到了96.1%和8 8.1%。黄嘉宝等3提出的基于卷积神经网络的多肉植物细粒度图像分类使用了包含2 0 个种类的多肉植物数据集,

12、通过微调GoogLeNet,多肉植物的分类准确率达到了96.7%。上述多肉植物分类研究虽然能够有效提升分类准确率,但多肉植物数据集种类较少,只是简单对卷积网络进行微调,在多肉植物数据集种类扩充以及模型结构的改进方面仍有很大的进步空间。随着人工智能技术的飞速发展,卷积神经网络近年来被广泛用于解决图像分类任务,它具有良好的特征提取和映射能力,通过迭代运算来提高模型的泛化能力。DYRMANN等4设计了一个卷积神经网络,对2 2 种植物进行识别,识别准确率达到了86.2%。H U 等5 提出了一种多尺度融合卷积神经网络(MSF-CNN),对MalayaKewLeafi0数据集中的99种植物叶片和Lea

13、fSnap/7数据集中的18 4种植物叶片进行识别。李立鹏等8 使用迁移学习和残差网络对6 2 种野生植物进行识别,得到了8 5.6%的准确率。但是单纯的卷积神经网络在面对“类间差异小、类内差异大”这种细粒度分类时,往往很难捕捉到具有区分能力的关键局部信息。随着自监督学封雨欣等:基于对比学习的多肉植物分类识别方法研究155习领域中对比学习思想的提出,利用对比学习作为外部信息辅助细粒度图像分类也成为很多研究者的研究重点,涌现出了MoCo9、Si mCLR10 等一系列优秀的对比学习模型。MoCo和SimCLR都提出批大小设置的越大,越能获得更好的效果,这对计算机资源的需求很大,不利于实际应用。且

14、在解决固定下游任务时,仍需要采用“预训练一微调迁移下游任务”两阶段训练过程,造成一定资源的浪费。鉴于此,扩充多肉植物数据集种类,参考卷积神经网络的结构设计,融合了对比学习思想,提出一种基于对比学习的CL_ConvNeXt网络(ConvNeXtwithcontrastivelearning),以提高多肉植物图像的分类准确率,从而有效识别更多种类的多肉植物。1材料和方法1.1试验材料1.1.1多肉植物数据集数据集是自主采集的原创数据集,收集了网络上较为常见的19 0 种多肉植物的图片,每个种类包含6 0 18 0 张不等的图片,共有2 4440 张图片,以8:2 的比例划分训练集和验证集。部分种类

15、多肉植物图像如图1所示。多肉植物种类多、数据量少,类内差异大、类间差异小等问题是多肉植物识别的主要难点。图2 展示了多肉植物类内差异大、类间差异小的特点。1.1.2数据预处理数据增强可以有效解决数据不足引发的模型过拟合问题。数据增强可以让有限的数据产生更多的数据,增加训练样本的数量以及多样性,提升模型鲁棒性。常用的监督数据增强的方法包括裁剪、反转、对比度增强、平移、旋转、添加噪声等。所用数据集在使用普通数据增强的方法,比如中心裁剪、随机翻转、随机旋转、随机改变对比度之外,还增加了Cutout121和Mixupl1312种数据增强的方法。Cutout能更好地实现对遮挡数据的模拟,提高泛化能力。同

16、时能够让卷积神经网络更好地利用图像的全局信息,而不是依赖于小部分特定的视觉特征。Mixup作为常见的多样本数据增强方法,使用线性插值得到新样本数据,可以将不同类别之间的图像进行混合,从而扩充训练数据集。图3为多肉植物数据集的数据增强示例。156河南农业科学第52 卷(a)乒乓福娘(a)Cotyledon orbiculata“Oophylla(b)钱串(b)Crassulaperforate(c)鹿角海棠(c)AstridiavelutinaDinter&Schwantes图1部分种类多肉植物图像Fig.1 Images of some species of succulents(d)阿尔巴佳

17、人(d)Crassula alba(e)红唇(e)Echeveriabella(f)冰城寿(f)Haworthia八千代Sedum corynephyllum Sedum pachyphyllum(a)类间差异小(a)Small inter-class differences图2 多肉植物的识别难点Fig.2 Difficulties in identifying succulents乙女心观音莲Semperviwum tectorum(b)类内差异大(b)Large intra-class differences观音莲Sempervivum tectorum原图Original image1

18、.2试验方法1.2.1网络结构(CL_ConvNeXt网络以 ConvNeXt模型为主干网络。ConvNeXtli4是2 0 2 2 年提出的一款纯卷积神经网络。它以残差网络ResNet50l15I为基准模型,设计上参考了Transformer和Swin-Transformer的训练策略。在推理速度和准确率两方面都明显优于ResNet网络和Swin-Transformerl。CL_ConvNeXt将卷积网络与对比学习相融合,利用ConvNeXt模型的多路特征表示能力提取出不同抽象级别的特征,对比学习可以通过比较不同层之间的相似性和差异性,加强不同卷积层之间的交互,从而进一步提高模型的特征表示能

19、力和性能。一般来说,卷积神经网络的不同层倾向于学习不同层次的特征。通常,浅层学习诸如颜色和边缘等底层特征,而最后几层学习更多与任务相关的高级语义特征。对于细粒度图像分类任务来说,浅层网络学习到的特征同样需要关注。传统的卷积神经网络只对最后一层进行监督,然后将误差从最后一层传播到较浅的层,导致中间层优化困难,出现随机裁剪Random croppingFig.3 Example of data augmentation for the succulent dataset络模型的结构如图5所示。CL_ConvNeXt在解决多肉植物种类多、类间差异小、类内差异大的问题时,首先,不需要数据集具有详细特征

20、判别区域标签,简单的类别标签就可以获得不错的效果;其次,投影层(Projection head)的嵌入比较灵活,浅层嵌入如果效果好,就无需多层嵌入,避免资源浪费,也可以适应不同的任务需求;同时不需要复杂的网络结构,对不同卷积神经网络均有适用性。相较于SimCLR和MoCo需要先训练出通用大模型再进行fine-turn训练出分类器的方色彩抖动Color jitterRandom horizontal filp Random rotation图3多肉植物数据集的数据增强示例梯度消失的问题。对比学习作为一种表征学习方法,将其运用到网络中间层,学习数据增强的不变性,可以很好地对浅层网络特征进行提取,解

21、决了传统深度卷积网络容易出现的梯度传播不稳定和收敛过慢的问题。同时还可以带来一定的计算优势,由于中间层的特征维度相对较小,因此在进行特征投影时所需计算的参数数量也较小,可以减少计算量和模型参数,加速模型的训练和推理过程。图4为不同方法的基本结构对比,CL_ConvNeXt网随机翻转随机旋转剪切填充Cutout混合Mixup第7 期法,在解决多肉植物图像分类这个特定领域问题时有着不可取代的优势。不仅可以提取浅层网络特征,对全局和局部特征进行融合,而且重新设计了封雨欣等:基于对比学习的多肉植物分类识别方法研究入网络系统中部署非常有利。157损失函数的计算方法,可以实现单阶段模型训练。对计算机资源的

22、要求不高,对后续在移动设备或嵌LossBlockBlock深度卷积网络BlockBlockfcDeep convolutional networkProjectionBlockBlockContrastiveBlockBlockSimCLRheadlearning lossLossBlockProjectionheadConv2d 4x4stride 4LayerNormBlockProjectionheadContrastive learning lossBlockProjectionhead图4不同方法的基本结构对比Fig.4 The basic structure comparison

23、of different methodsConvNeXtx3Blockhead96x95x9S96x9Sx9S(dim-96)BlockProjectionhead3Projection(dim-96)CL_ConvNeXtDownsample3ConvNeXtBlock(dim=192)Projectionhead(dim=192)DownsampleGlobal Avg3FCLayerNormDownsampleX1ProjectionConvNeXtheadPool89LLLx9Block(dim=384)(dim=768)ConvNeXtBlock(dim=384)Downsample

24、Conv2d 1x1DepthwiseConv2d7x7stride 1,padding 3Layer NormXMXConvNeXtBlock1.2.2Projection head 结构高维特征映射到低维向量空间来增强特征表示,这个低维的向量空间通常被称为嵌入空间(Em b e d d i n g s p a c e),其中每个向量对应着1个样本的表示。在这个空间中,相似的样本会被映射到相似的位置,不相似的样本会被映射到不同的位置。Conv2d 1x1stride 1tumpxMxuGELU图5CL_ConvNeXt网络模型结构Fig.5CL_ConvNeXt network model

25、structureProjection head通过将stride 1Layer ScaleDrop Path这种低维的表示可以帮助模型更好地学习数据的结构和特征,从而提高模型的性能。通过只保留相关信息并消除不相关信息,Projectionhead有助于在不同任务中实现更好的泛化、高效的特征提取和稳定而健壮的模型性能。Projection head中的每个神经元可以看作是1个学到的特征。因此,可以通过Layer NormConv2d 1x1tumpxMxystride 1158分析每个神经元对应的权重来了解模型在学习哪些特征。对于多肉植物图像分类任务,可以通过分析投影层中的每个神经元对应的权重

26、,来了解模型是否学习到了图像的纹理、形状、颜色等特征。Projection head的结构对模型性能至关重要,常见的Projectionhead主要结构是1个包含隐藏层的多层感知机,一般添加在主干网络之后。在本方法中将Projectionhead作用于中间层,可以学习到浅层较为局部的特征,也可以学习到深层的全局特征,这些特征可以较好地融合全局和局部信息。为了使作用于中间层的Projection head能够更好地对多个不同深浅层的特征进行特征提取,通过添加卷积层来增加Projection head的复杂性,建立1个多层层级结构,使梯度传播过程更稳定、收敛速度更快。卷积层可以通过局部感受野、参数

27、共享等特性,通过在输入图像上滑动1个滤波器,提取图像中的更加高级的语义信息,从而使得Projectionhead可以学习到更加抽象和区分度更高的特征表示。并且通过参数共享可以大大减少网络参数数量,从而降低模型复杂度,避免过拟合。通过使用非线性激活函数(ReLU函数),以增强模型的非线性表达能力。此外,加入BatchNormalization(BN)这种正则化手段,以进一步提高模型的泛化能力和鲁棒性。图6 为Projection head结构图。Conv2dConv2dBNReLU图6 Projection head结构Fig.6 Projection head structure1.2.3损失

28、函数设计对比学习17 的核心思想是缩小正样本的距离,扩大负样本的距离,正、负样本的构造是计算对比损失的前提。本研究将1个批处理中的N个样本经过2 种数据增强得到2 N个样本,对于1个样本来说,其经过数据增强后得到的2 张图片互为1对正样本,同批次中其余2 N2 个样本均为负样本。使用余弦相似度计算2 个样本u、v 之间的距离,公式如下:河南农业科学以1对正例图像为例,其对比损失函数10 的计算公式如下:l.,=-log=1,h+i式中,zi,为1对正样本,zi互为负样本,是温度参数。假设每对正样本位置相邻,对批处理中的每1对图像做上述损失函数计算,最后对所有损失函数之和求均值,即为最终的损失函

29、数值,公式如下:(3)传统深度卷积网络18 通常只需要对最后1层计算损失然后向前反向传播,由于本研究在中间特征层引入了对比学习方法作为辅助分类器,所以对于损失函数需要重新设计。在每个特征提取阶段i,都要对辅助分类器C,计算对比损失。因此,一共有n个分类器。中间层的辅助分类器采用上述对比损失函数Lcontra,最终层分类器C,采用交叉熵119 损失函数LcE,是1个超参数,用来平衡2 个损失项。所得损失函数公式如下:L=Le(c.)Lom(C.,)1.2.4训练策略优化优化器选择AdamW(A d a mwith decoupled weight decay)201 优化器是Adam(A d a

30、 p t i v e m o m e n t e s t i m a t i o n)2 1l 的改进版本。AdamW是在Adam的基础上加入L2正则,并且采用计算整体损失函数的梯度来进行更新。AdamW优化器计算公式如下:m,=mt-I+(1 .)g.U,=,U-1+(1-2)g?m,=m,/(1-i),=D,/(1-:)m,0,=0,-1-*(/5,+8+入*0.1)式(5)中,m,计算的是t时刻的一阶动量,g,表示时刻梯度,为一阶矩阵指数衰减率。式(6)中,u,计算的是t时刻的二阶动量,g,表示时刻梯度,2为二阶矩阵指数衰减率。式(7)(8)中,m,和,分别是对一阶动量m,和二阶动量v,

31、的校正。式(9)中,第52 卷sim(u,u)(1)exp(sim(zi;z,)/t)(2)(4)(5)(6)(7)(8)(9)第7 期a是要更新的参数,为权重衰减因子,为学习率,是为了维持数值稳定性而添加的常数。学习率优化时采用了学习率预热(Warmup)2)和余弦下降(CosineAnnealingLR)23策略。由于神经网络刚开始训练时,模型的权重是随机初始化的,此时若选择一个较大的学习率,可能带来模型的振荡,选择学习率预热的训练方式,可以在开始训练的几个训练周期内设置较小学习率,在学习率预热阶段,模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练。这种方法有助于减缓模

32、型在初始阶段对小批量数据的提前过拟合现象,保持分布的平稳和模型深层的稳定性。当预热阶段结束后,选择采用余弦下降的方法来调整训练时的学习率。余弦下降调整学习率的原理公式如下:7.=+(nmx-mm)/1+cos-式(10)中,mm和nm分别表示学习率的最大值和最小值,T.表示当前执行了多少个训练周期,T,表示训练模型的训练周期总数。80.070.060.050.040.030.020.010.00.0020406080100120 140训练周期Epochs(a)数据增强前的训练准确率曲线(a)Training accuracy curve before data augmentationFig

33、.7 Comparison of results before and after data augmentation从图7 可以看出,未做数据增强的数据集进行训练时存在明显的过拟合现象。数据增强后的训练集进行训练时,一定程度上缓解了模型过拟合的问题,使模型获得了更好的泛化能力。并且经过140个轮次的训练,数据增强后模型的识别准确率仍然存在上升的趋势。相比原始数据集46.6 3%的识别准确率,数据增强后的训练效果显著提升,识别准确率提高了31.47 个百分点,达到了7 8.10%。说明数据增强能有效地提升多肉植物数据集的识别准确率。封雨欣等:基于对比学习的多肉植物分类识别方法研究试验环境及参数

34、设置GPU显卡为NVIDIAGeForceRTX3060,软件环境为Windows10,深度学习框架是Pytorch1.10。各参数的初始设置如下:(1)对训练样本进行数据增强时,Mixup的概率为0.2。(2)学习率预热阶段,学习率设为0.0 0 1,训练轮数设为2 0。(3)对整个模型进行微调训练的最大轮数设为30 0,批大小设为6 4,学习率为0.0 1,权重衰减为0.0 5,Dropout概率为0.5。(4)数据增强对比试验采用的基础结构是ConvNeXt-tiny,其他试验均采用ConvNeXt-base。2.2楼数据增强对比试验为了验证数据增强对多肉植物图像识别的影响,在没有对模型

35、微调和优化的情况下,都采用TcurT,TT一训练集准确率Training setaccuracy测试集准确率Test setaccuracy1592结果与分析2.1(10)ConvNeXt网络结构,分别在没有数据增强只做了尺寸归一化处理的数据集上和经过Cutout、M i x u p 数据增强处理的数据集上进行140 个轮次的训练。训练结果如图7 所示。80.070.060.050.040.030.020.0020406080100120140训练周期Epochs(b)数据增强后的训练准确率曲线(b)Training accuracy curve after data augmentation

36、图7 数据增强前后的结果对比为了进一步探究常见的几何变换、Cutout和Mixup3种数据增强方式对多肉植物识别的影响,分别采用不同的数据增强方法,进行了多次消融试验,结果如表1所示。从表1可以看出,仅仅采用几何变换这种数据增强方式,虽然可以提升模型的识别准确率,解决模型过拟合的问题,但远没有任意2种数据增强组合的方式效果好。综合来看,将3种数据增强方式组合起来使用,更适合多肉植物数据集的训练。一训练集准确率Trainingsetaccuracy一测试集准确率Test set accuracy160Tab.1 Training results of different data augment

37、ation数据增强方法损失函数值Data augmentation methodAccuracy几何变换67.35Geometrictransformation几何变换+CutoutGeometric transformation+Cutout几何变换+MixupGeometric transformation+MixupCutout+Mixup几何变换+Cutout+MixupGeometric transformation+Cutout+Mixup2.3不同方法对比试验为了验证CL_ConvNeXt在多肉植物数据集上的适用性,将目前热门网络结构,包括ResNet50、Vision-Tran

38、sformer24,Swin-Transforme 和 ConvNeXt,与CL_ConvNeXt对比,均采用迁移学习2 5、选择AdamW优化器、使用CosineAnnealingLR+Warmup的学习率优化策略、迭代30 0 次来进行训练。不同方法的训练结果如表2 所示。具体识别准确率随迭代次数的变化情况如图8 所示。从表2 可以看出,CL_ConvNeXt训练出的最终准确率分别比表2 不同方法训练结果对比Tab.2Comparison of training results of different模型Model准确率/%AccuracyResNet5055.85Vision-Tran

39、sformer66.55Swin-Transformer72.20ConvNeXt79.55CL_ConvNeXt91.7980.070.060.050.040.030.020.010.0050100150200250300训练周期Epochs图8 不同方法的识别准确率曲线Fig.8Recognition accuracy curve of different methods河南农业科学表1不同数据增强方式的训练结果ResNet50、Vi s i o n-T r a n s f o r m e r、Sw i n-T r a n s f o r m e r 和ConvNeXt高35.94、2 5

40、.2 4、19.59、12.2 4个百分点,损methods失函数值也是5种方法中最小的。从图8 可以看准确率/%出,CL_ConvNeXt的收敛速度快于ResNet50、LossVision-Transformer、Sw i n-T r a n s f o r m e r。1.26ConvNeXt的收敛速度略快于CL_ConvNeXt,但74.061.1877.740.9878.100.9878.680.96methods损失函数值Loss2.361.081.080.950.48-ResNet-50Vision-TransformerSwin-TransformerConvNeXt第52 卷

41、虽然CL_ConvNeXt趋于稳定后的准确率更高。说明CL_ConvNeXt在解决多肉植物分类问题时效果更好,更适合本研究所用多肉植物数据集的训练,进一步体现了将对比学习融入深度卷积网络的有效性。为了验证CL_ConvNeXt同经典对比学习模型相比的优势,将CL_ConvNeXt与MoCo、Si m CLR进行对比试验,批大小均设置为6 4。最终试验结果如表3所示。表3不同对比学习方法训练结果对比Tab.3(Comparison of training results ofdifferentcontrastive learning methods模型Model准确率/%AccuracyCL_C

42、onvNeXt91.79SimCLR39.15MoCo42.93从表3可以看出,相比于SimCLR和MoCo这2种批大小设置越大效果越好的模型来说,在同样设置批大小为6 4的情况下,CL_ConvNeXt网络在识别准确率和损失函数值两方面都远远优于SimCLR和MoCo。识别准确率比SimCLR和MoCo分别提升了52.64、48.8 6 个百分点。进一步说明CL_ConvNeXt能够降低对计算机资源的需求,更适合多肉植物图像的分类任务。为了验证本研究所用方法在其他深度卷积网络是否同样适用,分别以ResNet50和ResNet101为主干网络,融入本研究提到的对比学习方法,构建了CL_ResN

43、et50和CL_ResNet101,训练策略同上,最终结果如表4所示。具体识别准确率随迭代次数的变化情况如图9所示。表4不同模型训练结果对比Tab.4 Comparison of training results of different models模型ModelResNet50CL_ResNet50CL_ResNet101CL_ConvNeXt损失函数值Loss0.483.953.82准确率/%Accuracy损失函数值Loss55.852.3684.830.6685.640.6291.790.48第7 期90.080.070.060.050.0%/率聊40.030.020.010.005

44、0100150200250300训练周期Epochs图不不同模型的识别准确率曲线Fig.9 Recognition accuracy curves of different models从表4可以看出,相比于原始的ResNet50网络,CL_ResNet50识别准确率提高了2 8.98 个百分点,说明本研究的方法解决多肉植物图像分类问题的效果比较明显,在深度卷积网络中有一定的适用性。采用CL_ConvNeXt训练出来的最终准确率在CL_ResNet50的基础上提升了6.9 6 个百分点,在CL_ResNet101的基础上提升了6.15个百分点,最终的损失函数值也比CL_ResNet101低了0

45、.14。从图9可以看出,CL_ConvNeXt的收敛速度最快,且稳定后封雨欣等:基于对比学习的多肉植物分类识别方法研究出来的效果仍优于其他模型。2.4不同优化策略对比试验对不同数据集针对性地进行训练策略优化可以在一定程度上提高模型的训练精度,得到最优模-ResNet50型。为了验证不同优化策略对多肉植物图像识别一CL_ResNet50-CL_ResNet101-CL_ConvNeXt161的准确率也是最高的,由此可见,CL_ConvNeXt训练的影响,以CL_ConvNeXt网络为基准模型,对网络细节进行多方面优化,比如尝试增加Dropout模块2 6 、更改优化器、更改学习率策略等。每次训练

46、周期均为30 0,以验证集准确率的最大值为判断依据,得到的对比结果如表5所示。从表5可以看出,在增加了Dropout模块后,识别准确率提升了0.58 个百分点。将优化器从Adam换成AdamW后,无论是准确率还是损失函数值都较之前有了明显的进步,说明AdamW优化器在模型的泛化能力上优于Adam。在学习率优化策略的选择上可以看出,CosineAnnealingLR+Warmup的效果是最优的,最终模型的识别准确率达到了91.79%。增加Dropout模块,以AdamW为优化器,学习率策略更新为CosineAnnealingLR+Warmup,这种组合的训练策略更适合于本模型的训练。表5不同优化

47、策略训练结果对比Tab.5(Comparison of training results of different optimization strategies模型Model优化器OptimizerCL_ConvNeXtAdamCL_ConvNeXtAdamCL_ConvNeXtAdamWCL_ConvNeXtAdamWCL_ConvNeXtAdamW3结论与讨论本研究提出一种基于对比学习的ConvNeXt网络CL_ConvNeXt,用于多肉植物图像的分类识别。研究了多种数据增强方法、网络结构、优化策略对模型最终结果的影响。最终CL_ConvNeXt对190 种多肉植物分类识别准确率可达91

48、.7 9%。表明对比学习和卷积网络相融合的方法在解决多肉植物图像的分类识别问题时效果较好;3种数据增强方法组合使用能够减小模型的过拟合问题;增加Dropout模块、选择AdamW优化器、使用CosineAnnealingLR+Warmup的学习率优化策略都能在一定程度上提升模型性能。在未来的研究中,考虑引入注意力机制来优化模型结构,提高模型处理任务的效率和准确学习率策略Learning rate strategyCosineAnnealingLRCosineAnnealingLR+WarmupDropoutStepLR一StepLRStepLR准确率/%Accuracy83.9784.5586

49、.1289.0391.79率;考虑将CL_ConvNeXt在其他细粒度图像分类数据集(如 Oxford flower27、CU B2 0 0 2 8 St a n f o r d D o g 2)上进行试验,验证其在解决图像分类识别任务时是否具有通用性。参考文献:1谢维荪.多肉植物的新范围与新分类J.中国花卉盆景,2 0 12(6):14-15.XIE W S.New range and classification of succulents J.Chinese Flowers Bonsai,2012(6):14-15.2刘娇.基于深度卷积网的多肉植物图像分类技术研究D.大连:大连交通大学,

50、2 0 18.LIU Y J.Image classification of succulents based on deepconvolutional network D.Dalian:Dalian JiaotongUniversity,2018.3黄嘉宝,朱永华,周雾婷,等.基于卷积神经网络的多肉损失函数值Loss0.900.850.690.520.48162植物细粒度图像分类J.上海大学学报(自然科学版),2 0 2 0,2 6(2):2 8 3-2 91.HUANG J B,ZHU Y H,ZHOU J T,et al.Fine-grainedimage classification

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服