1、2023年第35卷第2期1引言虽然大量文献表明中国农业数据的整理、发布和共享都还处于初级阶段1,但随着数据科学和计算机技术的深入发展,技术在数据管理上的应用更加广泛和深入。深度学习在文本数据识别和图像数据识别与分类方面都起到了重要作用,替代传统的机器学习方法,在大规模样本分析、识别与分类中,采用了无监督学习方法,本文结合大豆的图像数据识别与分类进行分析,通过案例分析,站在实验数据的图像数据采集视角,总结了大规模样本数据的农业科学数据采集与分类,从科学实验数据采集与分类的应用场景出发,展示了深度学习技术的应用进展。在过去的10年中,图像处理和计算机视觉方法已广泛用于植物病害的检测和分类。在国内方
2、面,学者们已经在植物表型数据处理方面发现了深度学习的成功应用,如翁杨等的基于深度学习的农业植物表型研究综述2,岑海燕等的深度学习在植物表型研究中的应用现状与展望3;同时,基于卷积神经网络的植物分类和品种识别也取得了一些研究成果,袁培森等基于卷积神经网络的菊花花型和品种识别4,吴剑涛等基于深深度学习在大豆叶片图像数据管理中的识别与分类研究陆丽娜1,2,于啸1,2*(1.山东理工大学 管理学院,淄博255000;2.山东理工大学 计算机科学与技术学院,淄博255049)摘要:目的/意义为了提高大豆叶片图像的分类精度与效率,进一步对大豆叶片图像进行存储与管理。方法/过程本文利用深度学习方法,针对肉眼
3、观察准确率较低且不同人群分类结果差异较大的大豆叶片图像数据提出了一种自动分类方法。本研究首先对大豆叶片进行 ROI 感兴趣区域划分,进而利用分水岭分割方法对大豆叶片进行提取,最后通过深度学习高效精确的实现了大豆叶片的分类识别。结果/结论通过分析大豆叶片形态图像特点后,基于深度学习开展了对大豆叶片形态的分类识别的研究,达到了较高的识别准确率。关键词:深度学习;农业科学数据;数据分类;图象识别中图分类号:G250.7文献标识码:A文章编号:1002-1248(2023)02-0087-08引用本文:陆丽娜,于啸.深度学习在大豆叶片图像数据管理中的识别与分类研究J.农业图书情报学报,2023,35(
4、2):87-94.收稿日期:2021-03-15基金项目:国家社会科学基金项目“大数据环境下农业科学数据监管机制构建研究”(18BTQ062);山东省自然科学基金资助项目“植物表型数据管理的多学科交叉理论、方法与应用研究”(ZR2022MG047)作者简介:陆丽娜(1977-),女,博士,副教授,研究方向为科学数据管理、管理科学与工程、信息系统与信息管理*通信作者:于啸(1976-),男,博士,副教授,研究方向为农业信息化、数据库管理、数据科学。Email:DOI:10.13998/ki.issn1002-1248.21-0188研究论文872023年第35卷第2期图1大豆叶片的4种形态Fig
5、.1 Four forms of soybean leaves (a)披针形(b)卵圆形(c)椭圆形(d)圆形度学习的遥感图像苹果树冠信息提取,避免了实地测量,而且允许种植者动态监测果园树木的生长情况5。国外方面,已经建立了很多类似的植物病害的检测的数据集,比如柑橘类水果,叶子和茎的图像数据集6、PlantVillage数据集、kaggle数据集等。同时,还有很多基于深度学习植物图像的分类研究:MAYRA等使用3D-CNN生成了整个研究区域的墙到墙树种地图,改进的树种分类可以有益于可持续林业和生物多样性保护7,MADS等以杂草分类为例,利用深度卷积神经网络对植物物种分类8。总之,深度学习在农业
6、科学数据管理的应用主要集中在大规模数据的植物及植物表型的图像识别与分类,农业的病虫害检测、农作物及杂草检测与分类、农作物的产量预测等研究中9。粮食作物中的病虫害和各种疾病严重影响主产,并给全球经济造成重大损失。粮食作物健康的监测和疾病的早期诊断是可持续农业的关键任务,现有的谷物植物病害自动检测和分类方法仍处于起步阶段。因此,新颖的全自动工具对于谷物植物中疾病的检测和分类过程必不可少10,11。本文以大豆的图像数据的识别为例,探讨深度学习方法是如何在大豆叶片图像数据管理实践中进行应用的。2基于深度学习的农业科学图像数据识别与分类2.1数据准备大豆叶片形态是大豆最重要的形态特征和生物学特征之一。正
7、确地采集大豆叶片图像数据,可以提高深度学习分类识别的准确率,提高大豆叶片形态识别模型的泛化能力。2.1.1大豆叶片数据特点大豆叶片形态以植株三出复叶中的顶小叶形状为准,分为披针、卵圆、椭圆和圆4种形态,如图1所示。数据主要具有以下特点。(1)不同形态差异小:大豆叶片形态的分类与特征差异较为明显的多种植物叶片之间的分类不同,不同大豆叶片形态之间差异较小,人为区分难度较高。(2)同种形态特征变化大:同一种类型的大豆叶片之间,形态特征变化较大,不具有典型性。(3)叶片弯曲不平整:大豆叶片大多蜷缩不平整,容易影响人们对叶片形态的判断。基于大豆叶片数据的特点,对于大豆叶片图像数据的分类识别,主要面临以下
8、困难。(1)数据图像易失真:目前,针对不同植物叶片的分类,大多是利用网上直接下载的数据集,虽然方便易用,但可能由于拍摄不能完全地垂直于叶片,导致大豆叶片形态产生非线性失真等问题。(2)目标容易被遮挡:由于很多大豆叶片生长于同一位置,所以在田间采集的大豆叶片经常会被不同的叶片所遮挡。(3)背景噪声影响大:直接将卷积神经网络用于不同植物叶片分类识别的处理方法虽然被广泛应用,但由于背景复杂,可能分类结果受背景噪声影响较大,只对单一数据集有效,不具备泛化能力。针对这些困难,本文利用图像处理技术对采集的DOI:10.13998/ki.issn1002-1248.21-0188研究论文882023年第35
9、卷第2期图2技术流程图Fig.2 Technical flow chart大豆叶片进行感兴趣区域划分,叶片提取和标准化等处理,从而避免图像非线性失真,目标被遮挡和背景噪声等问题的影响,使训练的卷积神经网络具有更强的泛化能力。2.1.2图像采集本文所使用的数据来自黑龙江省农业科学院大豆试验田中的大豆植株,在大豆盛花期,随机对来自不同大豆品种的植株中上部发育成熟的三出复叶进行采摘,以减少识别过程中不同品种之间大豆叶片形态的潜在差异,增加对不同种类大豆叶片形态识别的准确性。将采摘好的3 200组大豆叶片依次放置在封闭的暗箱中进行图像采集。然后利用基于标记的分水岭分割方法对采集好的大豆叶片图像进行分割
10、,每张分割好的大豆叶片图像包括三出复叶,利用基于标记的分水岭分割中创建的叶片掩模,使其只显示三出复叶中的顶小叶,将背景与其余叶片利用掩模覆盖变为黑色,最终得到3 200张单个大豆叶片图像。共分为4种类型:披针形,卵圆形,椭圆形和圆形。其中训练集与测试集按73的比例划分,即2 240张作为训练图片,960张作为测试图片。另外单独对训练集做数据增强,将训练集中的图像进行翻转和随机旋转,最终得到的训练集为15 680张大豆叶片图像。2.2实验方法本文利用制作的暗箱采集装置对大豆叶片进行集中采集,再利用图像处理技术对大豆叶片图像进行感兴趣区域划分,叶片提取等处理,最后利用深度学习对大豆叶片进行分类识别
11、。技术流程图如图2所示。2.2.1图像感兴趣区域划分OpenCV是由英特尔公司开发的,目前最常用的跨平台的计算机视觉库,可用于开发实时的图像处理、计算机视觉以及模式识别程序。因此本文利用OpenCV开源计算机视觉库对图像进行批量提取处理,对采集好的大豆叶片图像,进行灰度化处理以及高斯滤波处理,用以去除图像的噪声。然后进行二值化处理,得到二值图。最后利用轮廓检测,找到图像的最小外界四边形。根据最小外接四边形的4个顶点划分ROI感兴趣区域,去除暗箱中的背景对叶片分割的影响,得到提取好的叶片(图3)。2.2.2叶片提取利用基于标记的分水岭分割算法对大豆叶片图像进行提取,基于标记的分水岭分割算法是在传
12、统的分水岭分割算法的基础上,利用形态学变换确定要处理图3叶片图像提取过程Fig.3 Leaf image extraction process(a)原图(b)灰度化经过高斯滤波(c)二值化图像(d)轮廓最小外接四边形(e)裁切后图像陆丽娜,于啸深度学习在大豆叶片图像数据管理中的识别与分类研究892023年第35卷第2期的图像的前景和背景区域。首先将已经划分好感兴趣区域的大豆叶片图像看成拓扑平面,图像中每一点像素的灰度值表示该点的海拔高度,灰度值高的区域可以被看成是山峰,灰度值低的区域可以被看成是盆地。利用形态学变换中的开运算去除掉大豆叶片的根茎部分,通过腐蚀确定要处理的图像的前景区域,膨胀确定
13、图像背景区域,进而对各个前景和背景区域依次进行标记,并在每个标记下灌入不同颜色的水,随着水位的升高,水通过流动将逐渐填充满所有空盆地,而来自不同的标记下的不同颜色的水将被水坝隔开。使其已经确定的各个前景和背景区域分别成为一个整体,从而根据被水坝隔离的各个盆地的不同标记,将完整的大豆叶片分成3个单个的大豆叶片,并将大豆叶片三出复叶中的顶小叶单独显示出来,其他叶片同背景一起使用掩模覆盖掉。从而避免因传统分水岭分割算法对图像灰度值的细微变化而产生的过度分割(图4)。最后,利用OpenCV对分割好的大豆叶片图像进行轮廓检测,将检测到的轮廓边缘进行循环遍历,根据坐标筛选出轮廓边缘中最上,最下,最左,最右
14、点的坐标,分别向四周增加200像素值,最后以上下长度和左右长度中的最大值作为标准化后的图像长度和宽度,裁剪成正方形,并统一改为224224大小像素的图像,将其作为标准化后的图像输入深度学习进行训练,使其不受图像中前景位置的影响,提高训练的准确率和泛化能力。2.3特征提取与识别本文采用Densenet网络模型进行大豆叶片的深层特征提取与形态识别,DenseNet网络模型的特点是在保证网络中层与层之间最大程度的信息传输的前提下,直接将所有层连接起来,使网络的每一层都可以直接利用损失函数的梯度和最开始的输入信息,从而解决梯度消失现象,训练更深层的网络。简单讲,就是为了保证能够获得网络层之间的最大信息
15、,将所有层进行互相连接,每一层的输入来自前面所有层的输出,如图5所示。尽可能地对特征进行极致利用,从而达到更少的参数,就可以训练更深、更准确、更有效的卷积网络的效果。2.3.1网络模型结构DenseNet网络模型结构主要由4个Dense Block组成,每个Dense Block中,分别包含6个、12个、64个、48个Bottleneck层,其中每个Bottleneck层都具有相同的层结构,即BN-ReLU-Conv(1x1)-BN-ReLU-Conv(3x3),它可以使各个Dense Block内的特征的尺寸统一,避免连接中出现尺寸的问题。并且为了使其网络更窄,参数更少,每个Bottlene
16、ck层最后的输出特征都为48个,这也保证了特征更有效的传递和网络更容易训练。每个Dense Block之间的层,称为Transition层,主要完成卷积和池化的操作。其中,Transition层由 图4图像分割Fig.4 Image segmentation(a)分割好的完整大豆叶片(b)分割好的大豆三出复叶顶小叶图5 DenseNet网络特征传递连接图Fig.5 DenseNet network feature transfer connection diagramDOI:10.13998/ki.issn1002-1248.21-0188研究论文902023年第35卷第2期BN层、1x1卷积
17、层和2x2平均池化层组成,目的是,每个Dense Block结束后的输出信道个数很多,为了简化模型,需要用11的卷积核来降维,减小特征图的信道数量(图6)。2.3.2网络训练流程训练DenseNet对大豆叶片形态进行分类识别,首先要将处理好的224224大小的不同形态大豆叶片输入到DenseNet网络中,网络初始的卷积层有96个卷积,卷积核大小为7x7,步长为2,填充为3,然后进入BN层和卷积核大小为33,步长为2的最大池化层。输出的特征将会依次进入4个Dense Block中,每个Dense Block之间的由Transition层相连接。经过4个Dense Block后,最 后 进 入BN
18、层,然 后 展 开 成2 208维的全连接层,利用softmax将其分为披针,卵圆,椭圆和圆4类(图7)。2.4实验结果与分析2.4.1实验环境本文使用的计算机为Windows7的64位操作系统,处 理 器 为Intel Core i5-8400,显 卡 为GeForce GTX1070Ti,内存为8G。使用Visual Studio 2015作为开发环境和OpenCV开源计算机视觉库对采集的大豆叶片图像进行预处理。使用Pytorch框架,Jupyter Notebook开发环境和Python语言用于在计算机上训练DenseNet网络模型以及测试预测结果。其中,DenseNet采用ReLU激活
19、函数,ReLU激活函数具有收敛速度快和稀疏激活性的优点5。损失函数采用了Cross Entropy Loss函数。即交叉熵损失函数,交叉熵越小,证明计算出的非真实分布越接近真实分布。该函数可以为CNN网络训练提供更图6 DenseNet网络模型参数图Fig.6 DenseNet network model parameter diagram图7 DenseNet网络模型结构图Fig.7 DenseNet network model structure diagram陆丽娜,于啸深度学习在大豆叶片图像数据管理中的识别与分类研究912023年第35卷第2期为有效的惩罚目标函数,使得训练模型具有更好
20、的泛化能力。对DenseNet网络用Momentum优化函数进行训练。Momentum优化函数是依据物理学的势能与动能之间能量转换原理提出来的,当Momentum动量越大时,其转换为势能的能量也就越大,就越有可能摆脱局部凹域的束缚,进入全局凹域。Momentum动量主要用在权重更新的时候,可以让那些因学习率太大而来回摆动的参数,梯度能前后抵消,从而阻止发散。一般,神经网络在更新权值时,采用如下公式:w=w-dw,引入Momentum后,采用如下公式:v=muv-dww=w+v其中,v初始化为0,为学习率,mu是设定的一个超变量,本文设定为0.9。2.4.2评价标准针对大豆叶片形态的分类识别,本
21、文先选用传统机器学习方法中的最常用的支持向量机(SVM)和随机森林(RF)对大豆叶片形态进行识别,又在深度学习 中 选 用 经 典 的AlexNet网 络 和 目 前 最 为 流 行 的ResNet网络对大豆叶片形态进行识别。最后并将不同方法的识别准确率与本文采用的DenseNet网络进行对比分析。每种大豆叶片形态的准确率计算如公式所示。其中,式中pi为1表示准确识别出图像形态种类,否则记为0,M表示测试数据的数量。2.4.3不同算法识别结果对比与分析SVM与RF作为传统的机器学习算法,需要利用图像处理技术对大豆叶片进行特征提取,所以本文提取大豆叶片图像的形态特征,纹理特征和颜色特征共14种特
22、征作为SVM与RF的输入,其结果表明SVM与RF对大豆叶片形态的识别准确率低于本文使用的DenseNet网络。而后本文又利用AlexNet网络和ResNet网络对经过图像处理的分割好的大豆叶片顶小叶图像作为卷积神经网络的输入,其结果表明AlexNet网络和ResNet网络对大豆叶片形态的识别准确率依然低于本文使用的DenseNet网络。其中,本文使用的DenseNet网络识别精度结果如表1所示。表1结果表明,网络在4种不同大豆叶片的形态上,平均识别精度为0.94。试验表明网络能够满足实际使用要求。不同算法对大豆叶片形态的识别准确率如表2所示,其结果表明DenseNet网络模型对于大豆叶片形态的
23、分类识别相对于其他方法具有较好的效果。传统的机器学习算法由于需要对手动对大豆叶片的形态,纹理,颜色等特征进行提取,工作量大且特征提取困难。并且由于人为选择特征进行提取,受主观因素和自然环境影响较大,所以SVM与RF对大豆叶片形态的识别准确率较低。而AlexNet网络和ResNet网络虽然直接将图像作为输入,不受主观因素和自然环境影响,但相对于DenseNet网络模型,AlexNet网络由于使用Dropout正则化随机忽略一部分神经元,虽然避免了模型的过拟合,却也导致了一部分特征的丢失,所以对于比较易于分类的披针形有较好的识别能力,而对于其他3种形态则表现得不够理想。ResNet利用在前面的特征
24、层大豆叶片类型 平均识别精度 披针形 0.98 卵圆形 0.96 椭圆形 圆形 0.88 0.93 表1不同大豆叶片形状的识别精度Table 1 Recognition accuracy of different soybean leaf shapes识别准确率 方法名称 披针 卵圆 椭圆 圆 平均值 SVM AlexNet ResNet DenseNet 0.95 0.99 0.96 0.98 0.96 0.82 0.86 0.96 0.78 0.68 0.83 0.88 0.48 0.90 0.88 0.93 0.80 0.85 0.88 0.94 表2不同机器学习方法对大豆叶片形状的识别
25、精度比较Table 2 Comparison of the recognition accuracy of differentmachine learning methods for soybean leaf shapeDOI:10.13998/ki.issn1002-1248.21-0188研究论文922023年第35卷第2期表2不同机器学习方法对大豆叶片形状的识别精度比较Table 2 Comparison of the recognition accuracy of differentmachine learning methods for soybean leaf shape与后面的特
26、征层之间创建短连接。解决了深度学习网络越深,梯度消失现象越明显的问题,而DenseNet相对于ResNet选择直接将所有层连接起来,并通过在Dense Block的33卷积前面加入一个11的卷积,从而减少了输入的特征数量,既能降维减少计算量,又能融合各个通道的特征,使得网络更窄,参数更少,特征和梯度的传递更加有效,网络更加容易训练。3结语本文以黑龙江省农业科学院大豆试验田中的大豆植株豆叶片形态为例,对植物的叶片识别,疾病监测有可操作性,具有一定的推广作用,系统地阐述了利用深度学习对农业数据进行分类识别的全过程,通过分析大豆叶片形态图像特点后,基于深度学习开展了对大豆叶片形态的分类识别研究,我们
27、已经看到,深度学习技术已经取代了使用手工特征训练的浅层分类器。只要有足够的数据可用于培训,深度学习技术就能高度准确地识别大豆叶片。采用了DenseNet模型,它适合用于普通网络的模型,该模型的优点是具有最佳的性能和最少的存储要求,但缺点是培训时间比较长,达到了较高的识别准确率94%,并与其他图像识别方法进行对比分析,成功解决了传统方法在处理大豆叶片图像分类问题上耗时时间长,效率低下,且识别准确率不高等问题。可以满足农业图像数据分类的实际需要。未来的研究工作应努力收集范围广泛的大型且多样化的数据集发行以促进大豆叶片的识别研究,应侧重于开发可靠的背景去除技术以及合并其他形式的数据,提高大豆识别系统
28、的准确性和可靠性。参考文献:1姜恩波,李娜.中国开放政府农业数据分析与评价J.农业图书情报学报,2020,32(10):4-15.JIANG E B,LI N.Analysis and evaluation of Chinas open govern-ment agricultural dataJ.Journal of agricultural library and infor-mation,2020,32(10):4-15.2翁杨,曾睿,吴陈铭,等.基于深度学习的农业植物表型研究综述J.中国科学:生命科学,2019,49(6):698-716.WENG Y,ZENG R,WU C M,et
29、 al.A review of research on agri-cultural plant phenotypes based on deep learningJ.Science China:Life sciences,2019,49(6):698-716.3岑海燕,朱月明,孙大伟,等.深度学习在植物表型研究中的应用现状与展望J.农业工程学报,2020,36(9):1-16.CEN H Y,ZHU Y M,SUN D W,et al.Application status andprospects of deep learning in plant phenotype research J.T
30、ransac-tions of the Chinese society of agricultural engineering,2020,36(9):1-16.4袁培森,黎薇,任守纲,等.基于卷积神经网络的菊花花型和品种识别J.农业工程学报,2018,34(5):152-158.YUAN P S,LI W,REN S G,et al.Chrysanthemum flower type andvariety recognition based on convolutional neural networkJ.Trans-actions of the Chinese society of agri
31、cultural engineering,2018,34(5):152-158.5WU J T,YANG G,YANG H,et al.Extracting apple tree crown in-formation from remote imagery using deep learningJ.Computersand electronics in agriculture,2020,174:1-14.6RAUF H T,SALEEM B A,LALI M,et al.A citrus fruits and leavesdataset for detection and classifica
32、tion of citrus diseases through Q 5machine learningJ.Data in brief,2019,26:1-7.7MYR J,KESKI-SAARI S,KIVINEN S,et al.Tree species classifi-cation from airborne hyperspectral and LiDAR data using 3D con-volutional neural networksJ.Remote sensing of environment,2021,256:112322.8DYRMANN M,KARSTOFT H,MID
33、TIBY H S.Plant species classi-fication using deep convolutional neural networkJ.Biosystems en-gineering,2016,151:72-80.9吕盛坪,李灯辉,冼荣亨.深度学习在我国农业中的应用研究现状J.计算机工程与应用,2019,55(20):24-33,51.LV S P,LI D H,XIAN R H.The application research status ofdeep learning in agriculture in my countryJ.Computer engineeri
34、ngand applications,2019,55(20):24-33,51.10 Manavalan R.Automatic identification of diseases in grains cropsthrough computational approaches:A review J.Computers andelectronics in agriculture,2020,178:1-24.陆丽娜,于啸深度学习在大豆叶片图像数据管理中的识别与分类研究932023年第35卷第2期Recognition and Classification of Deep Learning in
35、Soybean LeafImage Data ManagementLU Lina1,2,YU Xiao1,2*(1.Business School,Shandong University of Technology,Zibo 255000;2.School of Computer Science and Technology,Shandong University of Technology,Zibo 255049)Abstract:Purpose/Significance We used to process soybean leaf data by looking at them and
36、process data manually,but this method isvery inefficient.In order to improve the classification accuracy and efficiency of soybean leaf images,further for storage and manage-ment of these images,we used the deep learning technique to make an in-depth study of text data and image data of soybean leav
37、es forthe image recognition and classification.The application of deep learning in agricultural data management mainly focuses on the imagerecognition and classification of plants and plant phenotypes in large-scale data,detection and classification of agricultural diseases andpests,detection and cl
38、assification of crops and weeds,and prediction of crop yield.Through case analysis,our sample data demonstratedthe application process of deep learning technology.Method/Process This paper systematically described the whole process of classifi-cation and recognition of agricultural data by using the
39、 deep learning technique.Through recognition and disease monitoring of plantleaves,the leaf morphology of soybean plants in the soybean experimental field of Heilongjiang Academy of Agricultural Sciences wastaken as an example.We analyzed the image features of soybean leaf morphology,and carried out
40、 the classification and recognition re-search of soybean leaf morphology based on deep learning.Deep learning techniques have replaced shallow classifiers that use manualfeature training and can identify soybean leaves with a high degree of accuracy as long as sufficient data are available for train
41、ing.Weadopted DenseNet model,which is suitable for common network model.The advantages of this model are that it has the best perfor-mance and the least storage requirements.First,we selected support vector machine(SVM)and random forest(RF)in traditional ma-chine learning methods to identify soybean
42、 leaf morphology.Second,AlexNet and ResNet were selected to identify soybean leaf mor-phology.Finally,the recognition accuracy of different methods were compared with the DenseNet network adopted in this paper.Re-sults/Conclusions Through the training of DenseNet model,the recognition accuracy of 94
43、%was achieved,which successfully solvedthe problems of long time,low efficiency and low recognition accuracy of traditional methods in processing image classification of soy-bean leaves,and could meet the actual needs of agricultural image data classification.Future research efforts will strive to c
44、ollect a widerange of large and diverse data sets to facilitate soybean leaf recognition,and focus on developing reliable background removal tech-niques and incorporating other forms of data to improve the accuracy and reliability of soybean leaf recognition systems.Keywords:deep learning;agricultur
45、al science data;data classification;image recognition11金瑛,叶飒,李洪磊.基于ResNet-50深度卷积网络的果树病害智能诊断模型研究J.农业图书情报学报,2021,33(4):58-67.JIN Y,YE S,LI H L.The intelligent diagnosis model of fruit treedisease based on resNet-50J.Journal of library and informationscience in agriculture,2021,33(4):58-67.DOI:10.13998/ki.issn1002-1248.21-0188研究论文94