收藏 分销(赏)

基于多种机器学习算法预测广西蔗区甘蔗产量.pdf

上传人:自信****多点 文档编号:2345003 上传时间:2024-05-28 格式:PDF 页数:11 大小:1.84MB
下载 相关 举报
基于多种机器学习算法预测广西蔗区甘蔗产量.pdf_第1页
第1页 / 共11页
基于多种机器学习算法预测广西蔗区甘蔗产量.pdf_第2页
第2页 / 共11页
基于多种机器学习算法预测广西蔗区甘蔗产量.pdf_第3页
第3页 / 共11页
亲,该文档总共11页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、2023 年 6 月 第 5 卷 第 2 期Jun.2023 Vol.5,No.2智慧农业(中英文)Smart Agriculture基于多种机器学习算法预测广西蔗区甘蔗产量石杰锋1,黄为1,范协洋1,李修华1,2*,卢阳旭1,蒋柱辉3,王泽平4,罗维1,张木清2(1.广西大学 电气工程学院,广西南宁 530004;2.广西大学甘蔗生物学重点实验室,广西南宁 530004;3.广西糖业集团有限公司,广西南宁 530022;4.广西农业科学院甘蔗研究所,广西南宁 530007)摘要:目的目的/意义意义分析广西甘蔗主产区甘蔗产量与气象因素的关系,利用气象数据预测甘蔗产量,为糖厂及相关管理部门提供科

2、学的数据支撑。方法方法 选用20022019年广西五个不同地级市内蔗区的产量数据及14种逐日气象数据,将每年的各气象因子以78个逐月递增的连续时段的均值与产量进行相关性分析,根据敏感时段分析法确定关键气象因子,并分析各气象因子在敏感时段对产量的影响。分别利用BP神经网络(BP Neural Network,BPNN)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、长短期记忆网络(Long Short-Term Memory,LSTM)建立单蔗区产量预测模型,并采用以全生育期气象均值作为模型输入的方法进行对照实验。使用 HP 滤

3、波法(Hodrick Prescott Filter)分离出甘蔗气象产量,将 5 个蔗区的数据混合,分别利用 RF、SVM、BPNN和LSTM建立通用的多蔗区气象产量预测模型。结果和讨论结果和讨论对于单蔗区,敏感时段分析法的模型预测效果明显优于全生育期取气象均值的方法,LSTM模型对于上述两种数据处理方法的预测效果均明显优于目前广泛使用的BPNN、SVM、RF模型,敏感时段分析法的LSTM模型整体的均方根误差(Root Mean Square Error,RMSE)和平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)分别为10.34 t/ha和6.85

4、%,决定系数Rv2为0.8489。对于多蔗区,LSTM预测结果较差,RF、SVM及BPNN三种预测模型都取得了良好的效果,预测效果最好的BPNN模型的RMSE和MAPE分别为0.98 t/ha和9.59%,Rv2为0.965。结论结论通过敏感时段分析法筛选的关键气象因子与产量均呈显著相关,根据敏感时段能准确地分析各气象因子对产量的影响。使用LSTM模型预测单蔗区产量,使用BPNN模型预测多蔗区甘蔗气象产量的方法是可行的,且预测误差在可接受范围内。关键词:气象因子;HP滤波;甘蔗产量;BPNN模型;LSTM模型;机器学习中图分类号:S566.1;S126 文献标志码:A 文章编号:SA20230

5、4004引用格式:石杰锋,黄为,范协洋,李修华,卢阳旭,蒋柱辉,王泽平,罗维,张木清.基于多种机器学习算法预测广西蔗区甘蔗产量J.智慧农业(中英文),2023,5(2):82-92.DOI:10.12133/j.smartag.SA202304004SHI Jiefeng,HUANG Wei,FAN Xieyang,LI Xiuhua,LU Yangxu,JIANG Zhuhui,WANG Zeping,LUO Wei,ZHANG Muqing.Yield prediction models in Guangxi sugarcane planting regions based on mach

6、ine learning methodsJ.Smart Agriculture,2023,5(2):82-92.DOI:10.12133/j.smartag.SA202304004(in Chinese with English abstract)1 引 言区域作物产量预测对国家粮食安全评估尤为重要1,食糖是国家战略物资,其中87%的产量来自甘蔗,而广西的甘蔗产量位居全国首位,近年来约占全国总产量的70%2。对广西甘蔗进行大尺度的估产能为糖厂及相关管理部门提供科学的数据支撑。除土地生产力之外,大田作物产量的高低主要受施肥、灌溉、植保等人为管理因素(生产水平)及降雨、光照、风速等气候因素的制约。

7、地理和人为管理方式通常比较稳定,气候是影响产量的最不可控因素。近年来,越来越多的研究人员投入到基收稿日期:2023-04-08基金项目:广西科技重大专项(桂科AA22117004,桂科2018-266-Z01);国家自然科学基金项目(31760342)作者简介:石杰锋,研究方向为农业信息化。E-mail:*通信作者:李修华,博士,副教授,研究方向为作物检测和农业信息化。E-mail:石杰锋等:基于多种机器学习算法预测广西蔗区甘蔗产量Vol.5,No.2于气象数据的农作物产量预测研究中。高俊杰等3通过广东省肇庆市高要区多年的气象数据建立早稻的产量预测模型,模型平均准确率为80.23%。于珍珍等4

8、使用遗传算法优化神经网络来预测甘蔗产量,R2达到了0.842。陈上5利用陕西杨凌、合阳、长武等地区及各站点的多年历史气象数据建立玉米产量预测模型,整体预测结果趋近于实际产量(平均绝对相对误差 15%)。基于气象对产量进行预测的研究中,通常需要将产量分割为趋势产量与气象产量。趋势产量通常由地力、管理等因素决定,气象产量由气象决定。目前产量分离方法的研究主要以滑动平均法和Logistic拟合法为主。王二虎和宋晓6利用滑动平均的方法将花生气象产量和趋势产量进行分离处理,平均预测精度达到了91%。何虹等7利用五点二次平滑法对宁夏引黄灌区玉米的趋势产量与气候产量进行分离,其相对气候产量模型复相关系数均达

9、0.73以上。另外,气象数据因素多、数据量大,通常需要预处理来更有效地提取气象特征。顾雅文等8将阿克苏地区苹果进行月平均气象数据与气象产量进行相关性分析,确定敏感月份的气象特征来进行后续建模。何修君9将气象日、月、年数据分别与玉米产量进行相关性分析来选取气象特征,分别用三个时间维度数据训练玉米产量预测模型,实现日、月、年三种时间维度的产量预测。李严明10将小麦全生育期的气象数据取平均值后与气象产量进行相关性分析,提取得到敏感的气象特征进行建模。针对不同地区的作物产量预测,前人也对多种建模方法进行了尝试。Zhao等11使用作物机理和统计回归模型结合的方法来预测小麦产量,相关系数达到了 0.86。

10、Croci等12利用动静因子及物候的方法发布最佳预测时间,使用高斯过程回归对玉米产量进行预测,最佳性能归一化均方根误差(Normalized Root Mean Square Error,nRMSE)为 13.31%。Oikonomidis等13使用混合卷积神经网络-深度神经网络(Convolutional Neural Networks-Deep Neural Networks,CNN-DNN)模型在土豆公共数据集上进行预测,模型的预测拟合度为0.87。Di等14利用贝叶斯优化的长短时记忆模型预测冬小麦产量,优化后R2的最好效果为 0.80。Burdett和 Wellen15使用多种机器学习

11、方法分别对玉米和大豆产量进行预测,效果最好的为随机森林(Random Forest,RF)模型,R2分别为0.85和0.94。尽管前人在气象产量预测方面进行了大量的研究,但缺乏对于逐月分析气象对甘蔗产量的影响以及适应于多蔗区的产量预测模型的研究。本研究运用广西5个甘蔗主产区内蔗区20022019年的日值气象观测资料和甘蔗产量资料,以整年多个连续月份气象均值的数据与产量数据进行相关性分析,确定最优的敏感时段,分析关键气象因子在敏感时段对甘蔗产量的影响。将处理后的数据,利用长短期记忆网络(Long Short-Term Memory,LSTM)与BP 神经网络(BP Neural Network,

12、BPNN)、支持向量机(Support Vector Machine,SVM)、RF建立产量预测对比模型,实现单蔗区的产量预测。使用HP滤波法(Hodrick Prescott Filter)分离甘蔗产量,消除不同蔗区之间的差异,将广西5个蔗区数据混合,利用 BPNN、SVM、RF 建立通用的多蔗区气象产量预测模型,实现多蔗区的产量预测,旨在为广西甘蔗种植管理与相关政策制定提供科学的数据参考。2 材料与方法 2.1 数据来源研究区域为位于广西壮族自治区5个不同地级市的蔗区,面积在87018,500 ha之间。广西蔗区大部分属于亚热带季风气候,年平均气温 16.523.1,大于10的积温5000

13、8300,年降水量13002000 mm,日照时数 15001800 h,充足的降雨、日照,以及适宜的气温为甘蔗生长提供了良好的气象条件。各蔗区历年的产量数据由广西糖业集团有限公司(原广西农垦糖业集团)提供,包括20022019年共 18个榨季的各蔗区总产量(因保密要求不宜公开蔗区具体地级市名称)。各蔗区18年的产量数据统计表如表1所示。气象数据来自于国家气象科学数据中心(中国气象数据网,http:/)。选取了距离各蔗区直线距离最近的5个气象站点的20022019年的日值数据集,包含:208 时和 820 时降水量83Vol.5,No.2智慧农业(中英文)Smart Agriculture(2

14、0时至第二天20时降水量)、极大风速、平均气压、平均2 min风速、平均气温、平均水汽压、平均相对湿度、日照时数、最低气压、最低气温、最高气压、最高气温、最大风速、最小相对湿度等14个气象因素。各蔗区中心点与对应站点的直线距离均在40 km范围内。为提高降水量的空间分辨率,本研究还参考了Qu等16发表在Science Data Bank的19602020年中国1 km分辨率月降水数据集。2.2 数据预处理2.2.1产量数据预处理为了消除区域性差异,本研究针对多蔗区混合建模时,尝试从甘蔗视在产量分离出由气象因素影响的那部分产量波动,即气象产量。作物的产量受自然和社会等因素的综合影响。为更好地探究

15、各因素对产量的作用,通常将视在产量分解为趋势产量、气象产量和随机波动产量3个分量,如公式(1)所示17。Y=Yt+Yw+e(1)其中,Y为视在产量,t/ha;Yt为趋势产量,t/ha,由生产水平、土地生产力等因素所决定,具有长期趋势性;YW为气象产量,t/ha,由气象因素所决定;e为随机噪声。本研究采用HP滤波法18分离产量。假设 hi(i=1,2,n;n为样本容量)是一个长时间序列,包含长期趋势成分gi(本研究指甘蔗的趋势产量)以及短期波动成分ci(本研究指甘蔗的气象产量),如公式(2)所示。hi=gi+ci(2)HP滤波法的主要思想是使长时间序列上的长期趋势成分gi和视在产量序列hi之间偏

16、差的平方和H最小,如公式(3)所示。H=i=1n(hi-gi)2+i=1n(gi+1-gi)-(gi-gi-1)2(3)的取值没有特定的标准,针对不同的时间尺度(如年度、季度、月度等),其取值也有所不同。本研究根据甘蔗年产量数据特点,确定为10019。2.2.2气象数据处理为了论证本研究气象数据处理方法的科学性,针对单蔗区,使用处理后的气象数据与甘蔗实际产量数据建立产量预测模型,并与前人气象数据处理方法的预测结果进行对照。甘蔗作物生长期长达1214个月,其产量易受持续性的降雨、大风、低温等气象因素影响,且影响程度因不同生长期而异。前人研究大多以整个生育期内或特定时段的气象均值作为基本因子进行分

17、析,忽略了不同生长期对应的时段长短及主要影响因子具有差异的客观规律,如12个月的苗期需要适宜的水分,23个月的伸长期需要大量的水分,34个月的成熟期需要控制水分的过量摄入以免影响糖分的积累,生长期后期及成熟期间持续性大风和低温对产量会造成不良影响。为了寻找最优的时段,本研究采用敏感时段分析法,将甘蔗每年(112月)的气象数据以不同起始月份的按月递增的时间宽度构建了78个连续时段(如1月开始连续1个月、2个月,2月开始连续1个月、2个月,3月开始连续1个月、2个月,以此类推);然后分别计算不同时段下的气象均值 Sij_t(i,j=1,2,12;t=1,2,18;ij)。然后针对不同蔗区,分析18

18、年来不同时段的14种气象均值与甘蔗产量的相关性(公式4)。rij=|t=118(Sij_t-Sij_t)(Yt-Y)t=118(Sij_t-Sij_t)2t=118(Yt-Y)2|(4)其中,t表示年份;i、j表示月份;Sij_t为某气象因子第t年第i月到第j月的均值;rij为第i-j月下某气象因子均值与产量的相关系数,共78个。相关系数高说明该因素对甘蔗产量的影响大,可选为模型变量。2.2.3数据标准化气象数据指标多、量纲不一致,会对建模造成一定的影响。另外,本研究除了对单一蔗区进行产量预测,还将基于多个蔗区的混合数据构建通用的表1 各蔗区20022019年产量统计表Table 1 The

19、statistical information of sugarcane yields of different planting regions from 2002 to 2019产量/(tha-1)最大值最小值平均值蔗区1161.6054.5991.03蔗区291.0258.2872.24蔗区396.7251.7571.01蔗区496.6562.1778.47蔗区5126.8937.6066.2784石杰锋等:基于多种机器学习算法预测广西蔗区甘蔗产量Vol.5,No.2气象产量预测模型;而不同蔗区的产量差异明显,对建模也会造成影响。为了消除气象数据量纲差异及不同蔗区产量差异的影响,本研究将

20、气象数据和产量数据均进行了归一化处理。常用的归一化方法主要有线性函数归一化和零值归一化。考虑到甘蔗气象产量存在负值,使用线性函数归一化将气象数据与甘蔗产量数据缩放到-1,1,如公式(5)所示。Xt=2(X-Xmin)Xmax-Xmin-1(5)其中,Xt表示归一化后的结果;X表示原始数据;Xmax、Xmin分别代表原始数据中的最大、最小值。2.3 模型构建本研究采用了在产量预测中广泛使用的 RF、SVM及BPNN这3种较传统的算法以及LSTM这一深度学习算法分别建立了单蔗区的视在产量预测模型和多蔗区的气象产量预测模型。2.3.1BPNNBPNN 一般由输入层、隐藏层和输出层构成20。预测模型的

21、精度主要取决于隐藏层的结构,其层数经多次尝试后确定为1层。模型的输入层为经挑选得到的敏感时段的敏感气象因子作为模型的输入;隐藏层神经元个数通过试凑法确定;输出层节点数为1,即产量。为了避免模型过拟合,将模型训练迭代次数“epoch”设置为 200,“dropout”设置为 0.3,训练批次大小设置为 4。以蔗区 1 为例,其模型训练过程的损失如图 1 所示。可以看出,随着迭代次数的增加,训练集和验证集损失不断变小,模型整体不断收敛。2.3.2SVMSVM21产量预测模型的构建需要重点关注核函数的选取。本研究对训练数据分别采用线性核函数、多项式核函数与径向基核函数进行建模效果对比,最终选取径向基

22、核函数,该核函数能很好地对不同维度的数据进行非线性映射。其他参数选择了默认值。2.3.3RFRF预测模型的构建需要通过网格交叉搜索的方式遍历参数词典,以寻找最优参数22。参数“n_estimators”是 每 次 选 取 的 决 策 树 个 数,“max_depth”是 RF 的最大树深,“max_features”是划分决策树时考虑的最大特征数,各蔗区对应的最优训练参数如表2所示。2.3.4LSTMLSTM23预测模型含有1个输入层、1个隐含层及1个输出层,其中隐含层拥有25个神经元。模型的时间步长(Time Step)设置为3,训练迭代次数为40,批处理大小为2。3 结果与讨论 3.1 不

23、同蔗区的关键气象因子分析3.1.1气象因子间相关性分析将每年每个蔗区的14个气象因子在78个不同时段下的均值(共 1478个数据)与产量进行相关性分析。以蔗区1为例,部分具有代表性的气象因子之间以及他们与产量之间的相关系数热力图如图2所示(未显示时段信息)。如果气象因子之间的相关性太高说明自变量间存在较高的自相关,对建模不利;因此需要对相关性较高的多个气象因子图1 BPNN模型训练过程的损失变化(以蔗区1为例)Fig.1 The loss changes of the BPNN model(Planting Region 1)表2 各蔗区RF产量预测模型的最优训练参数Table 2 The o

24、ptimal training parameters of the BPNN model for each planting region.最优参数n_estimatorsmax_depthmax_features蔗区15314蔗区210514蔗区3554蔗区45117蔗区5107485Vol.5,No.2智慧农业(中英文)Smart Agriculture进行筛选,仅保留1个因子作为代表。经相关性分析对因子进行筛选,基本确定了若干个代表性因子,包括日照时数、平均2分钟风速、最大风速、最小相对湿度、平均水气压等。3.1.2关键气象因子及敏感时段分析根据前文的气象数据处理,最终确定与产量关系密切

25、且自相关性低的关键时段的敏感气象因子如表3所示。可以看出,不同蔗区的敏感气象因子以及关键时段均有较大差异。不同时段的气象因子在不同蔗区的相关性甚至相反,这主要是由于甘蔗部分丰欠气象指标跟甘蔗生理气象指标并不完全吻合导致的24。根据相关性结果分析,在分蘖期,日照时数与产量呈显著正相关,良好的光照可以促进分蘖,有利于甘蔗增产。在伸长期后期至成熟期,日照时数与产量呈显著负相关,该时期降水量较少,过于充足的光照容易导致甘蔗枯死,阻碍甘蔗增产。在幼苗期至分蘖期,甘蔗产量与最大风速呈显著负相关,甘蔗幼苗受最大风速影响容易发生折断,折断后严重影响后期生长而导致产量降低。在萌芽期和伸长期,平均水汽压与甘蔗产量

26、呈显著正相关。平均水汽压与降水量及各种温度、湿度均呈显著正相关,主要通过影响其他气象因素而影响甘蔗产量,是一个综合性气象指标,因此利用平均水汽压评估气象条件的好坏及粗略预估甘蔗产量的发展趋势具有一定意义。在萌芽期,最低气温与产量呈显著正相关,适宜的最低气温有利于种茎内酶活性的提高,加快萌芽。在幼苗期,平均气温与产量呈显著正相关,气温适当升高有利于幼苗生长。在伸长期和成熟期,最高气温、平均气温均与产量呈显著负相关,该时期光照充足,持续高温加剧了甘蔗枯死,使甘蔗减产。在伸长期,最低气温与产量呈显著负相关,该时期气温日较差小,不利于甘蔗光合作用及糖分的积累,导致减产,因此在该伸长期降低夜间环境温度有

27、利于增产。多种气象因素与各种气压之间呈显著正相关,但与产量呈显著负相关,主要影响时段为幼苗期,而气压对幼苗生长的作用是间接的,主要通过影响其他气象因子起作用,高压下不利于幼苗生长。在伸长期,降水量与产量呈极显著负相关,甘蔗主要通过根部吸收水分,该时段降水量过多会导致水淹蔗田,甘蔗根部长期缺氧会导致烂根死亡,因此降雨量较多应及时将水排出,防止甘蔗减产。在伸长期至成熟期,降水量与产量呈显著正相关,甘蔗在这两个时期对水的需求量很大,进一步说明该时期降水量不满足甘蔗生长的水分需求,增加该时段的降水量有利于甘蔗增产。在成熟期后期,最图2 20022019年蔗区1气象因子及产量的相关性热力图Fig.2 T

28、he correlation heat map of different meteorological factors and yields in Planting Region 1 in 2002 to 201986石杰锋等:基于多种机器学习算法预测广西蔗区甘蔗产量Vol.5,No.2小相对湿度与甘蔗产量呈显著正相关,该时期干旱也会导致甘蔗减产。平均相对湿度对产量的影响几乎贯穿甘蔗的整个生育期,与产量呈显著正相关,平均相对湿度主要受降雨量影响,增大降雨量,有利于甘蔗增产。由此可知,甘蔗在全生育期对水的需求量很大,但在某一时期降水量过多或过少都不利于甘蔗增产,因此适宜的降水对甘蔗生长尤为重要。

29、3.2 单蔗区实际产量建模将上述筛选得到的各蔗区关键时段的敏感气象因子和产量数据标准化,然后将 20022019年共18年的甘蔗产量数据按73的比例随机划分为训练集与测试集,再分别采用 BPNN、SVM、RF 以及LSTM方法构建各蔗区的视在产量预测模型,并进行对比。为反映本研究提出的敏感气象因子分析方法的有效性,特采用同样的模型算法基于李严明10所用的年均气象因子构建产量模型,并对比二者结果。3.2.1BPNN预测模型各蔗区的 BPNN 视在产量模型的预测结果如表4所示。基于本文分析所得关键时段敏感气象因子建立的BPNN模型整体上均明显优于对照方法。在5个蔗区中,蔗区4的预测结果最好,产量预

30、测值与实际值之间的均方根误差(Root Mean Square Error,RMSE)仅为 5.04 t/ha,平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)仅为5.62%;预测结果最差的为蔗区 1,RMSE 高达为24.34 t/ha。3.2.2SVM预测模型各蔗区的SVM视在产量模型的预测结果如表5所示。可以看出,基于本研究所提数据处理方法建立的SVM模型同样均明显优于对照方法。蔗区2和蔗区4的MAPE均在10%以内,整体上比BPNN模型精度略小,但效果提升不明显,且对蔗区1、蔗区5仍存在较大的预测误差。3.2.3RF预测模型各蔗区的 RF 视

31、在产量模型的预测结果如表 6表3 各蔗区筛选得到的敏感气象因子和关键时段Table 3 The sensitive meteorological factors and key time spans found for the five planting regions蔗区蔗区1蔗区2蔗区3蔗区4蔗区5气象因子日照时数平均2分钟风速最大风速最小相对湿度平均水气压平均水气压最低气温最低气压平均气温20时至第二天20时降水量20时至第二天20时降水量日照时数最低气温平均水气压最高气温最高气温平均气温20时至第二天20时降水量日照时数最低气温平均水气压平均相对湿度最低气压最高气压20时至第二天20时

32、降水量与产量的相关系数-0.766-0.617-0.5830.4730.4540.6630.648-0.6060.5960.5270.776-0.5550.5420.487-0.465-0.672-0.5700.6570.502-0.4480.8290.715-0.697-0.696-0.437影响时段1011月1011月45月11月6月23月23月3月24月8月89月89月3月3月811月812月712月312月5月8月68月210月23月23月67月表4 各蔗区BPNN模型的视在产量预测结果Table 4 The apparent yield prediction results of t

33、he BPNN models for each planting region蔗区蔗区1蔗区2蔗区3蔗区4蔗区5本研究方法RMSE/(tha-1)24.349.258.515.0411.37MAPE/%11.889.3710.055.6218.08对照方法RMSE/(tha-1)37.12514.14523.649.0217.67MAPE/%32.2918.1936.809.7129.7587Vol.5,No.2智慧农业(中英文)Smart Agriculture所示。由本研究所提气象因子分析方法构建的RF模型中,除了蔗区1和蔗区5外,其他蔗区均有较高精度,RMSE 最低为 3.5 t/ha,

34、最高为 7.33 t/ha,MAPE 在 3.98%7.48%之间。RF 模型整体优于SVM和BPNN模型,然而对蔗区1和蔗区5还是存在较大的预测误差,RMSE分别达到了31.83 t/ha和11.22 t/ha。与对照的数据处理方法相比,本研究方法同样具有显著优势。3.2.4LSTM预测模型LSTM 模型的视在产量预测结果如表 7 所示。由本研究所提气象因子分析方法构建的LSTM模型在5个蔗区均取得较好的结果,各蔗区的MAPE均在10%以内,整体精度相比于其他3种模型有较大提高。与对照方法相比,预测精度也有显著的提高。对照数据处理方法所训练的LSTM模型预测精度相比于其他三种模型精度也有明显

35、提高。可以看出,采用 LSTM 模型预测甘蔗产量的方法是最优的。3.2.5模型预测结果对比分析将基于同一种模型算法建立的各蔗区视在产量预测模型的测试集结果汇总,展示其预测值与实际值的散点图(图3),以评价各算法在不同蔗区上的整体预测效果。基于不同气象敏感因子提取方法的各模型在所有蔗区中的视在产量预测结果如表8所示。可以看出,经本文方法构建LSTM模型,其测试集的整体RMSE 和 MAPE 最低,分别为 10.34 t/ha 和 6.85%,甘蔗产量实际值与预测值之间的决定系数Rv2最高,达到了 0.8489,产量趋势比其他三个模型更为拟合。根据表1的各蔗区甘蔗产量统计数据可知,使用LSTM模型

36、预测甘蔗产量的方法其误差在可接受范围内。使用年均气象因子10构建的参照模型的预测精度明显更低。说明本文所提数据处理方法能明显提高甘蔗产量预测模型的精度。由对比结果可知,LSTM产量预测模型预测效果优于BPNN模型、SVM模型和RF模型。3.3 多蔗区气象产量建模为了实现大区域甘蔗产量预测,本研究使用HP滤波25分离得到各蔗区每年的气象产量,再将5个蔗区的数据混合,建立通用的气象产量预测模型。建模方法主要采用了 BPNN、SVM、RF 和LSTM,其结果如表9所示。可以看出,LSTM模型在多蔗区中的预测结果较差,其余三种预测模型都取得了良好的效果,Rv2均在0.94以上;BPNN模型的效果最好,

37、RMSE和MAPE最低,分别为0.98 t/ha和9.59%,Rv2最高,达到了0.965。本研究基于5个蔗区数据建立的多蔗区气象产量预测模型,采样了混合数据的方法,有效地扩充了数据集,明显地提升了模型预测效果。考虑到区表5 各蔗区SVM模型的视在产量预测结果Table 5 The apparent yield prediction results of the SVM models for each planting region蔗区蔗区1蔗区2蔗区3蔗区4蔗区5本研究方法RMSE/(tha-1)17.949.7111.019.4711.98MAPE/%8.7610.3414.136.921

38、9.99对照方法RMSE/(tha-1)33.2016.8818.7118.3616.86MAPE/%34.5716.6222.2714.1424.92表6 各蔗区RF模型的视在产量预测结果Table 6 The apparent yield prediction results of the RF models for each planting region蔗区蔗区1蔗区2蔗区3蔗区4蔗区5本文方法RMSE/(tha-1)31.837.335.413.5011.22MAPE/%13.037.486.203.9819.16对照方法RMSE/(tha-1)39.6211.5218.029.18

39、29.64MAPE/%37.8514.7721.5610.6134.74表7 各蔗区LSTM模型的实际产量预测结果Table 7 The overall yield prediction results of the LSTM models for each planting region蔗区蔗区1蔗区2蔗区3蔗区4蔗区5本文方法RMSE/(tha-1)19.968.145.962.605.22MAPE/%8.787.506.232.359.40对照方法RMSE/(tha-1)28.1513.5917.739.2915.23MAPE/%22.7215.8527.7010.6817.9088石杰

40、锋等:基于多种机器学习算法预测广西蔗区甘蔗产量Vol.5,No.2域性差异的影响,通过HP滤波分离出甘蔗气象产量,消除了由于不同蔗区的生产条件及社会经济等因素引起的差异,由此建立的通用模型更科学。本研究对气象数据的处理也具有科学性与独特性,由对比结果可知,基于计算后的气象数据与产量数据建立的通用模型,对多区域大范围甘蔗产量的预测是可行的。4 结 论根据敏感时段分析法,对 78个以月为单位的连续时段气象均值数据与产量进行相关性分析,得到广西5个蔗区的关键气象因子为日照时数、平均水气压、气压、温度、降水量;不同气象因子的关键时段不同,同一气象因子在不同时段与产量的相关性甚至相反,因此根据敏感时段分

41、析关键气象因子对产量的影响具有现实意义。由于不同模型的原理和特点不同,对不同数据集的表现不同,因此不表9 不同模型的气象产量预测结果对比Table 9 Meteorological yield prediction results comparison between different models模型SVMRFBPNNLSTMRMSE/(tha-1)1.291.040.980.25MAPE/%13.299.969.5939.99Rv20.9440.9570.9650.770(a)BPNN模型(c)RF模型(b)SVM模型(d)LSTM模型图3 基于同种算法的各蔗区预测模型的综合预测结果Fi

42、g.3 The comprehensive prediction results of all the regional-specific models based on same algorithm表8 不同模型甘蔗产量预测结果对比Table 8 Yield prediction result comparison between different models模型BPNNSVMRFLSTM本文方法RMSE/(tha-1)13.4512.4115.7110.34MAPE/%11.0112.039.976.85Rv20.71060.74790.62150.8489对照方法RMSE/(tha-

43、1)22.5022.0224.4511.99MAPE/%21.1522.5123.9014.63Rv20.45650.34250.39370.509989Vol.5,No.2智慧农业(中英文)Smart Agriculture同甘蔗产量模型的预测结果存在差异。单蔗区预测模型结果表明,基于本研究分析所得关键时段敏感气象因子的 BPNN、SVM、RF 以及LSTM四种模型的预测效果均明显优于参考文献10 的对照方法。LSTM 模型的整体 RMSE 和MAPE分别为10.34 t/ha和6.85%,Rv2为0.8489,预测效果要明显优于前人研究使用较多的其他三种模型。BPNN、SVM和RF三种预测

44、模型,整体精度较高的模型在部分蔗区的预测精度可能较低,但LSTM模型不仅整体预测效果最好,且对各个蔗区的MAPE均低于10%,因此使用LSTM模型预测各蔗区的产量是可行的。针对多蔗区,分别使用 SVM、RF、BPNN 以及LSTM四种模型预测混合样本的甘蔗气象产量,实现多蔗区气象产量的预测。结果表明,BPNN模型整体的RMSE和MAPE分别为0.98 t/ha、9.59%,Rv2为0.965,其预测效果优于SVM、RF以及LSTM模型,但除LSTM外其余三种模型都取得了良好的效果。LSTM不适用于多蔗区甘蔗产量联合预测。由此可见,经过本研究方法建立通用的多蔗区气象产量预测模型是可行的。对于单蔗

45、区和多蔗区的产量预测误差均在可接受范围内,本研究预测方法对区域内甘蔗产量预测具有一定的参考意义。利益冲突声明:本研究不存在研究者以及与公开研究成果有关的利益冲突。参考文献参考文献:1 李威,顾峰雪.区域作物产量的模型预测研究J.农业展望,2020,16(3):104-111.LI W,GU F X.Prediction of regional crop yield based on modelJ.Agricultural outlook,2020,16(3):104-111.2 农业农村部市场预警专家委员会.中国农业展望报告20192028M.北京:中国农业科学技术出版社,2019.Exper

46、t Committee on Market Warning of Ministry of Agriculture and Rural Affairs.China agricultural outlook 20192028M.Beijing:China Agricultural Science and Technology Press,2019.3 高俊杰,袁业溶,梁应.高要区早稻产量预测模型的建立J.广东气象,2022,44(2):50-52.GAO J J,YUAN Y R,LIANG Y.Establishment of early rice yield prediction model

47、in Gaoyao areaJ.Guangdong meteorology,2022,44(2):50-52.4 于珍珍,邹华芬,于德水,等.融合田间水热因子的甘蔗产量 GA-BP预测模型J.农业机械学报,2022,53(10):277-283.YU Z Z,ZOU H F,YU D S,et al.Sugarcane yield GA-BP prediction model incorporating field water and heat factorsJ.Transactions of the Chinese society for agricultural machinery,202

48、2,53(10):277-283.5 陈上.基于历史气象数据和CERES-maize模型的玉米产量预测及灌溉决策方法D.杨凌:西北农林科技大学,2017.CHEN S.Yield forecast and irrigation decision for maize based on historical weather data and the Ceres-maize modelD.Yangling:Northwest A&F University,2017.6 王二虎,宋晓.基于气象因子的开封市花生产量预测模型J.陕西农业科学,2012,58(4):31-33.WANG E H,SONG X

49、.Prediction model of peanut yield in Kaifeng city based on meteorological factorsJ.Shaanxi journal of agricultural sciences,2012,58(4):31-33.7 何虹,王巧娟,李亮,等.宁夏引黄灌区玉米趋势产量与气候产量分离方法研究J.灌溉排水学报,2022,41(4):30-39.HE H,WANG Q J,LI L,et al.Separating the effect of meteorology on maize yield from the impact of

50、other factors in the Yellow River-water irrigated regions in Ningxia of ChinaJ.Journal of irrigation and drainage,2022,41(4):30-39.8 顾雅文,姚艳丽,傅玮东.基于关键气象因子的阿克苏地区苹果产量预测模型J.新疆农业科技,2021(2):22-24.GU Y W,YAO Y L,FU W D.Prediction model of apple yield in Aksu region based on key meteorological factorsJ.Xinj

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 毕业论文/毕业设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服