收藏 分销(赏)

变量选择结合模型更新以改进苹果的糖度检测.pdf

上传人:自信****多点 文档编号:521306 上传时间:2023-11-06 格式:PDF 页数:6 大小:4.04MB
下载 相关 举报
变量选择结合模型更新以改进苹果的糖度检测.pdf_第1页
第1页 / 共6页
变量选择结合模型更新以改进苹果的糖度检测.pdf_第2页
第2页 / 共6页
变量选择结合模型更新以改进苹果的糖度检测.pdf_第3页
第3页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第 47 卷 第 5 期2023 年 9 月激 光 技 术LASER TECHNOLOGYVol.47,No.5September,2023 文章编号:1001-3806(2023)05-0666-06变量选择结合模型更新以改进苹果的糖度检测姜小刚,姚金良,朱明旺,李 斌,廖 军,刘燕德,欧阳爱国(华东交通大学 智能机电装备创新研究院,南昌 330013)摘要:为了获得稳健的近红外光谱模型,采用变量选择结合模型更新的方法,以 240 个红富士苹果为对象,取得近红外漫透射光谱和糖度数据,建立偏最小二乘回归模型,对苹果糖度含量进行预测,并采用后向区间偏最小二乘法和竞争性自适应重加权算法,对建模变量

2、进行了选择,通过将新批次中的一些样品加入到旧批次中重新校准来实现模型更新。结果表明,变量选择可以提高模型性能,预测决定系数提高到 0.7915,预测均方根误差降低到 0.5810,预测偏差降至 0.2627;结合模型更新策略,可以进一步降低预测均方根误差和预测偏差;仅使用 20 个样品进行模型更新已经明显改善了模型性能,预测决定系数提高到 0.8506,预测均方根误差降到 0.4358,预测偏差降到 0.1045。这一结果对于多种水果建立稳健的近红外光谱模型是有帮助的。关键词:光谱学;后向区间偏最小二乘;竞争性自适应重加权;苹果;模型更新中图分类号:O657.3 文献标志码:A doi:10.

3、7510/jgjs.issn.1001-3806.2023.05.014Variable selection combined with model updating to improve soluble solids content detection in applesJIANG Xiaogang,YAO Jinliang,ZHU Mingwang,LI Bin,LIAO Jun,LIU Yande,OUYANG Aiguo(School of Intelligent Electromechanical Equipment Innovation Research Institute,Eas

4、t China Jiaotong University,Nanchang 330013,China)Abstract:In order to obtain a robust near infrared spectral model,a method based on variate selection and model updating was adopted.240 Red Fuji apples were used to obtain near infrared diffuse transmission spectra and soluble solids content data,an

5、d a partial least squares regression model was developed to predict apple soluble solids content.The modelling variates were selected by using backward interval partial least squares and competitive adaptive reweighting algorithms.The model was updated by adding some samples from the new batch to th

6、e old batch and recalibrating.The results indicate that the model performance can be improved by variable selection,with the prediction coefficient of determination increasing to 0.7915,the root mean square error of prediction decreasing to 0.5810 and the prediction bias decreasing to 0.2627.Combini

7、ng the model update strategy,the root mean square error of prediction and the prediction bias were further reduced.Model updating using only 20 samples has already led to a significant improvement in model performance,with the prediction coefficient of determination improving to 0.8506,the root mean

8、 square error of prediction decreasing to 0.4358 and the prediction bias decreasing to 0.1045,the result that is useful for robust near infrared spectroscopy modelling of a wide range of fruits.Key words:spectroscopy;backward interval partial least squares;competitive adaptive reweighted sampling;ap

9、ple;model update 基金项目:国家自然科学基金资助项目(31760344);江西省青年科学基金资助项目(20171BAB212021)作者简介:姜小刚(1985-),男,博士研究生,现主要从事农产品无损检测技术的研究。通讯联系人。E-mail:ouyang1968711 收稿日期:2022-08-09;收到修改稿日期:2022-10-25引 言苹果营养价值高且易吸收,被公认为是营养程度最高的水果之一1。在众多种植苹果的国家中,中国的产量和消费量均排在首位,消费者对苹果品质要求也日益增加。苹果的糖度含量(soluble solids content,SSC)(单位采用Brix,表示

10、每百克混合物中含糖多少克)是苹果品质的一个重要指标,为评价苹果口感和营养价值提供参考,并作为苹果成熟度判断的重要依据。检测苹果的 SSC 对于消费者挑选高品质的水果和种植者较为准确地把握采收时间具有指导作用2。目前,实 际 生 产 中 多 采 用 折 射 仪 来 获 取 水 果 的 第 47 卷 第 5 期姜小刚 变量选择结合模型更新以改进苹果的糖度检测SSC3-4,该方法的最大缺点就是有损检测,需要破坏被检测对象,很难满足生产需求。近红外光谱检测技术具有无损、无需预处理、分析迅速、污染程度低、价格低廉等诸多优点,成为了近年来的研究热点。目前已经有对苹果、脐橙、柑橘等5-7水果的研究报道。然而

11、,基于近红外光谱数据开发的模型通常仅适用于单个水果批次,在不同批次上测试时则表现不佳8。其性能不佳的一个原因可能是现有的模型不是最优的。由于近红外数据是多个重叠峰的混合,有时很难提取有用信息,可能会导致次优模型9。先进的变量选择方法是对偏最小二乘(partial least squares,PLS)模型的补充,以进一步优化基于 PLS 的模型10。变量选择能够剔除无用信息,提高运算速度,得到稳健性好的模型。在化学计量学领域,存在两种主要类型的变量选择方法,即波段选择和波长选择。波段选择方法在信号上选择最能预测响应变量的子区域,当数据具有连续变量时,如近红外光谱,基于波段的方法是有用的11。波长

12、选择方法利用各种变量搜索方式和评判变量权重的参数来获得最佳的子集。模型在应用于新批次时性能不佳,解决的方法之一是模型更新。模型更新方法是通过从新预测集选取有代表性的样品添加到原始校正集,并用于新批次的预测,可以使得更新后的模型具有更好的稳健性12。PEIRS 等人13将不同年份的苹果加入苹果 SSC 预测模型中,明显提高了模型的准确性,预测均方根误差(root mean square error of prediction,RMSEP)从 2.92降到了 0.95。LOUW 等人14发现加入多个品种的样本后,李子品质预测模型的通用性得到增强,总可溶性固形物的预测模型的决定系数 R2=0.959

13、,RMSEP 为0.453。TANG 等人15提出了基于主动学习的玉米种子纯度检测模型更新,结果表明,该方法提高了对新样品的预测精度。HUANG 等人16利用增量支持向量数据描述进行模型更新,在线更新最小二乘支持向量机(least squares-support vector machine,LS-SVM)模型,结果表明,高光谱成像结合模型更新能够有效鉴定不同年份种子。通常,模型更新会在减少偏差和误差方面改善模型性能。然而模型更新的主要缺点是它需要新的样本,此外,还不清楚模型更新需要多少新样本。本文作者提出一种苹果 SSC 预测模型优化策略。在开发稳健的模型时,首要目标应该是优化 PLS 模型

14、17,使其可以在不同批次上以可接受的性能使用,而不需要模型更新和额外的测量;其次,如果优化后的模型性能仍然较差,则应进行模型更新以提高模型性能。此外,本文中还探讨了模型更新和变量选择的结合,以确定执行模型更新所需的最小样品数量。1 材料与方法1.1 实验材料实验中所用苹果采摘于 6 个不同的红富士苹果农场,分别来自山东烟台、山东栖霞、甘肃静宁、陕西礼泉、陕西洛川和新疆阿克苏 6 个产地,每个产地选取40 个苹果,共计 240 个,并等分为两批。先采集第 1批苹果的数据,第 2 批苹果在冷库中储存一段时间后再进行测量。苹果送到实验室后,存放24 h,沿赤道部位在 4 等分处给每个样品的 4 个面

15、进行标号。采集标号处的光谱信息和 SSC 含量。1.2 光谱采集通过水果动态在线分选设备采集苹果的光谱18,设备结构如图 1 所示。由 10 个 100 W/12 V 的卤素灯列于两侧组成光源,采用 QE65Pro 型光谱仪(Ocean optics,USA),波长范围为 350 nm1150 nm,设计参数为:积分时间 100 ms,检测速率 0.5 m/s。水果被放置在果杯上,仪器内部卤素灯发出的光透过苹果样品,被果杯下部的光纤探头接收,苹果样品的内部信息被存储在计算机用于后续分析。图中,PLC(programmable logic controller)为可编程逻辑控制器。图 1 水果动

16、态在线分选设备Fig.1 Fruit dynamic online sorting equipment1.3 SSC 含量测定采集苹果样品的近红外光谱后,沿苹果的赤道切下 1 cm 厚的切片,随后根据标号将其分成 4 等份。使用折射式数字糖度计 PAL-1(ATAGO,Japan)测定提取的苹果汁 SSC 含量。重复测量 3 次取平均值作为 SSC含量真值。1.4 数据处理本文中利用 Unscrambler 软件对苹果光谱进行预处理,使用多元散射校正(multiplicative scatter correc-766激 光 技 术2023 年 9 月tion,MSC)和 Savitzky-Go

17、lay(S-G)卷积平滑消除颗粒分布不均匀及颗粒大小产生的散射影响并消除噪声,提高信噪比。从图 2 可以看出,光谱经预处理后不同样品间的光谱强度差别明显减小,消除其它背景的干扰。再使用偏最小二乘法建立苹果 SSC 检测模型。图 2 苹果漫透射光谱图Fig.2 Apple spectrum of diffuse transmission为提高模型运算速度和精度,进行光谱信息变量选择是十分必要的。使用后向区间偏最小二乘法(backward interval partial least squares,BIPLS)和竞争性自适应重加权算法(competitive adaptive reweighte

18、d sampling,CARS)筛选光谱变量,建立 PLS 模型。为提高模型在不同批次的苹果上的预测性能,对模型进行更新。模型的更新是通过将新批次中的一些样本加入到旧批次中并重新校准来实现的。采用Kennard-Stone(K-S)算法从新批次中分别挑选 5 个样品、10 个样品、15 个样品和 20 个样品进行模型更新。这样做是为了了解足够提高模型性能的最小样本数量。采用 RMSEP、预测决定系数 Rp2和偏差 B 等统计参数来评价模型的优劣。2 结果与分析2.1 样品化学指标统计结果表 1 中列出了两批苹果的 SSC 测量值。两批苹果的测量方法相同。第 1 批和第 2 批的 SSC 分别在

19、7.80 Brix15.10 Brix 和8.70 Brix16.10 Brix 范围内。第 1 批苹果作为校正集,第 2 批苹果作为预测集。表 1 苹果 SSC 统计结果Table 1 Statistical results of apple SSCbatchminimum/Brixmaximum/Brixaverage value/Brixstandard deviation17.8015.1012.591.3428.7016.1013.071.182.2 光谱特征分析由于样品对不同频率近红外光的选择性吸收,通过样品后的近红外光线在某些波长范围内会变弱,光谱前端(350 nm600 nm)

20、和后端(850 nm1150 nm)存在一些噪声信号,有效信息少,故将有效波长范围定为 600 nm850 nm。两批苹果的光谱相似,仅光谱强度存在差异;在 645 nm 处的波峰与果皮颜色有关,675 nm 处波谷受叶绿素的影响19,758 nm 处波谷受OH 伸缩振动的倍频吸收影响20。采用多元散射校正和 S-G 卷积平滑(平滑点数为 3)组合作为光谱预处理方法来消除其它背景的干扰。图 2a、图 2b 分别为两批苹果的原始漫透射光谱和预处理后的光谱图,预处理后的光谱消除了散射影响和噪声,光谱差异明显减小,减小外界信息的干扰。2.3 偏最小二乘回归分析在 600 nm 850 nm 范围内,

21、经过预处理后建立SSC 预测模型,结果见图 3。其中标准决定系数 Rc2和预测决定系数 Rp2分别为 0.8989 和 0.7151。与标准场方 根 误 差(root mean square error of criterion,RMSEC)相比,RMSEP 明显增加到 0.6281,且存在较大的预测偏差 0.3649,表明在第 1 批上训练的模型不适用于第 2 批。造成这种结果的原因可能是苹果保存时间的不同,导致其内部理化性质的改变。图 3 全光谱的 PLS 建模预测结果散点图Fig.3 Scatter plot of PLS modeling prediction results for

22、full spectrum2.4 使用 BIPLS 进行变量选择利用 BIPLS 将光谱波段划分为等间隔的子区间建立 PLS 回归模型,采用 10 25 个间隔数,选出RMSEC 值最小的子区间组合,表 2 为不同区间个数的866第 47 卷 第 5 期姜小刚 变量选择结合模型更新以改进苹果的糖度检测BIPLS 模型选取结果。当区间个数为 14 时,RMSEC最小。表 2 不同区间总数划分结果Table 2 Division results of the total number of different intervalsnumber of intervalsRMSECnumber of s

23、ubinterval combinationsnumber of variables100.46186334110.47379273120.47077194130.46737179140.44807166150.465612266160.45937145170.458410197180.457710184190.469115264200.453211183210.460315238220.464714211230.456516232240.453211152250.459011147 利用全部子区间建模,并根据表现依次去除较差子区间,由表 2 可知,RMSEC 最好为 0.4480,使用 7

24、个子区间建模。所选区间分别为第 3、4、8、9、11、13、14子区 间,对 应 波 长 区 间 为 637.1 nm 672.7 nm、727.6 nm762.8 nm、781.4 nm798.5 nm、817 nm850.2 nm 共计 166 个变量,对筛选的子区间变量建模,结果如图 4 所示。Rc2=0.8802,Rp2=0.7788,RMSEC 为 0.4649,RMSEP 为 0.5984,B=-0.3341。与未选择变量的 PLS 模型相比,Rp2增加,RMSEP 和 B降低,模型性能有所改善。图 4 BIPLS 模型的预测结果Fig.4 Prediction results o

25、f BIPLS model2.5 使用 CARS 进行变量选择图 5 显示了使用 CARS 进行变量选择过程。选择的变量数随着采样次数的增加逐渐减少,采样次数为 图 5 苹果样本 SSC 的 CARS 变量选择结果Fig.5 Selection results of CARS variables of SSC of apple samples36 时,RMSEC 值最小为 0.4113,对应的变量数为 55个,采样次数继续增加,RMSEC 随之增加。对筛选后的变量建模结果如图 6 所示。其 Rp2增加到 0.7915,RMSEP 减 少 到 0.5810,B 减 少 到0.2627。使用 CA

26、RS 进行变量选择剔除了光谱中的冗余信息,简化模型,提高了模型性能。图 6 基于 55 个 CARS 优选变量的 PLS 模型结果Fig.6 PLS model results based on 55 CARS preferred variables2.6 模型更新结合变量选择校准模型使用 K-S 算法从第 2 批苹果分别挑选出 5 个、10个、15 个、20 个苹果进行模型更新,模型更新总体上提高了 BIPLS 模型的性能,结果见表 3。随着更新样品数量的增加模型性能得到提高,用 20 个样品更新模型得到了最佳的性能。更新后的模型 Rp2从 0.7788 增 表 3 BIPLS 结合模型更新

27、的结果Table 3 Results of BIPLS combined with model updateBIPLSRp2RMSEPBno new sample0.77880.5984-0.38415 samples from batch 20.78090.56100.236810 samples from batch 20.79750.53330.177915 samples from batch 20.81310.50790.121820 samples from batch 20.81690.48660.1146966激 光 技 术2023 年 9 月加到 0.8169,RMSEP 从

28、 0.5984 降低到 0.4866,B 从-0.3841 降低到 0.1146。与 BIPLS 建模一样,CARS 建模更新后的模型的预测效果有所改善,如表 4 所示。用 20 个样品更新模型得到了最佳的性能。与未更新的糖度预测模型相比,Rp2从0.7915 增加到0.8506,RMSEP 从0.5810 降低到 0.4358,B 从 0.2627 降低到 0.1045。表 4 CARS 结合模型更新的结果Table 4 Results of CARS combined with model updateCARSRp2RMSEPBno new sample0.79150.58100.2627

29、5 samples from batch 20.83610.46720.182810 samples from batch 20.84570.45830.160215 samples from batch 20.85010.43580.115920 samples from batch 20.85060.43580.10453 结 论新鲜水果的近红外光谱模型在新一批水果中检测时缺乏稳健性。这个问题仍未有一个明确的解决方案。目前,变量选择的使用已经广泛应用于建立稳健的近红外光谱模型,在此基础上采用新样本更新模型,并结合变量选择,进一步提高了模型的性能。结果表明,在选定的区域或特定波长上开发的模型

30、可以提高模型的性能。此外,将与少量新样本的模型更新相结合,可以进一步降低 RMSEP 和偏差 B。对于单个批次的样本应通过变量选择优化模型,使其在不同批次上以可接受的性能使用,而不需要模型更新和额外的测量。如果变量选择不能提高模型在新批次上的性能,应使用新批次中的一些样本来更新模型以提高模型性能。本文中的结果表明,变量选择结合模型更新能够建立稳健的苹果近红外光谱模型,在不同批次使用时表现很好。与 BIPLS 方法相比,CARS 方法更能提高模型性能,将 Rp2增加到 0.7915,RMSEP 降至 0.5810,B 降至 0.2627。此外,基于 K-S算法更新后的模型相比于未更新前的模型性能

31、有了明显的提高,随着添加的样本数增多,更新后的模型对新样本的预测精度也逐渐提高,仅使用 20 个样品进行模型更新就极大地降低了 SSC 预测模型的 RMSEP 和 B。基于变量选择和模型更新改进苹果糖度预测模型具有可行性。本文作者所提出的方法可用于其它水果建立稳健的近红外光谱模型。参考文献1 FAN H A,XUE Sh L,DU N,et al.Research progress on nutritional value and processing technology of applepearJ.Food Research and Development,2020,41(22):205-

32、212(in Chinese).范昊安,薛淑龙,杜柠,等.苹果梨的营养价值及加工技术研究进展J.食品研究与开发,2020,41(22):205-212.2 LI L Sh,LIU Y D,HU J,et al.Application of near infrared nonde-structive testing technology in fruit maturity discriminationJ.Journal of East China Jiaotong University,2021,38(6):95-105(in Chi-nese).黎丽莎,刘燕德,胡军,等.近红外无损检测技术在水

33、果成熟度判别中的应用研究J.华东交通大学学报,2021,38(6):95-105.3 FAN S,GUO Z,ZHANG B,et al.Using Vis/NIR diffuse transmit-tance spectroscopy and multivariate analysis to predicate soluble solids content of appleJ.Food Analytical Methods,2016,9(5):1333-1343.4 ZHANG J L,XIN M,FAN L L,et al.Monitoring systems for skin flap

34、transplantation based on near infrared spectroscopyJ.Laser Technology,2020,44(1):91-95(in Chinese).张锦龙,辛明,樊琳琳,等.基于近红外光谱在皮瓣移植术后的监测系统J.激光技术,2020,44(1):91-95.5 SCHMUTZLER M,HUCK C W.Simultaneous detection of total an-tioxidant capacity and total soluble solids content by Fourier transform near-infrared

35、(FT-NIR)spectroscopy:A quick and sensitive method for on-site analyses of applesJ.Food Control,2016,66:27-37.6 LIU C,YANG S X,DENG L.Determination of internal qualities of Newhall navel oranges based on NIR spectroscopy using machine learningJ.Journal of Food Engineering,2015,161:16-23.7 SNCHEZ M T,

36、de la HABA M J,PEREZ-MARIN D.Internal and external quality assessment of mandarins on-tree and at harvest using a portable NIR spectrophotometer J.Computers and Electronics in Agriculture,2013,92:66-74.8 TEH S L,COGGINS J L,KOSTICK S A,et al.Location,year,and tree age impact NIR-based postharvest pr

37、ediction of dry matter con-centration for 58 apple accessionsJ.Postharvest Biology and Tech-nology,2020,166:111125.9 NRGAARD L,SAUDLAND A,WAGNER J,et al.Interval partial least-squares regression(iPLS):A comparative chemometric study with an example from near-infrared spectroscopyJ.Applied Spec-trosc

38、opy,2000,54(3):413-419.10 MEHMOOD T,SB S,LILAND K H.Comparison of variable se-lection methods in partial least squares regressionJ.Journal of Ch-emometrics,2020,34(6):e3226.11ZHANG L X,YANG C F,CHEN J,et al.Near-infrared detection method of soluble solids content in apple by BiPLS combined with SPAJ

39、.Journal of Tarim University,2021,33(4):78-86(in Chi-nese).张立欣,杨翠芳,陈杰,等.BiPLS 结合 SPA 对苹果可溶性固形物含量的近红外检测方法J.塔里木大学学报,2021,33(4):78-86.12 XU O,LIU J,FU Y,et al.Dual updating strategy for moving-win-dow partial least-squares based on model performance assessmentJ.Industrial&Engineering Chemistry Research

40、,2015,54(19):5273-5284.13 PEIRS A,TIRRY J,VERLINDEN B,et al.Effect of biological var-iability on the robustness of NIR models for soluble solids content of applesJ.Postharvest Biology and Technology,2003,28(2):269-280.076第 47 卷 第 5 期姜小刚 变量选择结合模型更新以改进苹果的糖度检测14 LOUW E D,THERON K I.Robust prediction mo

41、dels for quality pa-rameters in Japanese plums using NIR spectroscopyJ.Postharvest Biology and Technology,2010,58(3):176-184.15 TANG J Y,HUANG M,ZHU Q B.Purity detection model update of maize seeds based on active learningJ.Spectroscopy and Spectral Analysis,2015,35(8):2136-2140(in Chinese).唐金亚,黄敏,朱

42、启兵.基于主动学习的玉米种子纯度检测模型更新J.光谱学与光谱分析,2015,35(8):2136-2140.16 HUANG M,TANG J,YANG B,et al.Classification of maize seeds of different years based on hyperspectral imaging and model updatingJ.Computers and Electronics in Agriculture,2016,122:139-145.17 NASCIMENTO P A M,de CARVALHO L C,JUNIOR L C C,et al.Ro

43、bust PLS models for soluble solids content and firmness deter-mination in low chilling peach using near-infrared spectroscopy(NIR)J.Postharvest Biology and Technology,2016,111:345-351.18 LIU Y D,XU H,SUN X D,et al.Development of multi-cultivar u-niversal model for soluble solid content of apple onli

44、ne using near in-frared spectroscopyJ.Spectroscopy and Spectral Analysis,2020,40(3):922-928(in Chinese).刘燕德,徐海,孙旭东,等.不同品种苹果糖度近红外光谱在线检测通用模型研究J.光谱学与光谱分析,2020,40(3):922-928.19 ZUDE-SASSE M,TRUPPEL I,HEROLD B.An approach to non-destructive apple fruit chlorophyll determinationJ.Postharvest Bi-ology&Tech

45、nology,2002,25(2):123-133.20MCDEVITT R M,GAVIN A J,ANDRS S,et al.The ability of visible and near-infrared reflectance spectroscopy(NIRS)to predict the chemical composition of ground chicken carcasses and to discrim-inate between carcasses from different enotypesJ.Journal of Near Infrared Spectroscopy,2005,13:109-117.176

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服