收藏 分销(赏)

基于近红外光谱的棉花毛籽蛋白质和油分含量快速检测.pdf

上传人:自信****多点 文档编号:649343 上传时间:2024-01-23 格式:PDF 页数:9 大小:1.62MB
下载 相关 举报
基于近红外光谱的棉花毛籽蛋白质和油分含量快速检测.pdf_第1页
第1页 / 共9页
基于近红外光谱的棉花毛籽蛋白质和油分含量快速检测.pdf_第2页
第2页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、收稿日期院2023-03-06第一作者简介院马怡婷渊1997冤袁女袁硕士研究生袁遥*通信作者院基金项目院国家棉花产业体系岗位科学家渊CARS-15-27冤曰海南省重点研发专项渊ZDYF2021XDNY136冤曰江苏省作物协同创新中心基于近红外光谱的棉花毛籽蛋白质和油分含量快速检测马怡婷袁李鲁侨袁石钇琦袁尹红袁赵天伦袁陈进红袁祝水金*渊浙江大学农业与生物技术学院/浙江省作物种质资源重点实验室袁杭州 310058冤摘要院揖目的铱建立棉花毛籽蛋白质和油分含量的近红外检测校正模型遥 揖方法铱检测样本的蛋白质含量和油分含量袁根据光谱-理化值共生距离算法渊sample set partitioning b

2、ased on joint X-Y distance sampling,SPXY冤按照31 的比例将 426 个样本划分为包含 320 个样本的校正集和 106 个样本的预测集袁结合多元散射校正和一阶导数等光谱预处理方法对模型进行优化袁并采用线性偏最小二乘法渊partial least square method,PLS冤尧支持向量机渊support vector machine,SVM冤和随机森林渊random forest,RF冤3 种方法对比分析建立棉花毛籽蛋白质和油分含量的近红外快速测定模型袁以决定系数尧均方根误差和剩余预测偏差作为模型的评价指标遥揖结果铱SVM模型和 PLS 模型在校

3、正集的拟合效果较好袁决定系数均大于 0.8袁但对预测集的拟合决定系数不到 0.8袁说明模型均存在过拟合现象曰而 RF 模型在校正集和预测集的拟合效果都非常好袁决定系数均大于 0.9袁其中蛋白质含量预测模型的决定系数尧预测均方根误差和剩余预测偏差分别为 0.945 9尧0.935 2 和 4.539 1袁油分含量预测模型的决定系数尧预测均方根误差和剩余预测偏差分别为 0.909 7尧0.770 4 和 3.489 1遥 揖结论铱基于 RF 方法建立的预测模型能较好地应用于基于近红外光谱的棉花毛籽的蛋白质含量和油分含量检测袁并可代替化学测定方法遥 研究结果不仅为棉花种子品质育种尧棉籽加工生产和销售

4、中棉籽营养品质的快速尧无损评价奠定了基础袁并可为其他作物种子的无损分析提供技术借鉴遥关键词院近红外光谱曰棉花毛籽曰蛋白质曰油分曰随机森林模型Ma Yiting,Li Luqiao,Shi Yiqi,Yin Hong,Zhao Tianlun,Chen Jinhong,Zhu Shuijin*(310058)Objective This study aims to set up a near infrared spectrum(NIR)calibration model for the protein content and oilcontent in fuzz cottonseed.Metho

5、d In this study,the SPXY(sample set partitioning based on joint X-Y distance sampling)method was used to divide the 426 samples into 320 as calibration set and 106 as prediction set according to the ratio of 31,and the model was optimized by combining spectral pretreatment methods such as multiplica

6、tive scatter correction and firstderivative.Three methods,linear partial least square method(PLS),support vector machine(SVM),and random forest(RF)wereused to build the NIR rapid determination models of cotton seeds protein content and oil content.The coefficient ofdetermination(2),root mean square

7、error(RMSE),and residual prediction deviation(RPD)were used as the evaluation indexesof the models.Result The results showed that the SVM model and PLS model performed better in the calibration set with2more than 0.8,but with2less than 0.8 in the prediction set,indicating that the models were overfi

8、tting.While the RF modelwas very well trained on both the calibration set and prediction sets with2more than 0.9.The2,predicted RMSE,and RPD ofRF model were 0.945 9,0.935 2,and 4.539 1 for protein content,and 0.909 7,0.770 4,and 3.489 1 for oil content,respectively.Conclusion The prediction model ba

9、sed on RF method can be well applied to the NIR spectroscopy determination of proteincontent and oil content of fuzz cottonseed,which could replace the chemical method.The results of the study not only lay afoundation for the rapid and nondestructive evaluation of the nutritional quality of cotton s

10、eed for seed quality breeding,棉 花 学 报Cotton Science2023袁35渊3冤院211219https:/doi.org/10.11963/cs2023000835 卷棉花学报processingproduction and marketing,butalso provide technicalreferences forthe nondestructive analysis ofseeds ofother crops.near infrared spectrum;fuzz cottonseed;protein;oil;random forest m

11、odel棉花纤维是重要的纺织尧 医疗和军工原料袁棉花副产品也是重要的再生资源遥 棉籽是棉花生产中的重要副产物袁每生产1kg棉花纤维就会产生1.65 kg棉籽1遥 棉籽中含有大量的油和蛋白质袁分别占棉仁质量的27.83%45.6%和28.24%44.05%遥 因此袁棉籽是重要的植物蛋白资源和油料资源2遥棉籽蛋白约含90%球蛋白袁组成近似于豆类蛋白袁营养价值远高于谷物蛋白3遥 因棉籽中蛋白含量高袁浸提棉籽油后剩余的棉籽粕可用作动物的蛋白饲料袁 并广泛应用于食品和发酵行业4-5遥棉籽蛋白具有优良的成膜溶解性和热加工能力袁通过溶液浇注或热压成型方法可将其加工成生物降解塑料袁有巨大的利用潜力6-7遥 棉

12、籽仁中油分含量高袁提炼出来的棉籽油是重要的优质食用油之一袁 富含油酸和亚油酸等不饱和脂肪酸袁有助于降低血脂和血压8-9遥棉籽营养成分的分析对棉花育种尧生产以及棉籽产品加工均具有重要的指导意义遥 目前棉籽油分含量的测定主要采用索氏提取法和气相色谱法袁测定总蛋白质含量主要采用凯氏定氮法等化学检测方法10遥 传统的检测方法虽然精确度和灵敏度都较高袁但存在费时尧费力尧检测成本较高且损耗样品等问题遥 近红外光谱分析技术具有简单快速尧无污染尧低成本尧无损伤尧多指标等优点袁更适合于大规模样品的无损检测遥 该技术已广泛应用于农业尧医药尧食品尧林业和能源等领域11-12遥在棉籽营养品质性状研究中袁近红外光谱分析

13、技术也成功应用于水分尧棉酚尧植酸尧蛋白质尧油分尧氨基酸和脂肪酸含量的校正模型的构建遥汪旭升等13尧Quampah等14构建了棉仁粉油分含量的近红外光谱校正模型袁秦利等15建立了棉仁粉总蛋白含量的校正方程袁 均取得理想效果遥 然而袁这些研究都是基于棉仁粉的快速分析袁分析前需要经过硫酸脱绒尧剥壳尧研磨粉碎等处理遥 棉籽整粒的蛋白质和油分含量的近红外光谱分析检测也取得了长足进展袁韩智彪等16尧商连光等17建立棉籽油分含量近红外光谱无损检测分析模型袁徐鹏等18尧Huang等19和王庆康20建立的光籽油分和蛋白质含量的近红外光谱无损检测分析模型也达到了比较好的预测效果袁但均以硫酸脱绒后的光籽为对象遥 棉

14、籽硫酸脱绒成本高袁常影响种子生活力袁并易污染环境遥 因此袁建立棉花毛籽蛋白质尧油分含量的近红外光谱分析模型具有更重要的实践意义遥近红外光谱检测技术的核心是定量校正模型袁选择合适的建模方法能够很大程度地优化近红外光谱检测模型21遥 本研究分别采用支持向量机渊support vector machine,SVM冤23尧随机森林渊random forest,RF冤24和线性偏最小二乘法渊par-tial least square method,PLS冤253种建模方法建立蛋白质和油分含量的校正模型袁为棉花毛籽蛋白质和油分含量的估测提供一种快速尧 无损尧低成本的分析方法袁用于棉花毛籽品质的快速精确评价

15、袁为棉花种子品质育种研究尧棉籽营养成分评价技术优化和相关检测仪器设备的研发提供技术支持遥材料与方法试验材料2020年将本实验室多年自交保存的426份陆地棉品种资源种植在海南省三亚市崖州区袁以收获的成熟种子为试验材料遥 为保证样品的均一性和稳定性袁采用开水烫种法精选棉花毛籽遥 将毛籽用开水浸烫并搅拌1 min渊水温90 左右冤后袁加入3倍体积的凉水搅拌均匀渊最终水温40 左右冤袁 挑选深褐色和深棕红色的健籽于3840 烘干袁水分平衡2 d后袁放入密闭容器中备用遥近红外光谱采集利用NIRFlex-N500傅立叶变换近红外光谱仪渊瑞士步琦公司冤采集挑选的棉籽样品的光谱图袁采集光谱的波数范围为4 00

16、010 000 cm1袁每4 cm1采集反射强度渊reflection,R冤袁共计1 501个光谱点袁重复扫描64次后取平均值遥 每份棉籽样品分3次装入测量池中袁保证每次待测样品上样的紧实度相近袁扫描均在25 0.5 条件下进行遥 扫描后获取光谱数据袁计算每份样2123 期品的3次光谱数据的平均值袁并将反射强度转化为lg渊1/冤袁得到棉籽样品的原始光谱图遥样品蛋白质和油分含量参考值测定将上述完成光谱扫描后的样品袁进行浓硫酸脱绒袁水分平衡2 d后袁放入密闭容器中备用遥 利用FOSS多功能近红外分析仪NIRS DS 2500进行扫描袁 近红外光谱分析仪的采集波长范围为4002 500 nm袁本研究

17、采用的数据是波长11002 498 nm范围内光谱数据,数据间隔为2 nm袁测样方式为漫反射袁仪器类型为光栅扫描型遥 样品杯装满棉籽后袁用压块压实后进行扫描袁每个样品测定2次袁 扫描获得所有样品的近红外光谱遥得到的光谱数据经过预处理之后代入Huang等19建立的整粒棉籽渊光籽冤油分含量和蛋白质含量的近红外光谱校正模型袁得到蛋白质含量和油分含量袁作为参考值遥样品集划分采用光谱-理化值共生距离算法渊sample setpartitioning based on joint X-Y distance sampling,SPXY冤22按照31的比例将样品划分为包含320个样本的校正集和包含106个样本

18、的预测集遥SPXY算法是由Galvao等22首先提出的袁从经典的Kennard-Stone渊KS冤算法扩展而来袁SPXY将光谱和理化值特征参数一起考虑来计算样品之间的距离袁保证最大程度描述样本分布袁有效地覆盖多维向量空间袁增加样本间的差异性和代表性袁提高模型稳定性遥样品原始光谱预处理光谱预处理用Unscrambler V9.7渊CAMO袁挪威冤软件遥 用Savitzky-Golay渊SG冤平滑法尧一阶导数渊first derivative,1D冤尧二阶导数渊second deriva-tive,2D冤尧变量标准化渊standard normal variate,SNV冤尧 多元散射校正法 渊m

19、ultiplicative scattercorrection,MSC冤尧基准化渊baseline冤尧去趋势化渊detrend冤中的1种或几种结合的方法对原始光谱数据进行预处理袁以消除干扰信息遥建模方法及评价指标采用SVM尧RF和PLS 3种方法建立校正模型进行对比分析遥 采用Matlab R2021a软件进行近红外光谱校正模型的构建和检验遥通过预测决定系数渊coefficient of determina-tion,2冤尧 均方根误差 渊root mean square error,RMSE冤和剩余预测偏差渊residual prediction devia-tion,RPD冤评价模型遥 其

20、中袁预测决定系数和剩余预测偏差值越大袁均方根误差值越小袁模型的预测性能和稳健性越好遥RPD是预测集的样本标准差与均方根误差的比值遥未精选棉花毛籽的蛋白质含量和油分含量的近红外光谱分析选取1.1试验材料中的118份陆地棉材料袁手工去除杂质后渊即不进行开水烫种精选棉花毛籽冤 按照1.2的方法采集近红外光谱数据袁 利用1.4中的SPXY算法将118份材料按照31的比例划分为包含89个样本的校正集和包含29个样本的预测集袁 按照1.6的方法构建近红外光谱校正模型袁 与精选棉花毛籽的模型进行比较袁研究开水烫种精选棉花毛籽对蛋白质和油分含量近红外光谱快速分析的作用遥结果与分析棉花毛籽原始近红外光谱图分析对

21、426份棉花毛籽样品进行近红外光谱扫描袁得到原始光谱图渊图1冤遥 可以看出袁光谱曲线整体较为平滑均匀袁在400010000cm1全光谱范围内袁426份棉籽样品光谱的变化趋势基本保持一致袁在4 760 cm1尧5 200 cm1尧6 800 cm1和8 280cm1附近有明显的吸收峰遥 虽然在未经任何预处理的原始光谱中很难直接判断出光谱是否存在噪声信息袁但是可看出原始光谱中存在一图 1整粒棉花毛籽原始近红外光谱图Fig.1The original NIR spectra of the cottonseed马怡婷等院基于近红外光谱的棉花毛籽蛋白质和油分含量快速检测21335 卷棉花学报表 2不同预

22、处理后基于 PLS 建立的棉花毛籽蛋白质含量模型的参数Table 2Parameters of protein PLS model for fuzz cottonseed established by different pretreatment methodsSNV0.922 51.753 70.783 51.932 62.196 5SNV1D0.947 41.797 10.807 01.906 82.226 2SNV2D0.850 81.818 90.815 42.019 82.101 7SGSNV1D0.907 11.810 20.793 41.920 12.210 8MSC0.924

23、61.775 50.784 71.923 82.206 6MSC1D0.954 61.71800.821 51.826 02.324 8MSC2D0.829 51.848 90.810 62.019 82.101 7SGMSC1D0.916 31.771 30.801 71.931 72.197 5去趋势化 Detrend0.845 51.692 20.820 61.772 12.395 5基准化 Baseline0.831 01.719 10.838 71.807 22.348 9无预处理 None0.845 61.802 10.779 11.991 32.131 8预处理方法Pretrea

24、tment method校正集Calibration set预测集Prediction set决定系数2RMSE决定系数2RMSERPD注院SNV袁变量标准化曰1D袁一阶导数曰2D袁二阶导数曰SG袁Savitzky-Golay渊SG冤平滑法曰MSC袁多元散射校正法曰RMSE袁均方根误差曰RPD袁剩余预测偏差遥Note:SNV,standard normal variate;1D,first derivative;2D,second derivative;SG,Savitzky-Golay smoothing;MSC,mul-tiplicative scatter correction;RMSE

25、,root mean square error;RPD,residual prediction deviation.预测集样本的含量范围袁并且均存在较广泛的变异袁说明样品集划分合理袁有助于建立稳健可靠的预测模型遥光谱预处理效果对比针对光谱样本数据的消噪和基线校正需求袁分别采用SG平滑尧SNV尧MSC尧一阶导数尧二阶导数尧基准化和去趋势化等单独或组合共10种方法对光谱数据进行预处理袁并以PLS算法构建模型评价光谱预处理的效果结果见表2尧表3遥可见袁预处理可以消除光谱中部分无效信息袁使构建的校正模型参数较未处理的模型参数有不同程度提升袁 提高了模型的预测性能遥 其中袁经MSC1D预处理后构建的棉花

26、毛籽蛋白质含量校正模型和经MSC预处理后构定的基线漂移和基线偏移遥样本蛋白质和油分含量数据集适用性分析采用SPXY方法袁 分别以1.3检测的蛋白质含量或油分含量为变量袁近红外光谱值为变量袁将样本划分为包含320个样本的校正集和包含106个样本的预测集袁 校正集和预测集的蛋白质含量和油分含量的统计值如表1所示遥 可以看出袁棉花毛籽中蛋白质含量平均为44.616%袁变化范围为30.107%56.776%袁油分含量平均为32.399%袁变化范围为24.260%41.768%袁说明样本集中样品蛋白质和油分含量分布范围广遥 校正集样本的蛋白质含量和油分含量范围涵盖了表 1校正集和预测集的蛋白质含量和油分

27、含量的统计值Table 1Statistical values of protein contents and oil contents for both calibration and prediction sets组分Component数据集 Data set样品数量Samplenumber最小值Minimum/%最大值Maxi-mum/%平均值Mean/%标准偏差Standarddeviation/%变异系数Coefficient ofvariation/%蛋白质 Protein校正集 Calibration set32030.10756.77644.4655.03311.32预测集 P

28、rediction set10634.78054.56845.0694.2459.42总样品 All samples42630.10756.77644.6164.86210.87预测集 Prediction set10625.61239.15632.1232.6888.37总样品 All samples42624.26041.76832.3993.40310.49油分 Oil校正集 Calibration set32024.26041.76832.4913.60111.082143 期表 3不同预处理后基于 PLS 建立的棉花毛籽油分含量模型的参数Table 3Parameters of oi

29、l PLS model for fuzz cottonseed established by different pretreatment methodsSNV0.906 81.481 30.761 31.478 11.818 6SNV1D0.934 01.599 60.701 51.577 91.703 5SNV2D0.895 11.865 40.573 01.960 21.371 3SGSNV1D0.919 41.409 80.747 91.457 71.844 0MSC0.904 61.498 40.774 11.437 01.870 6MSC1D0.935 11.276 60.681

30、01.627 91.651 2MSC2D0.899 51.738 70.592 11.905 31.410 8SGMSC1D0.907 21.376 40.761 01.42361.888 2去趋势化 Detrend0.845 51.585 30.798 51.606 21.673 5基准化 Baseline0.831 01.543 90.808 31.612 31.667 2无预处理 None0.865 61.592 20.707 91.554 11.729 6预处理方法Pre-treatment method校正集Calibration set预测集Prediction set决定系数2R

31、MSE决定系数2RMSERPD注院SNV袁变量标准化曰1D袁一阶导数曰2D袁二阶导数曰SG袁Savitzky-Golay渊SG冤平滑法曰MSC袁多元散射校正法曰RMSE院均方根误差曰RPD院剩余预测偏差遥Note:SNV,standard normal variate;1D,first derivative;2D,second derivative;SG,Savitzky-Golay smoothing;MSC,mul-tiplicative scatter correction;RMSE,root mean square error;RPD,residual prediction devia

32、tion.建的棉花毛籽油分含量校正模型表现较好袁本研究中棉花毛籽蛋白质含量建模采用MSC1D预处理袁油分含量建模采用MSC预处理遥蛋白质和油分含量的不同建模方法性能比较结果利用SVM尧RF和PLS方法分别建立棉花毛籽蛋白质含量和油分含量的预测模型袁模型的相关评价指标见表4遥 在蛋白质含量和油分含量预测中袁PLS模型和SVM模型在校正集的拟合效果较好袁决定系数均大于0.8袁但是在预测集的拟合效果不理想袁都存在过拟合的现象曰RF模型在校正集和预测集的拟合效果都非常好袁决定系数均大于0.9袁预测集剩余预测偏差均大于3袁模型的泛化能力强遥 说明基于RF方法建立的预测模型能较好地应用于近红外光谱检测棉花

33、毛籽蛋白质含量和油分含量遥 基于近红外光谱利用RF法构建的棉花毛籽蛋白质含量和油分含量的校正模型的预测值与真实值之间的相关性如图2表 4棉花毛籽蛋白质含量和油分含量不同校正模型的评价指标比较Table 4Comparison of different models for protein content and oil content in cottonseed with fuzzSVM0.973 30.822 50.757 02.147 91.976 3RF0.934 71.115 20.945 90.935 24.539 1SVM0.857 11.329 00.780 81.408 71.

34、908 1RF0.906 60.919 70.909 70.770 43.489 1蛋白质 ProteinPLS0.924 61.775 50.784 71.923 82.206 6组分Component建模方法Model校正集Calibration set预测集Prediction set决定系数2RMSE决定系数2RMSERPD油分 OilPLS0.904 61.498 40.774 11.437 01.870 6注院PLS袁线性偏最小二乘法曰SVM袁支持向量机曰RF袁随机森林曰RMSE袁均方根误差曰RPD袁剩余预测偏差遥Note:PLS,partial least square meth

35、od;SVM,support vector machine曰RF,random forest;RMSE,root mean square error;RPD,residual prediction deviation.马怡婷等院基于近红外光谱的棉花毛籽蛋白质和油分含量快速检测21535 卷棉花学报表 5校正集和预测集的未精选棉花毛籽蛋白质和油分含量统计值Table 5Statistical values for protein content and oil content of unselected cottonseed with fuzz in the calibrationset and

36、 prediction set成分Component数据集Data set数量Number最小值Minimum/%最大值Maxi-mum/%平均值Mean/%标准偏差Standarddeviation/%变异系数Coefficient ofvariation/%蛋白质 Protein校正集 Calibration set8933.17156.77641.2313.9879.67预测集 Prediction set2934.78047.03840.7392.8156.91总样品 All samples11833.17156.77641.0973.7129.03预测集 Prediction set

37、2929.72739.15633.6932.2566.70总样品 All samples11826.13640.76933.6502.9238.68油分 Oil校正集 Calibration set8926.13640.76933.6363.1069.233袁可以看出袁大多数样本点均匀地分布在对角线上或两侧袁 说明该模型具有较好的预测效果袁可以替代传统的化学测定方法遥未精选棉花毛籽的蛋白质含量和油分含量的近红外光谱分析118份未精选棉花毛籽样品中蛋白质含量为33.171%56.776%袁平均为41.097%袁标准偏差为3.712%袁 变异系数为9.03%曰 油分含量为26.136%40.769

38、%袁平均为33.650%袁标准偏差为2.923%袁变异系数为8.68%遥 校正集样本的蛋白质含量尧 油分含量范围涵盖了预测集样本的含量范围袁样品集划分合理袁可以用来建立预测模型遥未精选棉花毛籽的蛋白质含量建模采用MSC1D预处理袁油分含量建模采用MSC预处理遥 将预处理后的光谱数据作为输入变量袁分别采用SVM尧RF和PLS方法建立的蛋白质含量和油分含量的模型评价指标见表6遥 相比精选棉花毛籽的建模结果袁 未精选棉花毛籽的建模效果大幅度下降袁其中蛋白质含量和油分含量的RF模型在预测集的决定系数分别下降了22.99%和25.52%遥说明开水烫种法精选对于毛籽蛋白质含量和油分含量的近红外光谱建模效果

39、有明显提升作用遥讨论轧花后的棉籽常带有短绒袁用浓硫酸脱去短绒的棉籽称为光籽袁剥去种壳后的棉仁磨成粉为棉仁粉遥 传统的检测方法是对棉仁粉进行化学测定袁其中蛋白质含量测定采用凯氏定氮法袁油分图 2基于 RF 模型的棉籽蛋白质含量的预测值与参考值的相关性Fig.2The correlation between predicted value ofRF model and reference value of protein contentin cottonseed图 3基于 RF 模型的棉籽油分含量的预测值与参考值的相关性Fig.3The correlation between predicted

40、value of RFmodel and reference value of oil content in cottonseed2163 期含量测定采用索氏抽提法袁 这些方法测定时间长袁对仪器设备要求高袁测定成本高袁且会破坏样本尧无法再用于其他研究袁特别是棉花育种相关研究遥 近红外光谱技术已普遍应用于多种作物种子相关性状的快速测定26-30袁在棉籽中成功地实现了棉仁粉和光籽的营养成分含量建模和测定15-20遥 然而袁无损的光籽也需进行浓硫酸脱绒处理袁而棉籽脱绒费时费力袁容易污染环境袁且可能影响种子活力遥 因此袁基于近红外光谱无损快速地检测棉花毛籽的营养品质更具有实用价值遥近红外光谱建模的基础

41、是样本的实际含量遥黄庄荣10建立的光籽蛋白质和油分含量快速测定法袁其近红外光谱校正模型中预测集的决定系数分别为0.959和0.950袁 剩余预测偏差分别为4.871和4.429袁预测精度高尧稳定性好袁完全可以代替化学方法测定的蛋白质和油分含量遥本研究采用Huang等19的方法对棉花选光籽样本进行测定袁蛋白质含量为30.107%56.776%袁平均为44.616%曰油分含量为24.260%41.768%袁平均为32.399%袁与Huang等19测定的棉籽样本蛋白质含量和油分含量数据大致相同遥利用近红外光谱测定棉花毛籽营养成分的困难在于棉籽较大袁在填充样品时不可避免地留有很大的空隙袁而且其坚硬的外

42、壳和紧密的短绒影响光的穿透袁且肉眼难以识别未成熟的种子和干瘪的种子遥 以上因素都给近红外光谱数据带来了大量无用的干扰信息袁导致信噪比降低袁影响建模效果袁降低预测精度遥 为了克服这些困难袁本研究采用开水烫种法挑选健籽袁既不影响种子的完整性又能保证种子活力袁采用MSC或MSC1D预处理后袁有效减少材料本身尧测量环境尧操作等对光谱数据的影响袁提取保留了有效信息遥本研究中未精选棉花毛籽的近红外光谱校正模型效果都不理想袁和精选毛籽的建模结果差距较大遥 这主要因为开水烫种法精选饱满成熟的种子袁降低了均匀度尧饱满度尧短绒对光谱采集的影响袁 剔除了近红外光谱数据中夹杂的部分噪声尧光散射等干扰信息遥 说明开水烫

43、种法精选是棉花毛籽近红外光谱建模过程中至关重要的一步袁这为棉花毛籽其他营养品质的近红外光谱快速分析提供借鉴遥 常规的棉籽精选都是在硫酸脱绒后进行光籽筛选袁会破坏种子的完整性袁本研究采用开水烫种法挑选健籽袁可保证种子完整性和活力袁不会影响后续播种袁且简单尧直观尧速度快遥棉花毛籽化学成分组成丰富袁近红外光谱中包含其他的化学组分信息袁 数据复杂且重叠袁含有较多非线性信息尧噪声和异常值遥RF法可以充分利用线性的和潜在的非线性信息进行建模袁对异常值和噪声具有很好的容忍度袁模型泛化能力强袁预测准确率较高且不容易出现过拟合31遥PLS法不考虑光谱数据与化学成分之间的非线性关系袁只根据光谱数据与化学成分之间的

44、线性信息预测输出袁非线性信息数量较多袁就容易导致模型过度拟合遥 而当优化参数选择不正确尧光谱数据不均匀时袁SVM法也可能会出现过拟合的问题袁对大数据样本的模型泛化能力不理想遥 本研表 远未精选棉花毛籽蛋白质含量和油分含量的校正模型的评价指标比较Table 远Comparison of models for protein content and oil content of unselected cottonseeds with fuzzSVM0.873 40.692 30.533 20.952 32.956 0RF0.761 41.332 10.728 41.036 72.715 3SVM0

45、.997 70.073 00.303 80.914 22.467 7RF0.758 41.083 80.677 50.840 82.683 2蛋白质 ProteinPLS0.929 51.983 90.574 42.000 01.407 5决定系数2RMSERPD决定系数2RMSERPD成分Component校正集Calibration set预测集Prediction set油分 OilPLS0.934 51.713 80.579 61.890 81.193 1注院PLS袁线性偏最小二乘法曰SVM袁支持向量机曰RF袁随机森林曰RMSE袁均方根误差曰RPD袁剩余预测偏差遥Note:PLS,pa

46、rtial least square method曰SVM,support vector machine曰RF,random forest;RMSE,root mean square error;RPD,residual prediction deviation.马怡婷等院基于近红外光谱的棉花毛籽蛋白质和油分含量快速检测21735 卷棉花学报究比较了基于上述3种方法构建的模型在近红外光谱检测棉花毛籽蛋白质和油分含量中的效果袁 结果显示基于RF法建立的预测模型效果最好遥 因此袁 综合考虑模型的适配度和准确性袁RF模型更适用于棉花毛籽蛋白质含量和油分含量的快速检测遥结论本研究利用开水烫种法筛选成熟

47、饱满的棉籽渊毛籽冤采用SPXY算法对样品集进行划分袁分别运用MSC和MSC1D的预处理方法袁 基于RF法构建了棉花毛籽中蛋白质含量和油分含量的近红外光谱校正模型袁 模型的决定系数大于0.9袁预测集的均方根误差小于1尧剩余预测偏差大于3袁 能较好地用于棉籽蛋白质含量和油分含量的近红外光谱检测袁可替代传统方法遥 研究结果不仅可为棉花种子品质育种和棉籽加工尧生产与销售中营养成分估测提供了1种绿色高效的快速评价方法袁还可为其他作物种子营养成分的无损分析提供技术借鉴遥参考文献院1 Cai Y,Xie Y,Liu J.Glandless seed and glanded plant research in

48、cotton.A reviewJ/OL.Agronomy for Sustainable Development,2010,30:181-1902023-05-23.https:/doi.org/10.1051/agro/2008024.2 孙善康,陈建华,项时康,等.棉花种子营养品质研究J.中国农业科学,1987,20(5):12-16.Sun Shankang,Chen Jianhua,Xiang Shikang,et al.Study on thenutritional quality of cotton seedsJ.Scientia Agricultura Sinica,1987,2

49、0(5):12-16.3 赵小龙,刘大川.棉籽蛋白资源开发研究进展J/OL.中国油脂,2014,39(1):23-262023-05-23.https:/doi.org/10.3969/j.issn.1003-7969.2014.01.008.Zhao Xiaolong,Liu Dachuan.Progress on cottonseed proteinresourceJ/OL.China Oils and Fats,2014,39(1):23-262023-05-23.https:/doi.org/10.3969/j.issn.1003-7969.2014.01.008.4 牛俊丽,魏莲清,

50、张文举,等.发酵棉粕对肉仔鸡生长性能尧屠宰性能尧营养物质表观消化率和脂肪沉积的影响J/OL.中国畜牧兽医,2020,47(8):2385-23942023-05-24.https:/doi.org/10.16431/ki.1671-72 36.2020.08.006.NiuJunli,Wei Lianqing,Zhang Wenju,et al.Effectsof fermentedcottonseeed meal on growth performance,apparent digestibility,carcass traits,and lipid-related indices in b

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服