收藏 分销(赏)

基于机器学习的中药材鉴别方法.pdf

上传人:自信****多点 文档编号:638689 上传时间:2024-01-22 格式:PDF 页数:6 大小:3.10MB
下载 相关 举报
基于机器学习的中药材鉴别方法.pdf_第1页
第1页 / 共6页
基于机器学习的中药材鉴别方法.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、第2 2 卷第2 期2023 年6 月济源职业技术学院学报Journal of Jiyuan Vocational and Technical CollegeVol.22No.2Jun.2023基于机器学习的中药材鉴别方法陈丹,陈伟(1.长江工程职业技术学院公共课部,湖北武汉430 2 0 0;2.菲律宾碧瑶大学研究生院,菲律宾碧瑶2 6 0 0 0)摘要:就2 0 2 1年“高教社杯”全国大学生数学建模竞赛E题“中药材的鉴别”的第1、2 问给出了可行的解法。针对问题1,使用极差和主成分分析方法将数据进行降维,利用平均轮廊法和肘部法则来确定最佳的聚类个数,使用KM e a n s 聚类的方法将

2、中药品聚类分为3类。针对问题2,分别使用支持向量机、BP神经网络、Logistic回归方法构建了药材产地分类模型,三个模型在训练集和测试集的准确率、精确率、召回率和F1值都分别均在0.8 及0.7 以上。特别地,Logistic回归模型在训练集和测试集的F1值高达0.8 6 6、0.7 8 9。结合三个分类模型为待鉴别的15个产品找到了合适的产地。这样的药材鉴别方法分析速度快、分类效果好,可为其他红外光谱数据分类鉴别问题提供借鉴。关键词:红外光谱图;K-Means聚类;中草药鉴别;BP神经网络;Logistic回归D0I:10.3969/j.issn.1672-0342.2023.02.012

3、中图分类号:R282中医药是中华文化的重要组成部分,具有悠久的历史和丰富的文化内涵 。中药材的种类丰富、产地繁多,每种药材都有其独特的功效和用途,因此在中医药领域中有着非常重要的地位。道地药材是指经过中医临床长期应用优选出来的,产在特定地域,与其他地区所产同种中药材相比,品质和疗效更好,且质量稳定,具有较高知名度的中药材2 。普通药材与道地药材虽为同一种药材,但是临床效果会有所区别。由于普通药材比道地药材成本低廉,中药材掺假以次充好的现象时有发生。产地为中药材的道地性的主要指标,产地的鉴别对于药材品质鉴别尤为重要3。为了保证中药材的质量和安全性,需要采用科学的鉴别方法来准确鉴别其品种和质量。然

4、而,传统的经验鉴别方法存在不足之处,因此需要应用现代科学鉴定手段来提高鉴别的准确性和效率。近红外和中红外光谱技术是一种常用的鉴别方法,可以通过照射中药材的光谱特征来区分不同品种和产地的中药材。不同种类的药材或者不同产品的同一种药材在有机物的含量和无机元素的化学成分上都有差别,因此它们在光谱特征上存在较大差异。收稿日期:2 0 2 3-0 4-2 0作者简介:陈丹(19 8 6 一),女,湖北咸宁人,讲师,研究方向为统计学、数学建模;陈伟(19 8 5一),男,江西上饶人,博士,讲师,研究方向为人工智能、工商管理。65文献标识码:A文章编号:16 7 2-0 342(2 0 2 3)0 2-0

5、0 6 5-0 6利用光谱技术可以更加准确地鉴别中药材的品种和产地,尤其是对于产地鉴别的准确性和重要性更高,因为不同产地的环境条件和种植方式对药材的质量有很大影响,而这些影响可以通过光谱特征反映出来。由于红外光谱鉴别中药材具有研究成本低、分析速度快的特点,检验技术近年来被广泛应用到中药材鉴别领域4一、问题阐述问题来自2 0 2 1年全国大学生数学建模E题5。题目要求我们根据赛题附件的一些中药材的近红外光谱和中红外光谱数据,分析解决以下问题。(一)问题1根据赛题附件1给出的几种药材的红外光谱数据,研究不同种类药材的特征和差异性,并鉴别药材的种类。(二)问题2赛题附件2 提供了某种药材的中红外光谱

6、数据,部分有产地信息,部分没有。请分析不同产地药材的特征和差异性,并将产地信息补全。济源职业技术学院学报二、模型假设0.40.3-(1)假设题目所给的数据真实可靠。(2)假设数据中的药材经过临床应用优选出来。(3)假设红外光谱鉴别中药材前以通过粉末直接压片法、溶剂提取法处理。(4)假设整个过程不破坏样品,快速鉴别,准确稳定。三、问题求解(一)问题1 求解1.数据预处理本题数据来自2 0 2 1年全国大学生数学建模E题的附件1,可以在全国大学生数学建模的官方网站中下载。附件1中提供了42 2 个中药材样本的中红外光谱数据,如表1所示,No列为药材的编号,其第2 列开始第一行的数据表示红外光谱的波

7、数(cm=)、第二行及其下面的数据表示在对应第一行波段红外光谱照射下的中药材的吸光度。表1中药材样本的中红外光谱数据No65210.0941960.0940570.09405720.1060430.1058320.10583230.272430.2720490.27204940.0748140.0747560.07475650.3222130.3198390.319839首先对附件中的数据进行检查,利用Python发现在附件中无缺失值,利用3原则发现有3个异常值。利用python做出如图1中红外光谱图,观察易得的确有3个异常值。去掉异常值后做出光谱图如图2 所示。0.80.6警0.40.20.

8、0660.10.0600图2除去异常值后的中红外光谱图2.数据降维表1中的数据包含光谱的波数6 52,39 9 9 的数据,合计3348 列,数据维度过大,需要进行降维处理。不同种类的中药材,其含有的化学成分存在差异,并且不同的化学成分在不同波段的红外光谱中吸光度会不同,这样就会产生不同的峰;并且峰度也存在一定的差异,由此,我们可以通过判断不同波段的峰以及峰度值的差异来判断中药材是否属于相同的种类。通过观察图2 我们发现波段区10 0 0,12 0 0,16 0 0,17 0 0 等的吸光度的波动性非常大,说明这些波段所在的峰所代表的化学成分差异大,因而分析这些波动性大的区6536540450

9、0图1中红外光谱图200波段3999间有利于区分中药材的类别,同时可以达到降维0.009856的效果。利用Python软件求出每一个波长值对0.01742应的吸光度的极差,找出极差与极差均值的差值0.005553的绝对值大于2.2 的异常值,就可以找到吸光度0.003266差异大的波段区间为6 52,7 2 9,7 57,7 6 0,0.001061983,1082,16 31,16 51。这样我们可以将3348的原始数据降为2 0 3维,但是数据维度还是过大,我们采用主成分分析法来进一步降维6 。采用SPSS26.0软件进行效度检验,根据表2KMO和巴特利特检验显示,KMO值为0.9380.

10、5,样本量足够,巴特利特球形度检验的P值为0.0 0 0 8 5%,如波段表3总方差解释所示。25035001900.000A00陈丹,陈伟:基于机器学习的中药材鉴别方法表3总方差解释初始特征值成分总计1189.271212.67630.72540.156所以只需要选择前2 个主要成分就基本上保留了原来数据的代表9 9.48 2%的信息。数据的维度也就可以从2 0 3维降为2 维。3.聚类分析模型的建立机器学习按照有无监督可以分为有监督学习和无监督学习两类。有监督学习是指在训练数据中,每个样本都有一个已知的标签或输出值,模型通过学习这些标签或输出值来预测新的未知数据的标签或输出值。典型的有监督

11、学习算法包括决策树、支持向量机、逻辑回归等。无监督学习是指在训练数据中,没有给出样本的标签或输出值,模型需要自己发现数据中的结构和规律。典型的无监督学习算法包括聚类、主成分分析等。问题1是机器学习中的分类问题,由于没有明确的分类标准,属于无监督的分类方法。下面使用K-Means聚类分析的方法来解决这个分类问题。在使用K-Means聚类方法时,首先需要确定聚类的数量K值,这是一个非常重要的步骤。如果K值选择不合适,可能会导致分类效果不好,使得分类结果过于粗糙或过于细致。因此,选择合适的K值非常重要。我们通常使用轮廓系数法(Silhouette Coefficient)和肘部法则(ElbowMet

12、hod)来确定K值。轮廓系数通过计算每个数据点的轮廓系数来评估聚类的效果。轮廓系数是一个介于1和1之间的实数,它衡量了每个数据点距离所在簇的相似度和距离其他簇的不相似度。通常情况下,轮廓系数越接近1,聚类效果越好。肘部法则法通过计算不同K值下的聚类误差平方和(SSE),并绘制SSE与K值的折线图,找到SSE曲线出现类别个数11882147387提取载荷平方和方差百分比/%累积/%93.23793.2376.24499.4820.35799.8390.07799.916表4分类结果部分编号1,2,4,6,7,9,1,2,14,17,19,21,23.10,13,20,24,27,29,36,37

13、,42,43.3,5,8,11,15,16,18,22,25,26,28,33.总计189.27112.676“肘部”的位置,该位置的K值通常被认为是最佳的聚类数量。利用Python画出轮廓系数图和肘部法则图。图3展示了簇数与轮廓系数对应关系,当K等于3时,轮廓系数达到峰值,说明最佳聚类数为3。簇数与总的簇内离差平方和关系的折线图如图4所示。从图中可以看到,当K=3时,斜率突然由大变小,图像出现“肘部”,所以最佳聚类数应该为3。0.700.650.600.550.500.452图3轮廓系数法确定聚类数14121086422将K值设为3对降维得到的两个主成分数据进行K-Means 聚类分析,得到

14、下面的分类结果,如表4所示。67方差百分比/%93.2376.2443434聚类数图4肘部法则确定聚类数累积/%93.23799.48256聚类数576897济源职业技术学院学报将第一类用黑色表示,第二类深灰色表示,第(二)问题2 求解三类浅灰色表示,利用Python绘制三类中药材的1.数据预处理光谱曲线图。第二问数据来自2 0 2 1年全国大学生数学建0.4-模E题的附件2,如表5所示。数据包含了6 7 3个中药材样本的中红外光谱数据,其中59 8 种已0.3-经分类,合计11类,有15个中药材未分类。No列为药材的编号,OP列为药材的种类(未分类的药材种类空缺,比如第3个药材),第3列开始

15、第0.1-一行的数据表示光谱的波数(cm-)、第二行及其下面的数据表示在对应第一行波段红外光谱照射0.0-下的中药材的吸光度。60400No12345首先对附件中的数据进行检查,利用Python发现在附件中只有OP列有15个缺失值,为15个不知产品的中药材样本,其他列均无缺失值,利用3原则发现无异常值。利用Python作出光谱图,如图6 所示。1.501.25-1.00-0.750.500.250.002.基于机器学习方法的药材产地鉴别模型的建立问题2 中的数据大部分中药材样本有明确的分类标签,可以通过学习这些标签来预测未知的15个中药材的类别,这属于有监督的分类问题。常用的有监督分类方法有支

16、持向量机、BP神经网络和逻辑回归等等。下面我们采用数据挖掘中常用的支持向量机、BP神经网络、逻辑回归方法来建立模型。68450图5光谱曲线表5中药材样本的中红外光谱数据OP551110.33845910.3118260.37558360.35687770.3582305205251波段图6中红外光谱图20波段20%A0005520.3384590.3118260.3755830.3568770.35823(1)支持向量机的药材产地鉴别模型将7 0%的数据设置为训练数据,30%设置为测试数据。经过调试得到最佳的参数为:惩罚系数为0.9 2,核函数为poly,核函数系数 scale,核函数常数0.

17、3,核函数最高项次数3,误差收敛条件0.001,最大迭代次数10 0 0,多分类融合策略ovr。支持向量机模型的混淆矩阵热力图如图7 所示。每一列代表预测值,每一行代表实际类别,在这个表格中我们可以清楚看到每个类别被正确预测和错误识别的数量。11.01.06.07.08.05.03.04.02.09.010.011.0图7支持向量机模型的混淆矩阵热力图机器学习中常用来评估分类模型预测效果的指标有准确率(Accuracy)、召回率(Recall)、精确率(Precision)和F1 值。准确率(Accuracy):分类模型正确分类的样本数占总样本数的比例。准确率越大越好。39980.053952

18、0.0632010.0600990.0471630.06709702017000000001.000017000000006.07.0类别0000000000108.010001600015.0000029000013.04.029000000702.09.002210.0陈丹,陈伟:基于机器学习的中药材鉴别方法召回率(Recall):分类模型正确预测为正例的样本占实际为正例的样本的比例。召回率越大越好。精确率(Precision):分类模型预测为正例的样本中,实际为正例的比例。精确率越大越好。F1值(F1s c o r e):综合考虑精确率和召回率的指标,是精确率和召回率的调和平均数。F1值

19、越大越好。由表5知道支持向量机模型在训练集中各个指标都在0.8 左右,在测试集中各个指标都在0.7 3 左右。表6 支持向量机模型评估结果目标对象准确率召回率精确率训练集0.8测试集0.737(2)BP神经网络的药材产地鉴别模型将7 0%的数据设置为训练数据,30%设置为测试数据7 。经过调试得到最佳的参数为:激活函数为tanh,求解器为lbfgs,学习率为0.2 3,L2正则项为1,迭代次数为10 0 0,隐藏第1层神经元数量为10 0。BP神经网络模型的混淆矩阵热力图如图8 所示。11.001.006.07.08.05.03.04.02.09.010.011.0图:BP神经网络的混淆矩阵热

20、力图No31438485871798689110 134152227331618支持向量机预测结果6BP神经网络预测结果6逻辑回归预测结果6将三个模型的预测结果整理到表9,观察发现大部分结果相同,只有个别结果有差异。遇到有差异的情况,我们将多数模型选择的类别作为NO3OP6针对问题1的无监督分类问题,在保留了原由表7 得知该模型在训练集中各个指标都在0.87左右,在测试集中各个指标都在0.7 4以上。表7 BP神经网络评估结果目标对象准确率召回率精确率训练集0.87测试集0.742(3)逻辑回归(梯度下降)的药材产地鉴别模型将7 0%的数据设置为训练数据,30%设置为测试数据。逻辑回归(梯度下

21、降)模型的混淆矩F1阵热力图如图9 所示。0.80.8020.7370.74821601820000000000001.0F10.870.8710.7420.7680.79711.01.00.7316.07.08.05.03.04.02.09.010.011.0010-100602000306.07.0类别143814四、结论0.8690.7488031500300000121160010201021000110001.06.0图9逻辑回归混淆矩阵热力图20008050015000008.05.004860012216000000120017.0类别0000000002800601003.04

22、.0281414146表10待鉴别中药材的产地信息5871960010060015000000008.05.0表8逻辑回归评估结果0目标对象准确率召回率精确率000702.0表9三个模型预测结果62610911最终结果,如果预测结果都不同,则选择F1最高的逻辑回归模型的结果。最终得到15个待鉴别的中药材样本的产地信息如表10 所示。7986911来数据的大部分的信息的前提下,使用极差和主成分分析方法将3348 维数据降至2 维,然后用K-Means 聚类方法对无类别标签信息的中药材进6920202029003.04.0290训练集0.8670239.010.001035000002.00.86

23、70.868测试集0.7933.模型结果6411691191189110134152340000000009.0F10.8660.7930.8043446343490000000002310.00.78952929652273316186535222333济源职业技术学院学报行种类划分。针对问题2 的有监督分类问题,使2赵露颖,施梦瑶,张巧艳,等.道地药材品质特征及形成机用支持向量机、BP神经网络、Logistic回归方法分制研究进展J.中草药,2 0 2 2,53(2 1):6 9 31-6 9 47.别构建了三个药材产地分类模型,三个模型在训3冯超玲,何力,梁家伟,等.基于机器算法的药材种

24、类与产地鉴定J.广西职业技术学院学报,2 0 2 2,15练集和测试集的准确率、精确率、召回率和F1值(2):54-62.都分别均在0.8 及0.7 以上。特别地,Logistic回4王静,丁学利,秦梦洁,等.基于三种监督分类模型的中药归模型在训练集和测试集的F1值高达0.8 6 6、材产地鉴别J.枣庄学院学报,2 0 2 2,39(2):2 4-30.0.789。根据三个分类模型的结果采用服从多数5全国大学生数学建模组委会.2 0 2 1年全国大学生数学或服从高F1值的原则为待鉴别的15个产品找到建模赛题EB/OL.(2 0 2 1-0 9-0 8 2 0 2 3-0 4-了合适的产地。本文

25、中的药材鉴别方法分析速度17.http:/ cn/node/快、分类效果好,可为其他红外光谱数据分类鉴别4d73a36cc88b35bd4883c276afe39d89.html.问题提供借鉴。6杨庆.SSPO:一种部分遮挡单样本人脸识别算法J.湖北工业职业技术学院学报,2 0 2 2,35(1):7 6-8 0.参考文献:7徐雅静,俞捷,余远盼,等.人工智能在中药材及饮片鉴别领域的应用J.中华中医药学刊,2 0 2 2,40(8):47-50.1朱文慧,李露.中职中药专业毕业生质量评价研究J.作家天地,2 0 2 0(17):9 3.责任编辑舞苏文芝】Identification Metho

26、ds for Traditional ChineseMedicine Based on Machine LearningCHEN Dan,CHEN Wei?(1.Public Course Teaching Department,Changjiang Institute of Technology,Wuhan 430200,Hubei;2.Graduate School,University of Baguio,Baguio 26000,Philippines)Abstract:A feasible solution is provided for the first and second q

27、uestions of Part E“Identification ofTraditional Chinese Medicine in China Undergraduate Mathematical Contest in Modeling of 2021 HighEducation Club Cup.For Question 1,use range and principal component analysis methods to reduce thedimensionality of the data,use the mean profile and Elbow methods to

28、determine the optimal number ofclusters,and use K-Means clustering method to classify the traditional Chinese medicine products into threecategories.As to Question 2,support vector machines,BP neural networks,and Logistic regression methods areadopted respectively to construct classification models

29、of the Chinese medicinal materials.The accuracy,precision,recall,and F1 values of the three models in the training and testing sets are all above 0.8 and 0.7.Specifically,the F1 values of the Logistic regression model in the training and testing sets are as high as 0.866and 0.789,respectively.Based

30、on the three classification models,suitable places of origin were found for the15 products to be identified.The identification method for medicinal materials has the effect of fast analysisand good classification,which can provide reference for other infrared spectral data classification andidentification problems.Key words:infrared spectrogram;K-Means clustering;identification of Chinese herbal medicine;BP neuralnetwork;logistic regression70

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服