收藏 分销(赏)

基于光谱数据分析的中药材鉴别研究.pdf

上传人:自信****多点 文档编号:2265596 上传时间:2024-05-24 格式:PDF 页数:5 大小:2.40MB
下载 相关 举报
基于光谱数据分析的中药材鉴别研究.pdf_第1页
第1页 / 共5页
基于光谱数据分析的中药材鉴别研究.pdf_第2页
第2页 / 共5页
基于光谱数据分析的中药材鉴别研究.pdf_第3页
第3页 / 共5页
亲,该文档总共5页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计算机时代 2023年 第12期0 引言中药材的道地性是决定其质量和药效的重要因素,其中以产地为主要指标之一。传统中药材鉴定鉴别主要依赖人工。随着计算机、光谱分析、大数据分析等技术的发展,以及对药材研究理论的不断深入,利用不同种类、不同产地中药材在近红外、中红外频段内反射光谱的差异性,为中药材种类和产地的鉴定鉴别提供了新的技术手段。不同产地、不同种类中药材存在差异性。传统的鉴别主要依赖人工经验,难以适应中药制药产业发展要求。现代常用的检验技术包括:理化检验法、薄层色谱法、气相色谱法、液相色谱法等,极大地保证了中药的质量可靠性;但也存在局限性,如需要破坏样本、需要专业仪器、检测时间长、人员技术要

2、求高等。红外反射光谱检测可快速提取不同药材样品的特征数据,为科学评价样品间的相似程度、实现药材鉴别,提供了依据和技术基础1-7。利用 SIMCA软件对近红外光谱数据的预处理,采用k折交叉验证方法建立样品的正交投影偏最小二乘法(OPLS)定量校正模型,实现对姜黄丸原料混合物的检测1。基于近红外光谱仪采集得到的样本,在无监督主成分分析基础上利用线性判别分析模式识别方法建立了定性分析模型,可以实现对僵蚕产地、僵蚕-麸炒僵蚕的快速判别2。基于近红外光谱技术,实现了对水牛角3、金银花4、栀子5等药材的质量、光谱特征、产地识别进行研究。近红外光谱检测技术在名贵中药材的真伪鉴定、种类鉴定、含量测定、质量评价

3、等方面的研究进展进行了综述6。文献7介绍了近红外光谱技术在中药质量监控中的研究和进展7。本文根据中药材近红外、中红外光谱的公开数据集,对药材分类及产地的划分问题开展研究。DOI:10.16644/33-1094/tp.2023.12.034基于光谱数据分析的中药材鉴别研究张一倩,王岳(济南职业学院,山东 济南 250103)摘要:对基于光谱数据分析的中药材鉴别方法进行研究,利用红外反射光谱提取中药材的差异性特征,进而实现对其种类和产地的鉴别。建立模糊聚类模型对425组中药材样品的光谱数据进行聚类,利用SIMCA软件完成主成分分析,实现了对药材样本的种类划分和产地鉴别。关键词:模糊聚类法;主成分

4、分析法;SIMCA方法;BP神经网络中图分类号:TP301.6文献标识码:A文章编号:1006-8228(2023)12-158-04Study on identification of Chinese herbal medicine based on spectral data analysisZhang Yiqian,Wang Yue(Jinan Vocational College,Jinan,Shandong 250014,China)Abstract:The spectral data based identification method of Chinese herbal med

5、icine is introduced,which uses infrared reflectancespectra to extract the differential features of Chinese herbal medicines,thus achieving the identification of their species and origins.A fuzzy clustering model is established to cluster the spectral data of 425 groups of Chinese herbal medicine sam

6、ples,and theprincipal component analysis is completed using SIMCA software,which realizes the identification of species and origin of theherbal samples.Key words:fuzzy clustering;principal component analysis;SIMCA method;BP neural network收稿日期:2023-08-03作者简介:张一倩(1979-),女,济南人,硕士,副教授,主要研究方向:数据分析与处理。158

7、Computer Era No.12 20231 药材种类划分模型的建立与求解利用聚类分析法,选取较为合适的特征,将相似度较大的样本聚类,具有相似特征的样本聚集在某一特定的空间区域,而相似度较低的样本分布在不同的空间区域。同时生成聚类图,直观反映样本亲疏关系。图1样本的中红外光谱图如图1所示,在6251700cm-1和30003500cm-1波段范围内,药材吸光度具有良好区分性,其波峰位置、强度均存在一定差异,适合作为药材样本的“特征”。将波峰所在波长,辅以波峰强度、峰形进行综合分析。针对样本数据,拟选取离散程序较大的数据列作为聚类的“特征”。计算数据的极差、标准差、方差、变异系数,对比发现“

8、极差”的变化最明显,极差曲线的极大值点分布最广泛,因而用“极差”这一统计量描述其区分能力,并针对全部样本各波段下的极差、方差绘制曲线。结合极差曲线和方差曲线,选择峰值的较大的波段,将这些波段的吸光率作为“特征”,先模糊聚类,后分析聚类结果。分析中,若满足“同类对象的特征保持一致,不同类对象的特征存在差异”,即认为是合理分类。利用模糊C均值聚类分析法,建立数学模型,对样本进行种类的划分。将所给的 425 个样本划分为c类(2 c 425),记c类的聚类中心为V=v1,v2,vn,其中vi=vi1,vi2,vip(i=1,2,c)。在模糊划分中,每个样本不是严格地被划分为某一类,而是计算其对于每一

9、种类的隶属度,根据隶属度将该样本划分为某一类。1.1 利用MATLAB软件进行模糊聚类分析根据预处理后的数据,利用MATLAB软件对种类参数j从2开始循环,得到不同分类下的分类中心和每个样本对应的隶属矩阵。以分三类为例,1-9号样本的分类中心矩阵为:Center=0.29470.24320.24320.23320.19040.19040.05100.04410.04410.20780.20780.14780.16740.16740.12200.04210.04210.05430.14780.13970.13970.12200.11670.11670.05430.05400.05401-9号样本

10、的隶属度矩阵为:U=0.24470.16000.49580.36590.24140.42920.38940.59850.07500.11340.74060.05610.15420.19610.07530.73240.06340.86870.11720.32900.15260.16780.59630.22680.71500.07460.6206根据类间距,可将 425 个样本分为两类、三类或四类。最优的种类划分应满足“种内有共同性、种间有差异性”。种类划分过多时,虽然种内一定具有共同性,但种间也会出现小部分共同性,结果不合理。因此只要结果在一定误差内,就认为分类通过。1.2 利用SIMCA软件进

11、行主成分分析由于波长涉及范围内较广,判断自主选取的几组数据作为特征是否具有准确性,可通过提取其特征光谱曲线,用主成分分析法对图谱进行解析。主成分分析法利用特征分析的数学方法对数据矩阵求取特征值和特征矢量。将原变量进行变换,使数目较少的新变量成为原变量的线性组合,且新变量最大限度地表征原变量的数据结构特征,同时不丢失信息。分析目的是将数据降维,以消除众多信息共存中相互重叠的部分,适合众多观测数据的特征提取。SIMCA分类法是建立在主成分分析基础上的一种模式识别方法,利用SIMCA 软件进行主成分分析判别。由于高维度的可视化效果及划分存在困难,使用SIMCA软件对九个主成分数据进行了数据标准化及数

12、据降维,呈现更为直观的二维散点图。对425个编号的药材样本进行分类的过程可以利用SIMCA软件生成,如图2所示。利用该模型划分425个药材的种类时,同样可以把样本分为两、三、四类或更多类。中药材样品分类的解决分别应用了模糊聚类模型和主成分分析模型,后者可视为前者的检验模型。159计算机时代 2023年 第12期比对两种模型的结果得出,分类情况基本一致。2 中药材产地划分模型的建立与求解选取中药材样品光谱数据中“极差”较大的列作为聚类的特征。针对全部样本各波段下的极差绘制曲线,波段的吸光率就是区分药材产地最为明显的特征。2.1 BP神经网络模型的建立BP 神经网络是经典的神经网络模型,可应用于分

13、析药材的特征、差异性,并鉴别产地。具体实现步骤为:网络初始化W矩阵,赋值期间由激活函数的值域决定,确定最大训练次数M和学习精度值,选择激活函数f(x);数据预处理,选择样本数据输入,得到隐函数hj和输出层yk的输出;利用网络的实际输出值yk和期望值dk计算误差;分别计算误差函数对隐函数和输出层的神经元的偏导数hj和yk,利用误差信号调整各层的连接权值,隐含层到输出层wN+1jk和输入层到隐含层权值vN+1ij,再计算全局误差E。实现流程如图3所示:在BP神经网络仿真测试后,通过计算预测值与真实值的偏差,判断每次训练是否达到了预期效果。若训练效果良好,则当将“产地数据缺失行”作为测试集导入网络时

14、,其输出值与真实值吻合的概率极高。图3BP神经网络实现流程图当需要进行一个预测时,选取一部分数据进行训练,其余数据用于检验误差值。通过调整隐含层神经元个数、迭代次数、学习率、修正值等网络参数,使训练出来的神经网络对“产地数据”具有极高的预测能力。2.2 BP神经网络模型的求解与检验分析样品的光谱数据,不同产地的同种药材既有相似性又有差异性,使得BP神经网络可能出现小部分误差,因而需要进一步优化。观测光谱图,利用数形结合的思想,通过极差降图2层次聚类过程示意图160Computer Era No.12 2023维,得到特征较明显的35组波长数据,选取了全部药材的降维波段下的吸光度数据以及一部分波

15、段下的药材,采用主成分分析法,对降维数据进行主成分提取,并进行BP神经网络学习训练,步骤如下:生成训练集、测试集对待测产地空白值编号进行选取,作为空白待测集;在剩余药材中,选取三分之二作为训练集,按照误差反向传播算法进行BP神经网络的训练,调整神经网络参数,包括隐含层神经元个数、迭代次数、学习率、修正值,使训练后的神经网络对未知数据输出具有预测能力。将其余三分之一作为测试集,用于检验网络误差并计算模型的准确率,不再进行反向传播更新模型参数。创建/训练BP神经网络及仿真测试利用 MATLAB 神经网络工具箱,完成网络的创建、训练及仿真测试。训练前对相关的训练参数进行设置。检验模型的性能采用两个评

16、价指标测试该网络的泛化能力。采用公式如下:Ei=|yi-yiyii=1,2,n计算相对误差E,结果为 0.0226。该相对误差较小,表明模型的性能较好。采用公式如下:R2=()ni=1nyiyi-i=1nyi2ni=1nyi2-()i=1nyi2ni=1nyi2-()i=1nyi2计算决定系数R2,结果为0.9999,该值在0,1范围内且接近于1,表明模型的拟合性能较好。展示计算结果训练后,对比测试集的期望值与预测值可知,神经网络预测的准确度达到99%。由预测误差看出,该误差在0左右波动,且波动范围较小。将空白待测集导入模型,输出待测集的产地结果。3 中药材种类与产地鉴别优化模型的建立与求解分

17、析发现,药材的红外光谱数据表现出的特征,能较准确地鉴别药材种类。而鉴别产地时,由于同一波段的数据比较接近,单独分析中红外或近红外数据,存在一定误差。因而采用两种波长数据相互验证综合鉴别。当类别、产地都未知时,要做到有效鉴别是有一定困难的。为此建立“Class_OP”双因子串行分析,优化BP神经网络。分析发现,“类别对波长数据的差异性影响”大于“产地对波长数据的差异性影响”,因而将类别作为主因子,产地作为次因子,建立“Class_OP”双因子串行优化的神经网络模型,串行运算中采用输出反馈模式,如图4所示。图4双因子串行优化神经网络实现流程图基本BP神经网络初始参数是随机的,虽然训练集不断修正参数

18、,但受初始值影响,其结果随机性较强,在迭代次数不够或样本数较少的情况下,会导致预测值的准确性较低。考虑到药材类别数目较少,且类别差异性易于分辨,使用类别进行训练,使得修正值能快速接近最优值,从而构建最优神经网络,在有限的迭代或样本数据量下的训练模型较好。双因子串行优化神经网络的应用,是对上述问题的一个整合。如果鉴别药材时不能如愿获得类别、产地、近中红外对照的光谱数据,或者针对某种药材只能进行中红外的数据勘测,则应根据样本数据,以类别为主、产地为辅串行运算。4 结束语该模型的建立过程清晰,求解算法成熟,数据分析处理均经过比对校验,具有较强的准确性、真实性;对求解结果进行了检验,可靠性强。模型贴近

19、实际,在物质分类、鉴别方面具有一定的通用性与借鉴意义。参考文献(References):1 谢梦迪,桂新景,曹英杰,等.手持式近红外仪快速测定姜黄丸原料混合物中姜黄素含量J.湖北医药学院学报,2023,42(2):115-120.(下转第166页)161计算机时代 2023年 第12期像和混淆矩阵便于后续分析。经过测试,本技术模型准确率可达到96%以上,总准确率结果和各动作准确率结果如图7所示。训练50轮次和100轮次的损失率曲线图如图8所示。图7实验结果(a)50轮loss(b)100轮loss图850/100轮损失率折线图除了以上标准以外,泛化能力也是神经网络常用的性能测试指标。泛化能力是

20、指已建成的神经网络对于新样本的适应能力。我们将新收集的动作只放在测试集中而不放在训练集中,观察自定义的卷积神经网络是否能够将其识别为与之最相似的起立动作。结果表明测试准确率仍在95%以上,说明即使对于新收集的测试集,神经网络也可将其泛化为与之相似度最高的动作类别,证明实验所用的卷积神经网络具有良好的泛化性能。同时由于本网络采用的优化器为Adam,而Adam类优化器通常收敛速度很快,所以训练损失率可能会更低,但是泛化性能相对于SGD优化器而言比较差,所以如果追求泛化能力,可以将优化器换为SGD,此外正则化、Dropout等数据增强也可以为搜索最优解时增加随机性,通过避免局部最优来提高神经网络的泛

21、化性能。从以上结果分析可以看出,本技术对于正常测试环境下的行为识别准确率较高,并且具备一定的泛化能力。该结果证明,本文所展示的技术能够在环境允许的情况下实现较为精准的识别率。3 结束语人机交互的方式随着计算机技术的发展和用户需求的增加不断丰富,不再仅仅局限于计算机视觉等技术,基于声波的行为识别的优点逐渐被发现。本文在无接触的情境下设计并实现了一个基于多普勒效应的行为识别技术,测试者与预设的超声波信号进行无接触交互,对麦克风接收的连续音频进行音频切割和噪声去除,使用短时傅里叶变换算法提取信号特征并重点分析 19.9kHz20.1kHz区间内的频率特征,采用基于卷积神经网络的深度学习技术实现对对行

22、为动作的高效识别。实验表明,该技术的行为识别准确率达96.32%,可以实现在没有实时设备的情况下对一些基本行为的识别分类。与其他行为识别方法相比,利用超声波的行为识别技术所需要的存储空间小、运算速度快并且对环境不会产生污染。参考文献(References):1 史鑫.基于视觉的深度学习行为识别算法研究D.北京:北方工业大学,2021.2 朱杰.基于卷积神经网络的人体行为识别研究D,北京:北京邮电大学,2021.3 许丞.基于卷积神经网络的钢琴音频信号识别算法J.自动化与仪器仪表,2021(12):12-15.4 张晨光.基于超声波多普勒效应的手势识别研究D.桂林:桂林理工大学,2021.5Bi

23、-XiaoWu,Chen-GuangYang,Jun-PeiZhong.Research on Transfer Learningof Vision-basedGestureRecognitionJ.InternationalJournalofAutomationandComputing,2021,18(3):422-431.6 叶建龙,胡新海.基于卷积神经网络的图像识别算法研究J.安阳师范学院学报,2021(5):14-18.2 钟红,骆勇,石志强,等.便携式近红外光谱仪的僵蚕快速检验应用研究J.安徽医药,2022,26(12):2399-2402,2548.3 张升盛.基于近红外光谱技术对中药水牛角质量控制的研究D.贵阳:贵州师范大学,2022.4 厉博文,石子薇,李菁,等.金银花药材与粉末近红外光谱特征的比较研究J.河北中医药学报,2022,37(4):37-40.5 周聪,王慧,杨健,等.基于高光谱成像技术的中药栀子产地识别J.中国中药杂志,2022,47(22):6027-6033.6 黄志伟,郭拓,黄文静,等.近红外光谱技术在名贵中药材质量评价中的研究进展J.中草药,2022,53(20):6328-6336.7 胡杨,李先芝,刘洋,等.近红外光谱技术在中药质量监控中的研究进展J.安徽农业科学,2022,50(1):8-11.(上接第161页)CECE166

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服