1、五邑大学学报(自然科学版)JOURNAL OF WUYI UNIVERSITY (Natural Science Edition)第 37 卷 第 4 期 2023 年 11 月 Vol.37 No.4 Nov.2023 文章编号:1006-7302(2023)04-0047-06 基于太赫兹及含 Inception 块残差网络的 北柴胡鉴别 叶华清,蔡圣杰,郑成勇(五邑大学 数学与计算科学学院,广东 江门 529020)摘要:为更准确鉴别藏柴胡、锥叶柴胡和北柴胡,本文首先对柴胡样本进行太赫兹光谱测定,然后用含 Inception 块的残差网络对光谱数据进行识别.本文方法将 Inception
2、 块中的卷积核收缩成一维,通过一维 Inception 块堆叠及残差连接来构建残差网络的主干部分.主干部分后面依次是全局平均池化(Global Average Pooling,GAP)层、全连接(Full Connection,FC)层和Softmax 层,其中,网络的主干部分用于对输入的太赫兹光谱数据进行多尺度特征提取,GAP层用于汇聚多尺度特征,FC 层和 Softmax 层用于实现最后的分类.本文算法与 9 种传统模式识别算法进行了对比实验.结果表明,本文算法鉴别精度达 88.99%,优于 9 种传统模式识别算法.本文算法为北柴胡的鉴别提供了新的解决方案.关键词:太赫兹;深度学习;北柴胡
3、鉴别;Inception 块 中图分类号:TP391.41 文献标志码:A Identification of Bupleuri chinense Based on Terahertz and Residual Network with Inception Blocks YE Hua-qing,CAI Sheng-jie,ZHENG Cheng-yong(School of Mathematics and Computational Science,Wuyi University,Jiangmen 529020,China)Abstract:Abstract:To more accuratel
4、y identify Bupleurum chinense from Tibetan Bupleurum and Conical Leaf Bupleurum,the Terahertz spectra of three Bupleurum samples are collected firstly,and a residual network containing Inception blocks is then adopted to identify the spectral data.We shrink the convolutional kernels in Inception blo
5、cks into one dimension,and construct the backbone of the residual network through one-dimensional Inception blocks stacking and residual connections.The backbone is followed by the Global Average Pooling(GAP)layer,Full Connection(FC)layer,and Softmax layer.Among them,the backbone of the network is u
6、sed for multi-scale feature extraction of inputted Terahertz spectral data,the GAP layer is used to aggregate multi-scale features,and the FC layer and Softmax layer are used to achieve the final classification.The proposed algorithm was compared with 9 traditional pattern recognition algorithms thr
7、ough experiments,the experimental 收稿日期:2022-12-14 基金项目:广东省教育科学规划课题(2021GXJK308);五邑大学港澳联合研发基金(2022WGALH16)作者简介:叶华清(1997),男,广东河源人,在读硕士生,研究方向为模式识别与机器学习;郑成勇,副教授,博士,硕士生导师,通信作者,研究方向为模式识别与机器学习.五邑大学学报(自然科学版)2023 年 48 results of which show that the identification accuracy of the proposed algorithm reaches 88
8、.77%,which is superior to 9 traditional pattern recognition algorithms.This algorithm provides a new solution for the identification of Bupleurum chinense.Key words:Key words:Terahertz;Deep Learning;Bupleurum chinense identification;Inception blocks 北柴胡由伞形科植物柴胡的根组织干燥形成,是现代临床常用中药之一1.藏柴胡和锥叶柴胡都是北柴胡的伪品,
9、它们的性状特征比较相似,给采集和使用过程中的鉴别工作带来了一定的困难.目前市场上时常发生一些用藏柴胡2或者锥叶柴胡3替代北柴胡的事件,对消费者的利益造成损害.因此,建立有效的北柴胡鉴别方法是必要的4.传统的柴胡鉴别使用的方法通常是性状鉴别5、薄层色谱(TLC)6或者是高效液相色谱(HPLC)7.性状鉴别法容易受主观因素的影响,TLC 及 HPLC等方法则通常分析成本较高,分析时间较长.太赫兹(Terahertz,THz)是一种新兴技术,具有无损检测、穿透性强、光子能量低等优点8,已被广泛地应用于药材的检测.但经搜索文献发现,近年来将太赫兹技术应用于柴胡鉴别的研究较少,本文提出利用太赫兹技术鉴别
10、北柴胡.在深度学习领域中9-10,残差连接解决了深度网络梯度消失的问题.多尺度融合技术则是计算机视觉领域中常被使用且不会损害精度的技术,GoogLeNet 中的单元结构Inception 块就是其中之一,通过不同尺度提取的信息往往比单一尺度提取的信息更丰富.为了将深度学习方法应用于北柴胡鉴别,并充分利用太赫兹光谱数据的多尺度信息,本文依据太赫兹光谱数据的特点,将 Inception块中的二维卷积核收缩为一维卷积核,以此构建一维 Inception(1D Inception,1DIn)块结构,然后通过残差连接,构建含 1DIn 的残差网络,用于北柴胡鉴别,并将其与传统的机器学习方法作对比.1 太
11、赫兹光谱技术 太赫兹(THz)是波动频率单位之一,又称太赫,或太拉赫兹,等于1210Hz,通常用于表示电磁波频率.太赫兹辐射是一种频率为0.110 THz的电磁辐射,从频率上看,在无线电波和光波,毫米波和红外线之间;从能量上看,在电子和光子之间.太赫兹辐射具有以下显著特征11:1)指纹图谱.太赫兹辐射的光子能量与分子中旋转跃迁的激发能量相似,因此分子振动和旋转等信息包含在太赫兹光谱中.这就是太赫兹光谱的指纹特征,也是它能够应用于物质检测和识别的重要原因.2)良好的生物安全性.与 X 射线相比,太赫兹波在1 THz下具有约4 meV的非常低的光子能量,并且是非电离的.因此,太赫兹波不会对生物组织
12、等样品造成电离损伤.3)相干测量.太赫兹波通常是由相干激光脉冲利用非线性光学效应或相干电流驱动的偶极振荡产生的,因此太赫兹波是相干的,可以直接测量电场的振幅和相位信息.4)高空间、时间分辨率.与微波和毫米波相比,太赫兹波具有更短的波长,可以实现更高的分辨率.太赫兹脉冲具有良好的时间分辨率,脉冲宽度在亚皮秒到皮秒的时间尺度上,可以分析分子、电子等的瞬态变化.因此,可以将太赫兹时间分辨光谱用于物质的检测和识别.5)渗透性好.太赫兹波具有良好的穿透性,可以穿透包括塑料、服装和陶瓷在内的一般介电材料.这使得太赫兹光谱法有可能探测危险物品.尽管太赫兹波很容易被水等极性分子吸收和损失,但此时的吸收光谱也可
13、以用来评估样品的含水量.第 37 卷 第 4 期 49 叶华清等:基于太赫兹及含 Inception 块残差网络的北柴胡鉴别 本文所用的太赫兹光谱数据由江门华讯方舟科技有限公司利用其太赫兹时域光谱仪(型号为CCT-1800)采集而来.由于水对太赫兹波具有较强的吸收力,因此在太赫兹数据采集过程中,需对样品仓持续吹扫氮气,避免空气中的水汽对实验造成干扰12.2 1D Inception 块网络模型构建 Inception 块是 GoogLeNet 中的单元块,它的出现是卷积神经网络(CNN)发展历程中的一个里程碑13.在此之前,大部分流行的网络架构主要采取不断堆叠卷积层来获得更深的网络,以获得更好
14、的性能.然而增大网络深度往往会让网络模型显得愈加沉重冗余.针对该问题,谷歌团队提出了Incepetion 块,目前其版本已历经了从 v1 到 v414的重大飞跃.Inception 网络最大的优点是使用了大量的 Inception 块.因为有了这些 Inception 块,Inception 网络能够对输入的图像数据并行执行多个卷积运算以及多个池化操作运算,同时该网络可以将所有运算的输出结果拼接为一个特别深的特征图,以提取并融合图像的多尺度特征,获得更好的图像表征15.本文构建的是含 Inception 块的残差网络架构,它融合了残差网络和 Inception 块的优点.无论是Inceptio
15、n 块,还是 GoogLeNet,都是面向图像的网络架构,但太赫兹光谱数据只有一维,并不能直接输入其中.为此,本文构建了一种可直接接受太赫兹光谱数据输入的仅含一维卷积核的一维Inception(1D Inception,1DIn)块结构.图 1展示了所构建的 1DIn 块结构图.它由输入层、一维卷积层、拼接层、输出层构成,其中的一维卷积层由上至下分别包含 32 个尺寸为 1、21n、41n、81n(n 为正整数)的一维卷积核.输入数据通过 4 个不同尺寸的卷积层后得到 4 个通道数为 32 的输出,将其在通道维度拼接,然后作为 1DIn 块的输出.通过 1DIn 块堆叠及残差连接而成的网络结构
16、如图 2 所示.整个结构可以分为 7 个部分.前 6 个部分各是一个 1DIn 块,最后 1 个部分是输出块.输出块包含一个全局平均池化(GAP)层、一个全连接(FC)层和一个 Softmax 层.除了 1DIn 块和输出块以外,残差连接也必不可少.每 3 个 1DIn块,进行一次残差连接,以保证梯度更新的效率.在残差连接中,输入一个尺寸为 1 的卷积层调整21n 41n 81n 1 输入 输出 1 维卷积层 拼接 图 1 1D Inception 块结构图 1DIn_1 1DIn_2 1DIn_3 1DIn_4 1DIn_5 1DIn_6+Softmax FC GAP 输出 输入 图 2 基
17、于 1D Inception 块的网络结构图 五邑大学学报(自然科学版)2023 年 50 通道数与深层特征通道数保持一致,最后与深层特征相加后输出.3 材料与方法 3.1 材料与仪器 实验所用数据集由北柴胡、藏柴胡、锥叶柴胡的太赫兹光谱数据构成.3 种柴胡的批次数及样本数如表 1 所示.所有实验均采用批次留一法16.图 3 给出了 3 种柴胡的吸收系数谱的均值曲线.图 3 表明,在1.21.8 THz范围内,3 种柴胡的吸收系数谱均值曲线区分明显.3.2 光谱数据的采集 将柴胡样品连同特制模具放于已充满氮气的太赫兹检测仪(为保证光谱测量的准确性,样本重复测量 100 次,取平均值作为该样品的
18、原始光谱)中获取太赫兹光谱数据.本太赫兹时域光谱仪的测量范围为0.004 610.0021 THz,由于0.004 60.100 0 THz和1.800 010.002 1 THz波段的信噪比较低,故实验使用频率在0.100 01.800 0 THz范围内的吸收系数谱数据作分析.4 实验对比 为验证残差网络鉴别北柴胡的有效性,首先对残差网络的卷积核尺寸进行消融实验,搜索适合的卷积核尺寸;然后将其与支持向量机(线性核)、逻辑回归(LR)、K 近邻(KNN)、随机森林(RF)、ExtraTree17、ExtraTrees18、AdaBoost19、GBoost20、XGBoost21等进行对比.网
19、络训练所用损失函数为交叉熵函数,优化器为 ADAM.模型的评估指标为总体精度.4.1 卷积核尺寸对比实验 为了给残差网络中的 1DIn 块中 4 个卷积核设置合适的尺寸,我们进行了大量的消融实验.实验结果如表 2 所示.为了避免实验结果的偶然性,对卷积核的每种组合均进行 5 次随机实验.表 2 最后一列是 5 次实验精度的均值和标准差.从平均精度可以看出,随着卷积核增大,精度大体是先下降然后上升;当卷积核组合为 1、13、25、49 时,5 次实验平均精度最高,达到了 88.77%;此后再下降.原因可能是因为在卷积核尺寸较小时,每个 Inception 块的感受野也较小,当 6 层 Incep
20、tion 块叠加后,模型最后一层中每个特征点仅是附近相邻特征信息的提取结果,并未看到整条光谱的全部信息;而随着卷积核尺寸的增大,模型最后一层中每个特征点的感受野也随之增大,并逐渐覆盖整个光谱,但随之而来的背景噪音也更多,在卷积核组合为 1、13、25、49 时刚好达到最佳平衡.表 1 数据集概况统计 类别名 批次数 样本数 北柴胡 3 30 藏柴胡 5 50 锥叶柴胡 5 50 藏柴胡 北柴胡 锥叶柴胡 40 35 30 25 20 15 10 5 0 吸收度/a.u.0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 频率/THz 图 3 3 种柴胡的吸收系数谱与频率的
21、对应关系图 第 37 卷 第 4 期 51 叶华清等:基于太赫兹及含 Inception 块残差网络的北柴胡鉴别 表 2 使用不同卷积核组合的 1D Inception 块时的实验精度%卷积核组合 实验 1 实验 2 实验 3 实验 4 实验 5 均值标准差 1、3、5、9 83.08 87.69 85.38 82.31 85.38 84.773.03 1、5、9、17 85.38 92.31 76.92 85.83 87.69 85.632.50 1、7、13、25 84.17 81.54 83.85 80.00 83.08 82.532.42 1、9、17、33 83.08 81.54 8
22、2.31 79.23 82.31 81.691.75 1、11、21、41 87.69 83.08 83.85 86.92 82.50 84.814.40 1、13、25、49 88.46 87.69 86.92 88.46 92.31 88.773.46 1、15、29、57 90.77 90.77 88.46 86.15 86.15 88.464.27 1、17、33、65 88.46 91.54 86.92 86.15 87.69 88.153.46 1、19、37、73 89.09 88.46 83.08 89.23 86.15 87.205.47 4.2 模型对比实验结果 表 3 给
23、出了本文方法与支持向量机(线性核)、LR、KNN、RF、XGBoost、AdaBoost 等分类方法的实验对比结果.所有对比方法均经过了参数优化.表 3 表明,本文方法显著优于其他 9 种方法.分析其原因可能是 Inception 块中并行的不同大小的卷积层构成了一个感受野各不相同的特征提取器,使得原本特征提取较单一的结构变为了一个多尺度特征提取结构,该结构不仅有偏向注意微小局部信息的卷积层,也有偏向注意较大范围局部信息的卷积层,使得模型的学习能力更全面.表 3 不同模型在柴胡数据集上的实验精度 模型 精度/%模型 精度/%基于 Inception 块的网络 88.77 RF 75.92 支持
24、向量机(线性核)72.77 XGBoost 71.54 LR 76.15 AdaBoost 64.62 KNN 73.85 GBoost 68.97 ExtraTree 69.62 ExtraTrees 74.62 5 结论 本文针对太赫兹光谱数据构建了一种含一维 Inception 块的残差网络,用于北柴胡鉴别.对比实验结果表明,本文方法显著优于 9 种非深度学习方法.所提模型结构相对简单,层数较少,其突出的分类性能表明了基于深度学习的太赫兹光谱数据分类潜力巨大.基于 transformer 架构的太赫兹光谱数据分析将是下一步值得探索的课题.参考文献 1 刘伟.紫外谱线组法鉴别柴胡及醋柴胡的
25、效果分析J.中国实用医药,2022,17(9):210-212.2 樊洪利,刘亚雄,乔莉,等.基于顶空-气相色谱-离子迁移谱的北柴胡与藏柴胡鉴别J.广州中医药大学学报,2022,39(2):417-421.3 宋爱华,沙沂,徐晓雪,等.基于 1H NMR 技术的锥叶柴胡与北柴胡鉴别研究J.波谱学杂志,2014,31(2):214-221.4 丁锤,徐莹,马孝熙,等.柴胡属 5 种易混药材的鉴别研究J.中药材,2016,39(9):1975-1981.5 戴丽莉,轩辕欢.北疆金黄柴胡与北柴胡质量比较研究J.新疆中医药,2021,39(5):51-54.6 朱田密,周从辉,陈树和,等.柴胡薄层鉴别
26、常用法在新制剂研发中的应用J.海峡药学,2021,33(6):37-39.五邑大学学报(自然科学版)2023 年 52 7 张军,苏本正,戴衍朋,等.基于市售柴胡饮片质量考察的质量控制标准提升及真伪鉴别研究J.中华中医药杂志,2021,36(10):6172-6177.8 何伟健.太赫兹光谱吸收峰提取与深度学习识别算法研究D.广州:广东工业大学,2020.9 尚志亮,王伟,杨燚,等.基于卷积神经网络的垃圾图片处理与改进J.物联网技术,2022,12(8):93-96+99.10 李尚,张宏莉,叶麟,等.基于深度学习的法律文本处理研究进展J.智能计算机与应用,2021,11(8):83-86+9
27、1.11 FU X,LIU Y,CHEN Q,et al.Applications of terahertz spectroscopy in the detection and recognition of substances J.Frontiers in Physics,2022,10:869537.DOI:10.3389/fphy.2022.869537.12 高丽华.太赫兹人工电磁材料设计D.南京:东南大学,2015.13 陆天乐.基于 Inception 与 Residual 结构的生成式对抗网络D.南京:东南大学,2019.14 SZEGEDY C,IOFFE S,VANHOUCK
28、E V,et al.Inception-v4,Inception-ResNet and the impact of residual connections on learning J.arXiv,2016.DOI:10.1609/aaai.v31i1.11231.15 潘永斌.基于 Inceptionv4 与 RNN 的图像中文描述算法研究D.重庆:西南大学,2021.16 ZHENG C Y,CAI S J,LI Q,et al.A collaborative classification algorithm with multi-view terahertz spectra J.Resu
29、lts in Physics,2022,42:106023.DOI:10.1016/j.rinp.2022.106023.17 DU X,PAN J.Modified FEA and ExtraTree algorithm for transformer Greens function modeling J.INTER-NOISE and NOISE-CON Congress and Conference Proceedings,2017,255(7):414-421.18 GAVEL A,ANDRAE R,FOUESNEAU M,et al.Estimating/Fe from Gaia l
30、ow-resolution BP/RP spectra using the ExtraTrees algorithm J.Astronomy&Astrophysics,2021,656:A93.DoI:10.48550/arXiv.2201.09211.19 SUN S,ZHANG Q,SUN J,et al.LeadAcid battery SOC prediction using improved AdaBoost algorithm J.Energies,2022,15(16):5842.DOI:10.3390/en15165842.20 SHASTRI S,KOUR P,KUMAR S
31、,et al.GBoost:a novel Grading-AdaBoost ensemble approach for automatic identification of erythemato-squamous disease J.International Journal of Information Technology,2021,13(3):959-971.21 WANG T,BIAN Y,ZHANG Y,et al.Classification of earthquakes,explosions and mining-induced earthquakes based on XGBoost algorithm J.Computers&Geosciences,2023,170:105242.DOI:10.1016/j.cageo.2022.105242.责任编辑:韦 韬
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100