收藏 分销(赏)

一种可用于鉴别肝癌呼气信号的改进AdaBoost算法.pdf

上传人:自信****多点 文档编号:752929 上传时间:2024-03-04 格式:PDF 页数:13 大小:3.56MB
下载 相关 举报
一种可用于鉴别肝癌呼气信号的改进AdaBoost算法.pdf_第1页
第1页 / 共13页
一种可用于鉴别肝癌呼气信号的改进AdaBoost算法.pdf_第2页
第2页 / 共13页
一种可用于鉴别肝癌呼气信号的改进AdaBoost算法.pdf_第3页
第3页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、ISSN 10049037,CODEN SCYCE4Journal of Data Acquisition and Processing Vol.38,No.4,Jul.2023,pp.860-872DOI:10.16337/j.10049037.2023.04.010 2023 by Journal of Data Acquisition and Processinghttp:/Email:sjcj Tel/Fax:+8602584892742一种可用于鉴别肝癌呼气信号的改进 AdaBoost算法郝丽俊1,2,黄钢3,1(1.上海理工大学健康科学与工程学院,上海 200093;2.上海健康医

2、学院医疗器械学院,上海 201318;3.上海健康医学院附属嘉定中心医院上海市分子影像学重点实验室,上海 201318)摘要:提出一种改进的 AdaBoost强化学习算法,并将其应用于鉴别健康者和肝癌患者的呼气信号。首先采集志愿者(包括健康对照组和肝癌患者)的呼气信号,利用 Relief算法提取其主要特征;接着融合Stacking 模型,基于传统的机器学习算法训练得到若干基分类器组,构建一个个子分类器。为减少训练样本对分类器性能的影响,利用 K 折交叉,先后得到 k个基分类器,形成一个基分类器组;进一步,由投票法得到该基分类器组,即子分类器对测试集的预测结果;然后根据各子分类器对训练集的预测错

3、误率调整训练样本,并获得各子分类器的权重系数;最后将多个子分类器的预测结果进行加权组合,得到最终预测结果。实验结果表明,相比传统的 AdaBoost算法,改进的 AdaBoost算法在鉴别肝癌呼气和健康对照组呼气时,错误率明显下降,鲁棒性有所提升。该算法在鉴别肝癌呼气时,准确率可以达到 90%左右,特异性和精确度也均超过 95%。因此,改进的 AdaBoost算法可有效提升肝癌呼气鉴别精度,对通过呼气鉴别肝癌、实现早期诊断的研究具有重要意义。关键词:呼气检测;肝癌鉴别;AdaBoost算法;Stacking模型;基分类器组;Relief算法中图分类号:TP391 文献标志码:AAn Impro

4、ved AdaBoost Algorithm for Identifying Breath Signals of Liver CancerHAO Lijun1,2,HUANG Gang3,1(1.School of Health Science and Engineering,University of Shanghai for Science and Technology,Shanghai 200093,China;2.Medical Instrumentation College,Shanghai University of Medicine&Health Sciences,Shangha

5、i 201318,China;3.Shanghai Key Laboratory of Molecular Imaging,Jiading District Central Hospital Affiliated Shanghai University of Medicine and Health Sciences,Shanghai 201318,China)Abstract:An improved AdaBoost reinforcement learning algorithm is proposed for distinguishing the breath signals of hea

6、lthy patients and liver cancer patients.First,the breath signals of volunteers,including healthy controls and liver cancer patients,are collected and their main features are extracted by Relief algorithm.Then,based on Stacking model,several groups of base classifiers are trained by traditional machi

7、ne learning algorithms and some sub-classifiers are then constructed.To reduce the influence of training samples on the classifier performance,a K-fold crossover is applied,and k base classifiers could be successively obtained to form a base classifier group.Further,the prediction results of this ba

8、se classifier group,i.e.,sub-classifiers on the test set,are obtained by the voting method.Then,according to the 基金项目:国家自然科学基金(82127807);国家重点研发计划(2020YFA0909000);上海市分子影像学重点实验室建设项目(18DZ2260400)。收稿日期:20220711;修订日期:20220910郝丽俊 等:一种可用于鉴别肝癌呼气信号的改进 AdaBoost算法prediction error rate of each sub-classifier on

9、 the training set,the training set is updated and the weight coefficients of each sub-classifier are obtained according to the prediction error rate of each sub-classifier on the training set.Finally,the prediction results of multiple sub-classifiers are weighted and combined to obtain the final pre

10、diction results.Experimental results show that the improved AdaBoost algorithm can achieve an accuracy of about 90%and the specificity and precision are more than 95%in discriminating the breath of liver cancer from the breath of healthy controls.Compared with the traditional AdaBoost algorithm,the

11、proposed algorithm has significantly lower error rate and improved robustness when used for liver cancer breath detection.Therefore,the improved AdaBoost algorithm can effectively improve the accuracy of liver cancer breath identification,which is important for the research of identifying liver canc

12、er by breath for early diagnosis.Key words:breath detection;liver cancer identification;AdaBoost algorithm;Stacking model;base classifier group;Relief algorithm引 言肝癌是目前全球范围内发病率和致死率最高的癌症之一。根据世界卫生组织国际癌症研究机构(IARC)研究数据显示:2020年,肝癌位于世界上发病人数最多的癌症之一,排名第三;在中国,癌症死亡率中肝癌高居第二。无论是全球还是中国,死于肝癌的人数正在越来越接近新诊断的人数1。肝癌常用

13、的主要诊断方法有血清检验、活组织检验和医学影像诊断,其中,影像诊断是辅助肝癌诊断的重要手段之一。该方法能避免对患者造成伤害,但缺点是不够准确,容易受医生主观情绪影响,而且微小的病灶不易被发现2。活组织检验是一种监测肝脏组织中可疑病变处以协助诊断的方法,需要通过穿刺和开刀获取组织。实际临床中,肝穿刺活检的应用非常谨慎,因为它有导致癌细胞转移的风险3。血清检验简单、易操作,利用肝癌分子标志物(如甲胎蛋白 AFP)进行肝癌检测。但由于约 30%的肝癌患者 AFP水平正常,因此对于那些有临床症状或者高危因素的患者,他们 AFP的检测结果不能作为唯一的参考项,诊断效率较低4。目前肝癌分子标志物也正在研究

14、中5。电子鼻是近年来一种新型的仪器,可通过采集呼气中的挥发性有机化合物(Volatile organic compounds,VOCs)监测和诊断人体疾病。该方法具有无创、操作简单、检查费用低廉等优点,已成为近年来研究的热点。Mazzone等6通过气体化学传感器检测肺癌呼气信号,灵敏度和特异度比较高,结果显示肺癌的正确分类接近 100%,健康对照的正确分类接近 94%,该研究对肺癌患者呼气中 VOCs的分析使人们看到呼气检测有望成为一种新型无创的临床诊断工具;OakleyGirvan 等7则作出一个系统评价,确定了与肺、结肠直肠和乳房相关的呼出气 VOCs,进一步表明呼气分析在癌症筛查和早期检

15、测方面显示出大好前景;Germanese等9研究检测呼出气中的氨区分肝脏损伤严重程度的可能性,证明了基于金属氧化物半导体(Metaloxidesemiconductor,MOS)气体传感器在检测呼出气氨方面可取得良好效果,发现了一些显著的相关性参数,确定了基于呼出气检测肝脏疾病的可能性;Kitiyakara 等10通过研究动物的嗅觉来预测肝细胞癌(Hepatocellular carcinoma,HCC)的可能,结果表明具有一定的可行性,准确度为 78%,但这只是概念证明,在临床应用之前,需进一步完善检测过程;秦涛11通过建立呼气检测方法学,探索了呼气中有机物浓度与肝癌的其他标志物和分期的关系

16、,并尝试建立肝癌的呼气诊断模型,结果显示部分物质诊断肝癌的灵敏性和特异性可分别达到 83.3%与 91.7%。但该研究是基于固相微萃取/气相色谱/质谱联用技术的,硬件平台昂贵且不易操作,不适宜肝癌的普及型筛查推广。基于此,本文将进一步探索如何基于电子鼻采集的呼气信号,构建高性能的鉴别诊断模型。861数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023构建数学模型表征呼气信号与病症之间的关系,是电子鼻检测算法的核心。基于呼气鉴别肝癌患者和健康者本质上是一个二分类问题。目前应用于电子鼻系统的模式识别算法主要有主成分分

17、析(Principal component analysis,PCA)算法、Fisher判别法、支持向量机、逻辑回归、人工神经网络等1214。但这些算法的性能均与训练样本的数量密切相关。为了降低训练样本数量对检测算法的影响,提升电子鼻呼气检测肝癌的准确度和特异性,本文融合 Stacking模型16,对 AdaBoost算法进行了改进,提出了一种新的强化机器学习算法。首先选择一种传统机器算法,通过 K 折交叉分组训练,依次得到 k个基分类器及对测试集的 k个预测值;进一步,基于 Stacking模型,得到该组基分类器对训练集的预测值;接着基于投票法17,由该基分类器组得到一个子分类器对测试集的预

18、测结果;然后分别选择多个不同的分类算法,并基于前一次对训练样本的预测结果调整样本权重后,依次训练得到更多的基分类器组,并得到多个子分类器对测试集的预测结果;最后将所有子分类器的预测结果进行加权组合,得到最终预测结果。这样做一方面可以减少训练样本的影响,提高分类器的泛化能力;另一方面可保留 AdaBoost算法的优点,根据子分类器的训练误差调整其权重18,将多个基分类器进行加权组合,提升分类的各项性能指标。1 鉴别分类器的设计原理 鉴别肝癌患者的呼气信号,本质上是能够设计一种算法将肝癌患者和健康对照组的样本特征进行分类区分,以实现未来利用呼气对肝癌进行早期诊断的目的。AdaBoost算法是一种自

19、适应增强方法,是集成学习的一种。集成学习是将不同模型通过某些机制或设定标准进行融合,以得到一个更加强大稳健的模型。集成学习分类器的泛化能力更强,且避免了单个模型过拟合等问题。在 AdaBoost算法中,对同样的训练集调整样本权重得到不同的训练集,并进一步训练得到多个弱分类器,然后将这些弱分类器加权组合,得到一个最终的分类器。在传统的 AdaBoost算法中,多个弱分类器是基于同一个分类算法构建的,一次训练可得到一个弱分类器,本文尝试对此进行改变调整,提出一种改进的 AdaBoost算法。为了获得具有良好泛化性能的高精度分类器,本文尝试将 3种常用集成算法的核心思想融合,设计了一种改进的 Ada

20、Boost算法。首先借鉴 Stacking模型中第一层模型的构建方法,使用 K 倍交叉划分训练集,得到不到的训练样本,并训练获得多个基学习器15;接着融合 Bagging模型中最终分类器的形成思想,基于投票方法16,由多个基学习器中确定一个子分类器;然后利用 AdaBoost理论,根据子分类器的训练误差,调整训练集样本的分布,并得到子分类器的加权系数;之后,进入新一轮的训练,获得新的子分类器。此外,为了融合多个特性的分类器,在新一轮训练中,将加入一种新的机器学习算法来重复上述步骤,基于调整样本分布后的训练集,获得新的子分类器及加权系数。在达到预设训练次数后,停止训练,并对所有子分类器进行加权和

21、组合,实现异质集成,得到最终预测结果。1.1基于 Stacking模型和投票法的子分类器构建在 AdaBoost算法中,首先从初始训练集训练出一个子分类器,再根据子分类器的表现对训练样本分布进行调整,然后基于调整后的样本分布得到下一个子分类器,如此重复,最终将多个子分类器进行加权组合17。因此,子分类器的设计是 AdaBoost算法的核心。对一组训练样本,基于某一机器学习算法,在多次训练中,可获得多个不同的基分类器。假设,将训练集记作 TrainSet,测试集记作 TestSet,基于 Stacking 模型构建子分类器的原理如图 1 所示。图 1中,训练集 TrainSet按照 K 折交叉划

22、分为 k组,取其中的(k-1)组作为训练样本 TrainData,剩余的一组作为测试样本 TestData。接着确定一种机器学习算法,基于选择的训练样本得到一个基分类器。然后依次变换测试样本和训练样本,利用同样的分类算法,训练得到更多的基分类器。基于 K 折交叉验证,对于同一个分类算法,可先后得到 k个不同的基分类器。同时,利用各基分类器逐次对相应的 k组测试862郝丽俊 等:一种可用于鉴别肝癌呼气信号的改进 AdaBoost算法样本和测试集 TestSet分别进行预测。最终可得到 k个基分类器、k组测试样本的预测值和 k个测试集的预测值。至此,一个由 k个基分类器组成的子分类器便构建而成。k

23、组测试样本的预测值集合构成该子分类器对训练集的预测。而基于投票原则,则可得到该子分类器对测试集的一组预测结果。1.2改进型 AdaBoost分类器的设计AdaBoost算法的核心是加权组合多个子分类器。在本文算法中,子分类器的设计如 1.1小节所述。对同一个训练集,依次选择不同的分类算法,随机进行 K 折交叉,训练得到多个由 k个基分类器投票形成的子分类器,为下一步组合成强化分类器提供分类器组件,如图 2所示。图 1基于 Stacking模型和投票原则的子分类器设计Fig.1Design of sub-classifier based on Stacking model and voting

24、principle图 2改进型 AdaBoost分类器的设计原理图Fig.2Design principle diagram of improved AdaBoost classifier863数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023算法的主要过程如下18:(1)确定 T个机器学习算法和训练样本空间,并初始化训练样本数据的权重,即Dji=1m i=1,2,T(1)式中:i代表第 i个子分类器,i的取值为 1-T;j代表第 j个训练样本,如果训练集样本数为 m,则 j的最大值为 m。(2)按照 1.1所

25、述,将训练集 K 折交叉分组,依次选择一折数据作为测试样本,剩余的(k-1)折数据作为训练样本,基于一个机器分类算法,进行 k次训练,逐次得到基于该机器学习算法的 k个不同的基分类器,形成一个基分类器组,记作第 i个子分类器。同时,利用该基分类器组对训练集的预测值gi(j)和真实值yj,由式(2)和(3)计算对应该子分类器的错误率ei。gi(j)=g1i,g2i,gki(2)式中:g1i,g2i,gki 分别为 k个基分类器对训练集中一折数据的预测,将其合并,构成一个子分类器对训练集全部样本的预测15。ei=kDji(k)k=1,2,m(gi(j)yj)(3)式中:k遍历训练集所有样本中,预测

26、值与真实值不相符的样本。对于二分类问题,错误率本质上就是这些样本的权重之和。(3)进一步,计算第 i 个子分类器的权重系数i。在 AdaBoost 算法中,采用指数函数作为损失函数19,可得到该子分类器的权重系数i。i=12lg()1-eiei(4)由式(4)可知,分类误差率ei越大,则对应的子分类器的权重系数i越小,反之亦然。(4)根据第 i个子分类器的预测情况,调整下一轮算法设计中训练集样本的权重Dji+1。Dji+1=Djie-iyjgi(j)/Dsum(5)式中:Dji为第 i个基分类器组对应的训练集样本权重,而Dji+1则为调整后的第 i+1个基分类器组对应的训练集样本权重系数;i为

27、第 i个子分类器的权重系数,而yj和gi(j)分别为训练集中第 j个样本的真实值和预测值。Dsum为归一化因子,可表示为Dsum=j=1mDji+1(6)从式(5)可以看出,如果第 j个样本分类错误,则yjg(j)0,该样本的权重系数在第 i+1基分类器组中增大,而如果分类正确,则权重在第 i+1个基分类器组中减少。(5)依次选择 T 个机器学习算法中剩余的算法,重复上述步骤(2)至(4),并按照不断调整的训练集样本权重计算得到各个子分类器的误差率ei和权重系数i。(6)将各子分类器的预测结果加权组合,便可实现多个子分类器的异质集成,形成最终的集成强分类器的预测值,即H(l)=sign i=1

28、Tihi(l)l=1,2,n(7)式中:hi(l)为第 i组基学习器对测试集的一组预测值;i为第 i个子分类器的权重系数;H(l)为集成强分类器的预测结果。864郝丽俊 等:一种可用于鉴别肝癌呼气信号的改进 AdaBoost算法2 方 法2.1肝癌呼气信号采集电子鼻是一种基于气体传感器和模式识别技术、模拟生物嗅觉系统,实现气体检测和识别等功能的系统。本研究采用德国 UST 公司研发的电子鼻系统采集志愿者呼出气体。该电子鼻内含 3个传感器,可同时采集 3组数据20。本研究已经获得上海长征医院生物医学研究伦理委员会的批准。共采集 120例志愿者,包括 69例肝癌患者和 51例健康对照组的呼气数据。

29、呼气采集在空腹状态下进行,经由口腔呼气完成。采集过程中仅使用一次性吹气嘴,无任何介入性装置使用,对人体无任何伤害。志愿者的纳入标准是患者必须为原发性肝癌,无其他转移癌证,近 3个月无抽烟酗酒史。表 1所示为志愿者的基本信息。将电子鼻系统的采样率设为 2,对每一个志愿者,连续采集 30 s的呼气数据,3组传感器可同步采集到其 3个采样点均为 60的波形。图 3所示为基于电子鼻系统传感器 B 采集到的所有志愿者的波形信号。图中,横坐标为采样点,纵坐标为传感器阵列对不同呼出气体的响应电阻。2.2信号的特征提取及优化如图 3 所示,由传感器采集到的输出信号数值和幅度变化较大,且每次采集的数值变化也较大

30、。为便于比较,在此进行归一化处理。在不改变波形状态的情况下,由式(8)将 采 集 到 的 每 一 组 信 号 数 值,转 变 成0,1范 围 内 的 相对值。yk(i)=yk()i-min()ykmax()yk-min()yk(8)式中:k可取 A、B、C,分别代表 3个传感器;i表示某一传感器采集的第 i个样本;min(yk)和max(yk)分别代表同一传感器采集到的所有样本信号的最小值和最大值。归一化预处理后产生新的 601203数据集,随后对该数据集进行进一步的数据分析,但由于数据的特征不够明显,无法进行高效分类识别,因此需要先进行特征提取,以便提高分类器的准确度。在此,对 3个传感器提

31、取的信号分别提取时域、频域和统计等特征21,具体包括:时域特征 14个(最大值及对应位置,最小值及对应位置,平均值、峰峰值、整流平均值、方差、标准差、波形因子、脉冲因子、峰值因子、裕度因子和面积),频域特征 14个(重心频率、频率方差、均方根差、频谱和各种方法计算得到的功率谱)和统计特征 10个(极差、中位数、分位数、众数、变异系数、偏度、峰度、自相关系数和信息熵),并进一步计算 3个传感器信号之间的两两相关性Rxy,Ryz和Rzx,获得 3个特征。将对 3组传感器信号提取的所表 1志愿者基本信息Table 1Basic information of volunteers 实验对象肝癌患者健康

32、参照组采集样本数/个男(平均年龄/岁)57(56.2510.35)34(53.0914.47)女(平均年龄/岁)12(57.1812.49)17(52.2614.88)平均年龄/岁56.4010.6351.6014.57图 3所有志愿者的呼出气体原始波形Fig.3Original waveform of exhaled gas of all volunteers865数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023有特征进行组合,得到对应一个样本的一组高维特征。为了避免维数灾难问题和提高运行速度,进一步基于

33、Relief算法22选择特征,将特征降至不同维度后,再分别利用优化后的特征,逐次构建分类器,并进行分类器性能的计算。3 实 验 本研究中,首先将两组样本,包括 69 名肝癌患者和 51 名健康对照组的呼气信号进行特征提取,形成 1201 560的高维特征数组,然后利用 Relief算法提取主成分,分别得到不同维度优化特征数据集,并依次将其作为样本数据集。为了便于构建二分类算法,将肝癌患者呼气样本和健康参照组的呼气样本标签分别记作 1和 0。在设计改进的 AdaBoost肝癌呼气鉴别算法时,为了综合应用各分类算法的优点,在子分类器的构建时,利用了 KNN 近邻法、随机森林(Random fore

34、st,RF)、逻辑回归模型(Logic regression,LR)、线性判别法分析(Linear discriminant analysis,LDA)、反向传播神经网(Back propagation neural network,BP)和贝叶斯分类器(Bayes)6 种不同的机器学习算法模型2325。在设计每一个子分类器时,融合Stacking模型理论,基于 K 折交叉构建 k个基分类器形成一个基分类器组,并进一步利用投票法得到一个子分类器。为了增加分类评估结果的保真性,常见的做法是将2345的样本用于训练,剩余样本用于测试。因此,在本研究中,k值设为 5,即进行五折交叉,每次取15的样本

35、用于测试,剩余样本用于训练。具体过程为:将训练集的正负样本分别进行五折划分,依次选择其中的一折数据为测试样本,剩余样本为训练样本,依据所选择的机器学习算法,先后训练得到 5个基分类器,形成一个基分类器组;将 5个基分类器对 5组不同的测试样本的预测值集合,得到训练集的预测值。而基于投票原则,根据 5个基分类器对测试集的预测结果可确定子分类器对测试集的预测值;在得到子分类器和其对训练集的预测值后,基于 AdaBoost算法,计算误差值及损失函数,调整得到每个子分类器的加权系数,并更新训练集的权重系数;依次应用 6 个机器学习算法,形成 6 个异质子分类器;进一步,在各子分类器预测值的基础上,利用

36、集成思想加权构建出一个强分类器。为了定量评价改进 AdaBoost算法鉴别肺癌呼气的性能。首先将样本数据集进行了随机划分,取其中的 20%作为测试集,剩余的 80%作为训练集。接着,分别以传统 AdaBoost算法和改进型 AdaBoost算法构建分类器,并进行性能对比。为了得到较为客观的结果,利用选择的训练集先后 10次设计构建分类器,并计算每个分类器对测试集预测的性能指标。图 4所示为在将特征维度降为 40后,改进型 AdaBoost集成分类器、基于不同子分类器算法的 6个传统 AdaBoost集成分类器和集成前各子分类器的 10次预测误差对比。该图以预测测试集的错误率为衡量参数,对比了各

37、算法的稳定性。在每一次测试中,训练样本的划分均随机且独立。图中,横坐标对应 6 个不同的子分类器算法(依次分别为 KNN、RF、LR、LDA、BP 和 Bayes),纵坐标为错误率。曲线中,红色标记为改进型 AdaBoost分类器的错误率,黑色为传统 AdaBoost分类器的错误率,紫色为各个子分类器的预测误差,蓝色为 6个子分类器的平均误差率。由图 4可以看出,相比其他算法,改进 AdaBoost肝癌呼气鉴别算法有效降低了肝癌呼气的检测误差,且错误率比较稳定,基本在 10%左右,算法的鲁棒性较好26。图 5 则以分类器常用的 5 个性能指标的平均值对比了改进前后分类器在鉴别肝癌呼气时的表现。

38、这 5个指标依次为准确率、敏感性、特异性、精准率和 F1score指标27。其中准确率为检测正确的百分比;敏感性,也称为召回率,为肝癌患者能够能正确检出的百分比,敏感性越高,漏诊的可能性越小;特异性为正确检测为正常人的百分比;精准率为正确判断为肝癌的百分比,精准率越高,误诊的可能性越866郝丽俊 等:一种可用于鉴别肝癌呼气信号的改进 AdaBoost算法小;F1score 为精准率和召回率的调和平均数,是分类问题的一个重要指标,F1score 越大,分类器的性能越好。从图中可以看出,改进 AdaBoost 的肝癌呼气鉴别算法和基于 BP算法的传统 AdaBoost 算法,各项性能明显优越于其他

39、算法。但是,改进 AdaBoost 肝癌呼气鉴别算法的敏感性和精准率均超过 92%,高于其他算法,在正确鉴别肝癌呼气信号方面的优势明显。因此,改进型 AdaBoost 算法的总体性能较好。另外,基于逻辑回归 LR 和基于 BP 神经网络的传统 AdaBoost 算法的性能也比较高,并且结合图 4(见图中横坐标 3和5 的对应值),发现这两个算法的错误率相对比较低,稳定性也较好。为了进一步对比以上 3 种算法分类器性能的优劣,分析计算了在不同特征维度下分类器的性能指标27。特征选择是机器学习重要的第一步。特征选择是从候选特征中选出“优秀”的特征。通过特征选择可以达到降维、提升模型效果和性能的效果

40、。一般来说,当特征达到某个数量时,分类器模型的效果达到最优。过多或过少的特征都会引起分类器性能的下降。为了综合对比在不同特征维度下以上 3种算法的性能,在此分别将特征维度降至 5、10、20、30、40、50、60、70、80、90和 100维,分别计算对比各个分类器 10次运行后的平均性能,结果如表 2所示。从表 2可以看到,在特征维度优化为 40后,改进型 AdaBoost分类器的性能趋于最佳,综合各项性能指标,优于其他传统型 AdaBoost分类器。图 4改进型 AdaBoost分类器与改进前各子分类器的错误率对比Fig.4Comparison of error rate of impr

41、oved AdaBoost classifier versus pre improved sub classifiers图 5不同肝癌呼气鉴别算法的性能参数对比Fig.5Comparison of performance parameters of different liver cancer breath identification algorithms867数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,2023表 2不同分类器的平均性能Table 2Average performance of differe

42、nt classifiers%分类器Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(LR)Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(LR)Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(LR)Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(LR)Improved AdaBoostTradi

43、tional AdaBoost(BP)Traditional AdaBoost(LR)Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(LR)Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(LR)Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(LR)Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(

44、LR)Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(LR)Improved AdaBoostTraditional AdaBoost(BP)Traditional AdaBoost(LR)维度5102030405060708090100准确率76.9576.9566.9582.6182.6071.7386.0885.2186.0886.5287.8285.6593.0486.5287.3988.6987.8289.1386.9584.3485.2189.1381.7390.0086.9582.1785.2185.65

45、85.6583.9183.0482.1787.39敏感性77.6983.0770.0080.7679.2373.0786.9288.4691.5387.6991.5388.4696.1593.0792.3091.5390.7690.0088.4686.9293.8490.0080.0091.5386.9283.0789.2386.9280.0086.1583.0782.3090.76特异性766963858770858179858382897881858488858174888488878180849381838283精准率81.5377.8171.6388.5689.0377.0788.76

46、87.686.0388.8887.6486.8792.3185.5886.6089.7688.7390.9389.1887.0183.2291.0587.5291.2989.9185.2286.4088.3593.9086.4987.3685.8288.56F1score79.1180.2270.0783.8983.0074.2087.4687.1688.1388.0989.4487.4394.0388.8789.1590.3189.5290.2988.3886.3287.2690.2282.5291.1388.1483.8187.2187.2286.2886.0084.5083.6889.1

47、7868郝丽俊 等:一种可用于鉴别肝癌呼气信号的改进 AdaBoost算法图 6进一步给出了更多维度下分类器对测试样本的预测错误率。由图 6 可以看出,随着特征维度的增加,分类器的性能有所改善,错误率逐渐下降。当特征维度达到 40 时,分类器的错误率达到最低值,仅为 6.96%,F1score指标也达到最大;特征维度在 50 至 100 之间时,分类器的错误率和 F1score 相对变化缓慢,但性能有所下降;而随着特征维度的继续增加,分类器的性能虽有波动,但始终没有更优于在特征维度为 40时的分类器性能,而计算时间和数据量却大大增加。综合来看,对于此次研究,将特征优化为 40维度是比较合理的选

48、择。此外,评价一个分类器的好坏,更多的还要看其泛化性能,而分类器的性能不仅与特征的选择有关,本质上也与训练样本有关。基于不同的训练样本,可得到不同的分类器。为了满足分类器泛化性高的目的,希望找到适用于所有潜在样本的共性特征,并尽量避免过拟合和欠拟合的情况发生。本文提出的改进算法,旨在通过将全部训练集依次送入训练器得到子分类器,避免样本选择造成的过拟合或欠拟合,提升分类器的泛化性能和鲁棒性。为了验证基于本文提出的改进型 AdaBoost算法构建的分类器是否具有良好的泛化性能,文中进一步将样本数据随机划分 100 次,每次以其中 80%的样本作为训练集,构建分类器,利用剩余的 20%的样本,测试分

49、类模型的性能。每次样本划分随机且独立,因此每次的训练样本和测试样本都将不同,以此来模拟用不同的训练样本构建分类器,并预测不同的测试样本。图 7所示在特征维度优化为 40后,随机 100次测试中分类器的各项性能指标统计情况。从图中看出,在 100次相互独立的测试中,改进型 AdaBoost分类器的性能存在一定的波动变化,其中,综合指标 F1score 在 100 次测试中的波动最小,仅为 6.59%;特异性的变异系数最大,为 13.55%,但也在小于图 6分类器的错误率和 F1-score随特征维度的变化Fig.6Change of error rate and F1-score of clas

50、sifiers with feature dimension图 7100次随机测试中分类器的性能统计Fig.7Performance statistics of classifier in 100 random tests869数据采集与处理 Journal of Data Acquisition and Processing Vol.38,No.4,202315%范围内28。在 100次测试中,5个性能指标数据均在正常波动范围内,由此说明该分类器具有一定的稳定性,改进型 AdaBoost算法的鲁棒性和泛化能力较好。应用本文算法构建肝癌患者鉴别模型,尚有很多因素未充分考虑,如肝癌患者的用药情况

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服