收藏 分销(赏)

基于GA-XGBoost算法的肺癌预测研究.pdf

上传人:自信****多点 文档编号:2018921 上传时间:2024-05-13 格式:PDF 页数:6 大小:2.20MB
下载 相关 举报
基于GA-XGBoost算法的肺癌预测研究.pdf_第1页
第1页 / 共6页
基于GA-XGBoost算法的肺癌预测研究.pdf_第2页
第2页 / 共6页
亲,该文档总共6页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计算机时代 2023年 第11期0 引言肺癌是起源于肺部支气管黏膜或腺体的恶性肿瘤,其发病率和死亡率增长很快,是对人的健康及生命威胁最大的恶性肿瘤之一1。由于肺栓塞常常伴有呼吸困难、咳嗽、胸痛、咯血等症状,临床症状特异性不强,通常难以鉴别,故漏诊率较高,以致延误救治时机2。在我国,肺癌是危害人类的生命健康的主要恶性肿瘤之一,在排名前十的恶性肿瘤中,肺癌的发病率和死亡率分别占 20.03%和 26.99%3。若肺癌在早期阶段能被及时发现并得到恰当的治疗,患者的5年生存率可提高到50%甚至更高4。在早些年,Ledley5等人第一次将医学领域的数学模型应用到计算机辅助诊断中,首次提出计算机辅助诊断。

2、Weizeng Li等6提出了将决策树和逻辑回归相结合的逻辑树,分别评估单个和多个肿瘤标志物的诊断价值;Caijoie Ren等7提出一种基于临床肺癌个体化鉴别方案,采用LASSO进行回归分析,得到了最优预测结果;Nuhic Jusua 等8利用机器学习算法预测模型作为一种非侵入性工具来区分恶性与良性,应用于肺癌的预测分类。Stefano Elia等9使用遗传算法在五种肿瘤标志物种选择出两种指标物进行联合检测,得到了最好的肺癌预测结果。相对于单个模型而言,DOI:10.16644/33-1094/tp.2023.11.028基于GA-XGBoost算法的肺癌预测研究*柯东,晏峻峰(湖南中医药大

3、学信息科学与工程学院,湖南 长沙 410208)摘要:为辅助医生进行早期的肺癌预测,提出用遗传算法(GA)对集成算法XGBoost进行优化的GA-XGBoost预测方法。针对机器学习存在的样本数量小、数据质量不佳等问题,提出结合SMOTE过采样、随机森林特征重要性排序构建最终肺癌预测模型,进行肺癌的预测分类。对数据集进行测试,结果表明:与K最近邻、SVM、决策树、XGBoost算法相比,该模型准确率93.2%,同时具有更快的响应速度,综合性能最优。关键词:肺癌;SMOTE过采样;特征选择;遗传算法;集成算法;XGBoost中图分类号:TP391文献标识码:A文章编号:1006-8228(202

4、3)11-131-05Research on lung cancer prediction based on GA-XGBoost algorithmKe Dong,Yan Junfeng(School of Information Science and Engineering,Hunan University of Chinese Medicine,Changsha,Hunan 410208,China)Abstract:In order to assist doctors in early prediction of lung cancer,a GA-XGBoost prediction

5、 method optimized by geneticalgorithm(GA)on integrated algorithm XGBoost is proposed.In view of the problems existing in machine learning such as smallsample quantity and poor data quality,a final lung cancer prediction model is proposed by combining SMOTE oversampling andrandom forest feature impor

6、tance ranking to predict and classify lung cancer.The dataset is tested and the results show thatcompared with the K-nearest neighbor,SVM,decision tree and XGBoost algorithm,the proposed model has the best comprehensiveperformance with the accuracy of 93.2%and faster response speed.Key words:lung ca

7、ncer;SMOTE oversampling;feature selection;genetic algorithm;integrated algorithm;XGBoost收稿日期:2023-07-18*基金项目:湖南省教育厅重点项目“具有模糊不确定性的危急重症中医诊疗知识表示与融合研究”(21A0250)作者简介:柯东(1992-),男,湖北鄂州人,硕士研究生,主要研究方向:机器学习。通讯作者:晏峻峰(1965-),女,江西宜春人,博士,教授,博士生导师,主要研究方向:人工智能及其应用。131Computer Era No.11 2023集成模型由多个基学习器构成,因此具有更好的分类和回

8、归效果。例如张楚函10以随机森林算法建立术前诊断模型,建立了肺癌前期预诊断模型;张雨晴等11应用随机森林分析非吸烟女性肺癌风险因素。然而,机器学习在肺癌研究中也面临一些挑战,如样本大小、数据质量、模型的可解释性以及算法模型耗时长等方面的限制。因此,本研究致力于解决这些问题,探索临床上肺癌患者与其生活习惯之间的关系,建立基于生活习惯进行肺癌预测的分类模型。通过算法的融合、优化,确定的最终模型在肺癌数据集上进行试验,实验得到93.2%的高准确率,同时算法模型相比强分类器SVM具有更快的响应速度,充分证明该模型能应用到临床,辅助医生进行疑似病例的肺癌预测,结合必要的医学检查,及时对肺癌患者进行医学干

9、预,为肺癌患者争取更多的治疗从而提高生存率。1 研究方法本文方法如下:不平衡数据是指数据集中某一类别的样本数量明显少于其他类别的样本数量12,本文数据集标签比例严重失衡,标签为0的样本29条,标签为1的样本280条,即正负标签比例大约为1:9,因此引入过采样技术SMOTE方法对数据做均衡化处理;对本实验所用到的肺癌数据集进行随机森林重要性排名,根据排名结果选择贡献较大的特征,参与模型计算,实现降低数据纬度、提高分类准确率的效果;构建GA-XGBoost算法模型即:采用遗传算法优化梯度提升树算法XGBoost,并与其他机器学习方法如支持向量机(SVM),决策树(DT)、K 最近邻(KNN)、贝叶

10、斯(NB)以及未调优的XGBoost进行对比,证明模型的优越性。具体流程图如图1所示。图1系统流程图1.1 构建GA-XGBoost模型极端梯度提升树(XGBoost)算法是由陈天奇在2014年提出,该算法能够极大地提升模型的训练速度和预测精度13。它的设计是为了正确使用资源,克服以往梯度提升的局限性14。本文 XGBoost目标函数如下:Obj=i=1nl(yi,yn)+k=1k(fk)(fk)=+12|2)在XGBoost中,损失函数的二阶泰勒展开被用来描述每一棵树的目标函数。其中,yi表示输出值,yi表示标签值,fk表示模型的第k棵树,T表示叶子结点的个数,w表示叶子结点所占的权重;表示

11、惩罚正则项,表示叶子权重惩罚正则项,用来剪枝,可以防止过拟合。根据上述公式,优化目标为:L(t)=i-1ngift(xi)+12htf2t(xi)+(ft)gi=yt(t-1)l(yi,yt-1i)hi=2v(t-1)l(yi,yt-1i)(ft)=T+12i=1T2j在每次迭代过程中,对于当前的树而言,叶子权重表达式如下:*j=-GjHj+其中,Gj表示在第i个叶子结点中,落入其中的全部样本一阶导数总和;Hj表示在第i个叶子结点中,落入其中的全部样本二阶导数总和。根据上述推导,最终的目标函数可表示为:L*(q)=-12j=1kG2jHj+遗传算法(GA)是一种求解优化问题的工具15,主要用于

12、解决搜索和优化问题。算法过程如下:初始化:生成一组初始种群,其中每个个体代表一个解。适应度评估:对每个个体进行适应度评估,即计算其对应的目标函数值。选择:从种群中选择一部分个体作为下一代种群的父代。交叉:对父代中的个体进行交叉操作,生成新的子代。变异:对子代中的个体进行变异操作,引入随机因素,增加种群的多样性,防止算法陷入局部最优解。更新种群:将父代和子代合并,生成新的种群。终止条件判断:判断是否达到终止条件,如最大迭代次数、目标函数达到某个阈值等。132计算机时代 2023年 第11期 输出结果:输出最优解或者最优解对应的目标函数值。本实验构建GA-XGBoost肺癌诊断模型如图2。图2XG

13、Boost结合GA算法优化超参数流程图2 实验过程及结果分析本文基于Anaconda开发环境下的jupyter-notebook编辑器。研究选用kaggle学习库所公开的的肺癌数据集。该数据集包含疑似肺癌患者平时生活习惯和生理、行为表现等部分数据,一共有 309个样本,类别为良性肿瘤和肺癌肿瘤,数据集包含的 14个特征基于疑似患者的生活记录,分别是年龄(AGE)性别(SEX)、是否吸烟(SMOKING)、黄色手指(YELLOW)、平时是否有同辈压力(PRESSURE)、是否焦虑(ANXIETY)、是 否 有 慢 性 病(CHRONIC DISEASE)、是 否 感 到疲 劳、是 否 哮 喘、药

14、 物 过 敏(ALLERGY)、饮 酒(ALCOHOL CONSUMING)、咳嗽(COUGHING)、呼吸急促(SHORTNESS OF BREATH)、吞咽困难、胸痛(CHEST PAIN)、是否肺癌(LUNG_CANCER)。特征中“是”为1,“否”为0;标签中患肺癌为1,没有患肺癌为 0。实验以 70%的数据集作为训练集,30%作为测试集。2.1 评价指标在分类指标问题上采用混淆矩阵是最直观的,混淆矩阵可以详细的展示分类性能。混淆矩阵如表1所示。表1混淆矩阵真实值为正例真实值为负例预测值为正例TPFP预测值为负例FNTN本文在混淆矩阵基础上引入准确率(Accuracy)、灵敏度(Sen

15、sitivity)、特异度(Specificity)作为算法的判断指标。其中灵敏度又叫真阳性比例,即实际发病且被准确诊断的病人所占比例;特异度又称为真阴性率,是指实际无病并能准确检测的病历所占比例:Accurancy=TP+TNTP+FP+TN+FNSensitivity=TPTP+FNSpecificity=TNTN+FP2.2 数据均衡化处理本文数据集标签比例严重失衡,标签为0的样本29条,标签为1的样本280条,即正负标签比例大约为1:9。采用SVM-SMOTE过采样技术进行数据均衡化处理,原始数据和均衡化处理后的数据分布如图 3、图4所示。图3原始数据特征直方图133Computer

16、Era No.11 20232.3 特征选择特征重要性计算结果可以用于特征选择和可视化,帮助我们理解模型的特征贡献程度,从而更好地解释和使用模型。本文通过随机森林算法得出特征重要性排序,结果如表2所示。表2随机森林特征重要性排序RankRank1234567891011121314FeatureFeatureALCOHOL CONSUMINGPEER_PRESSUREALLERGYWHEEZINGCOUGHINGSHORTNESS OF BREATHCHRONIC DISEASECHEST PAINSMOKINGSWALLOWING DIFFICULTYFATIGUEYELLOW_FINGER

17、SGENDERANXIETYImportance ScoreImportance Score0.1097650.1051370.1043880.0822110.0699220.0673990.0645280.0641670.0633440.0625590.0594440.0543320.0512450.038761排在后面四位的是YELLOW_FINGERS,GENDER,ANXIETY,FATIGUE,由于这四个特征重要性比较低,故予以剔除,保留排名结果选择排名靠前的10个特征重新训练模型。比较SMOTE均衡化前后、进行特征选择前后进行XGBoost训练,结果如表3所示。表3不同处理前后结果

18、对比原始数据集SMOTE处理的数据进行特征选择的数据准确率0.8240.9010.915灵敏度0.9040.9080.926特异度0.7930.8470.9032.4 GA-XGBoost实验结果和随机森林算法(Random Forest,RF)超参数空间类似16,XGBoost 超参数众多,需要手动设定。本文选取常见的三个超参数:n_estimators(树的数量),max_depth(最大树深度)、learning rate(学习率)进行遗传算法优化,将评估指标AUC作为适应度函数。考虑到适应度函数上界难以确定,本文选取最大循环次数作为算法的终止条件。本文借助可视化工具学习曲线,确定超参数

19、的大致范围,三个超参数的学习曲线图分别如图5、图6、图7所示。图5n_estimators学习曲线图6max_depth学习曲线图4SMOTE均衡化后特征直方图134计算机时代 2023年 第11期图7learning_rate学习曲线由学习曲线可知,n_estimators 最佳取值在 60左右,max_depth最佳取值为6左右,learning_rate最佳范围为0.2到0.3之间。用遗传算法进行最优值搜索:设定n_estimators范围为50到75,步长为1;max_depth范围为 4 到 9,步长为 1。Learning_rate 范围设定为0.2-0.3,步长为0.01。遗传算

20、法结果如表4所示。表4遗传算法优化结果n_estimatorsmax_depthlearning_rate范围50-754-90.2-0.3步长110.01最佳取值6160.23得到XGBoost最佳参数后,为了验证模型的优越性,同其他机器学习进行比较。不同算法的比较结果如表5所示。表5不同算法的训练结果对比DTSVMKNNNB未优化的XGBoostGA-XGBoost准确率0.6880.9040.8780.8740.9150.932灵敏度0.7490.9120.8250.9040.9260.928特异度0.9010.9260.8950.8230.9030.921进行遗传算法优化的GA-XGB

21、oost模型,准确率达到 0.932,灵敏度达到 0.928。特异度达到 0.921,准确率和灵敏度最高。虽然SVM在分类中也表现出了不俗的性能,在特异度上较XGBoost稍高,但作为强分类器,SVM复杂度高,耗时长。在讲究实效性的临床医疗诊断中,基于简单学习器集成的XGBoost算法在高分类性能的同时还能实现快速运算,与其他机器学习方法相比,进行遗传算法优化的 GA-XGBoost,表现堪称完美。3 结束语对疑似患者进行早期的预测诊断是应对肺癌的有效手段17。本文提出的基于GA-XGBoost算法的预测分类模型在准确率、灵敏度和特异度三项指标上表现优异,运行时效上优势明显。模型的最终目的是在

22、临床上指导医生对患者的肺癌风险进行提前判断,但本文数据集是肺癌患者的日常表现、生活习惯记录,存在一定的主观性,未来可以从更多的临床电子病例出发,采用客观、标准化的数据。下一步结合大样本,高纬度的客观化数据,尝试深度学习的建模,致力于人工智能在人类的癌症事业中的更大应用。参考文献(References):1 王雪娟.面向机器学习的肺癌合并肺栓塞分类算法研究D.昆明:云南师范大学,2022.2 Cha S,Shin K,Lim J,et al.Erratum to pulmonary embolismconcurrent with lung cancer and central emboli pr

23、edictmortality in patients with lung cancer and pulmonaryembolismJ.Journalofthoracicdisease,2018,10(1):262-72.3 王荃,沈勤,张泽林,等.基于深度学习和组织形态分析的肺癌基因突变预测J.生物医学工程学杂志,2020,37(1):10-18.4 Tota J E,Ramanakumar A V,Franco E L.Lung cancerscreening:review and performance comparison underdifferent riskscenariosJ.Lu

24、ng,2014,192(1):55-63.5 Ledley R S,Lusted L B.Reasoning foundations of medicaldiagnosis;symbolic logic,probability,andvalue theoryaidourunderstandingofhowphysiciansreasonJ.Science,1959,130(3366):9-21.6 Ni W,Huang S H,Su Q,et al.Model-independentevaluationoftumormarkersandalogistic-treeapproach todiag

25、nostic decision supportJ.J HealthcEng,2014,5(4):393-409.7 Ren C,Zhang J,Qi M,Zhang J,et al.Machine learningbasedonclinico-biological featuresintegrated(18)F-FDG PET/CTradiomics for distinguishing squamouscell carcinoma from adenocarcinoma of lungJ.Eur JNucl Med Mol Imaging,2021,48(5):1538-1549.8 J N

26、uhi,J Kevri.Lung cancer typology classification basedonbiochemicalmarkersusingmachinelearningtechniques.in 2020 43rd International Convention onInformation,Communication and Electronic TechnologyJ.(MIPRO),2020:292-297.9 Elia S.A machine learning evolutionary algorithm-basedformula to assess tumor ma

27、rkers and predict lung can-cerincytologicallynegativepleuraleffusionsJ.Softcomputing:Afusionoffoundations,methodologiesand applications,2020,24(10):7281-7293.10 张楚函.以机器学习随机森林法构建早期肺腺癌淋巴结转移的术前预测模型与效果评价D.沈阳:中国医科大学,2022.(下转第140页)135Computer Era No.11 2023 CRF:将命名实体识别问题转化为序列标注问题,可以考虑到复杂的特征。LSTM-CRF:将LSTM

28、和CRF结合在一起,可以捕捉到输入的过去特征和句子级的标签信息。BiLSTM-CRF:与LSTM-CRF类似,将LSTM换为 BiLSTM,是序列标注问题的经典模型。使用Word2vec完成词向量训练,并将其输出值导入BiLSTM来获取文本特征、得到各标签取值的概率,通过CRF约束标签间的顺序关系。BiGRU-CRF:BiGRU 网络是由 RNN 发展而来,它在处理序列数据的任务中被广泛使用,结合CRF优化目标函数。2.5 实验结果与分析本次实验选取CNN、CRF、LSTM-CRF、BiLSTM-CRF和BiGRU-CRF模型来与本文提出的模型做对比实验,实验结果如表3所示。本文提出的模型最后

29、结果精确率达到 88.26%,召回率为 87.60%,F1 值为87.93%,相较于其他模型结构,各个指标都有所提升。表3模型比较结果模型CNNCRFLSTM-CRFBiLSTM-CRFBiGRU-CRF本文精确率(%)78.6277.6185.2587.1785.2688.26召回率(%)77.6576.0284.8987.2385.5587.60F1值(%)78.1376.8185.0787.2085.4087.933 结束语通过对网络社交平台舆情信息和企业互联网营销平台相关信息的处理分析,可以实现对企业的舆情监控,并指导企业决策。在当前的互联网+环境下,这对企业来说是必不可少的,基于此,

30、本文提出了一种基于CNN-BiLSTM-CRF的企业舆情监控模型。通过在真实数据集上进行对比实验,本文模型在精确率、召回率、F1值指标上均优于其他基准模型,验证了本文提出模型的有效性。接下来,将基于目前的研究成果,面向企业网络舆情监控,结合企业舆情焦点中的感情极性进行研究。参考文献(References):1 吴贵珍,王芳,黄树成.基于词向量与 CNN-BIGRU 的情感分析研究J.软件导刊,2022,21(8):27-32.2 赵星宇,何浩,范双南,等.一种融合双向LSTM和CNN的混合情感分析模型J.湘潭大学学报(自然科学版),2021,43(4):69-76.3 曾莉,杨添宝,周慧.基于

31、 LDA 与注意力机制 BiLSTM 的微博舆情分析模型J.南京理工大学学报,2022,46(6):742-748.4 杨秀璋,刘建义,任天舒,等.基于改进LDA-CNN-BiLSTM模型的社交媒体情感分析研究J.现代计算机,2022,28(2):29-36.5 赵蕊洁,佟昕瑀,刘小桦,等.基于神经网络的医药科技论文实体识别与标注研究J.数据分析与知识发现,2022,6(9):100-112.6 佘恒健,黄焕清,余钟昌,等.基于BiLSTM-CRF的政务公文实体识别J.电脑编程技巧与维护,2022,446(8):119-121.7 陈伟,吴云志,涂凌,等.基于多头自注意力机制的实体识别研究J.

32、蚌埠学院学报,2022,11(5):54-60.8 朱傲.基于 BiLSTM-CRF 的汉语浅层语义分析研究D.兰州:西北民族大学,2022.9张良君.基于 Word2Vec 词嵌入和双向 LSTM 模型对用户回答文本进行分类J.电子技术与软件工程,2021(14):208-211.11 张雨晴,许宁,武云云,等.应用随机森林分析非吸烟女性肺癌风险因素J.环境卫生学杂志,2022,12(2):80-86.12 董永峰,董彦琦,张亚娟.面向不平衡数据集的改进SMOTE算法J.河北工业大学学报,2022,51(6):40-46.13 刘路.基于XGBoost优化算法的5G潜在用户识别研究D.南昌:

33、江西财经大学,2022.14 Daoud E A.Comparison between XGBoost,LightGBMandCatBoostUsingaHomeCreditDatasetJ.InternationalJournalofInformation,ControlandComputer Sciences,2019,13(1):6-10.15 陈磊,霍永亮.利用改进的遗传算法求解非线性方程组J.西南师范大学学报(自然科学版),2015,40(1):23-27.16 Breiman L.Random ForestsJ.Machine Learning,2001,45(1):5-32.17BaltrusaitisT,AhujaC,MorencyLP.Morency,MultimodalMachineLearning:ASurveyandTaxonomyJ.IEEE Trans Pattern Anal Mach Intell,2019,41(2):423-443.(上接第135页)CECE140

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服