收藏 分销(赏)

基于RF-RFECV和LightGBM算法的糖尿病预测.pdf

上传人:自信****多点 文档编号:2120570 上传时间:2024-05-16 格式:PDF 页数:9 大小:2.31MB
下载 相关 举报
基于RF-RFECV和LightGBM算法的糖尿病预测.pdf_第1页
第1页 / 共9页
基于RF-RFECV和LightGBM算法的糖尿病预测.pdf_第2页
第2页 / 共9页
基于RF-RFECV和LightGBM算法的糖尿病预测.pdf_第3页
第3页 / 共9页
亲,该文档总共9页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计算机与现代化JISUANJI YU XIANDAIHUA2023年第11期总第339期收稿日期:2023-07-26;修回日期:2023-08-21作者简介:刘静乐(1987),女,河南洛阳人,助教,硕士,研究方向:医学数据分析,E-mail:;罗翔(1983),男,陕西西安人,讲师,硕士,研究方向:计算机应用研究,E-mail:;宫成荣(1993),男,陕西西安人,助教,硕士,研究方向:医学图像处理,E-mail:;通信作者:张国鹏(1975),男,陕西咸阳人,副教授,博士,研究方向:计算机应用研究,E-mail:。文章编号:1006-2475(2023)11-0036-080引言糖尿病是

2、一种以高血糖为特征的代谢性疾病,根据国际糖尿病联盟(IDF)统计数据显示,2021 年10.5%的成年人口(2079岁)患有糖尿病,糖尿病患者人数最多的国家是中国,几乎一半的人不知道他们患有这种疾病。预测到2045年,每8个成年人中就有1个(约12.2%)患有糖尿病,长期存在的高血糖,会导致各种组织,特别是眼、肾、心脏、血管、神经的慢性损害、功能障碍。通过对糖尿病采取预防措施并提供早期诊断和适当的护理可以减少糖尿病的影响,延缓并发症的发生。近些年,随着人工智能的发展,机器学习被广泛应用于糖尿病风险预测中 1,有助于提高诊断效率及预测准确率。目前糖尿病预测的模型有随机森林2、XGBoost 3、

3、逻辑回归 4 等,表1列举了部分国内外相关研究。文 献2提 出 了 SVM-SMOTE 重 采 样 技 术 与LASSO特征筛选方法相结合的随机森林分类器,在2013年山西省全国慢性病调查数据集上建立了预测模型,准确率为0.890。文献 3 在孟加拉国某医院的520条临床数据集上,先采用多元线性回归和随机森林进行特征选择,后用 XGBoost 算法进行糖尿病预测,精度为 0.993。文献 4 收集了中国某医院的 96条高质量数据,采用逻辑回归模型预测,预测精度为93.7895%。文献 5 为了评估中国城市成年人群中2型糖尿病的发病风险,收集了南京鼓楼医院的数据,建立了多层感知器、AdaBoos

4、t、随机森林、支持向量机和梯度树提升几种算法的混合模型,准确率达到了基于RF-RFECV和LightGBM算法的糖尿病预测刘静乐,罗 翔,宫成荣,张国鹏(空军军医大学基础医学院,陕西 西安710032)摘要:为了及早发现中国患糖尿病的高危人群并提供有针对性的干预措施,选取代表中国人群的中国健康与养老追踪调查(CHARLS)数据集作为研究对象,提出基于随机森林-交叉验证递归特征消除法(RF-RFECV)和LightGBM的混合算法(RF-RFECV-LightGBM),并与其他5种算法进行实验对比。结果表明RF-RFECV-LightGBM整体性能最优,准确率、精度、召回率、F1值、AUC值分别

5、为0.9772、0.9952、0.8178、0.8978、0.9357。预测时间为0.0428 s,较特征选择前LightGBM的预测时间缩短0.0549 s(提升56.19%),表明了RF-RFECV算法特征选择的有效性。最后,同样的预测流程在皮马印地安人数据集上进行实验,结果达到0.9415的准确率,进一步验证了所提算法的优异性能,可以辅助临床糖尿病诊疗。关键词:轻量级梯度提升树;随机森林-交叉验证递归特征消除算法;糖尿病预测;CHARLS数据集;Pima数据集中图分类号:TP391文献标志码:ADOI:10.3969/j.issn.1006-2475.2023.11.006Predict

6、ion of Diabetes Mellitus Using LightGBM Classifier with RF-RFECVLIU Jing-le,LUO Xiang,GONG Cheng-rong,ZHANG Guo-peng(Basic Medical Science Academy,Air Force Military Medical University,Xi an 710032,China)Abstract:In order to find the high-risk population of diabetes in China as early as possible and

7、 provide targeted interventionmeasures,the data set of China Health and Retirement Longitudinal Study(CHARLS),which represents the Chinese population,was selected as the research object,and a hybrid algorithm based on RF-RFECV and LightGBM(RF-RFECV-LightGBM)was proposed,and compared with five other

8、algorithms through experiments.The results show that RF-RFECV-LightGBM has the best overall performance,the accuracy,precision,recall,F1 value and AUC value are 0.9772,0.9952,0.8178,0.8978,and 0.9357,respectively.The prediction time is 0.0428 s,which is 0.0549 s shorter than the prediction timeof Li

9、ghtGBM before feature selection(increased by 56.19%),indicating the effectiveness of RF-RFECV algorithm.Finally,the same prediction process was tested on the Pima Indian dataset,and the results achieved an accuracy of 0.9415,further verifying the excellent performance of the proposed algorithm RF-RF

10、ECV-LightGBM,which can assist in clinical diagnosis andtreatment of diabetes.Key words:LightGBM;RF-RFECV;prediction of diabetes;CHARLS;Pima2023年第11期91%。文献 6-9 都是将皮马印第安人糖尿病数据集(Pima Indians Diabetes Data Set,以下简称 Pima数据集)作为研究对象,分别采用了集成算法(K近邻+Adaboost+LightGBM)、决策树、深度神经网络、LightGBM 算法建立了预测模型,预测准确率分别为90.

11、76%、82.1256%、98.16%、91.6%。目前基于糖尿病预测的公开数据集大多是国外的,其中应用最广泛的是Pima数据集。由于不同国家的种族特征、环境因素等不一样,基于国外数据所建立的模型不能很好地预测中国的高危人群10,而中国糖尿病发病率又很高,因此需要选取中国的数据集作为研究对象。目前国内数据大多来自于某个医院,患者所属地域相对集中,而中国幅员辽阔、不同地域人群生活习惯、饮食方式等存在差异,数据代表性可能有局限性。基于此,本文选取覆盖区域广、样本容量大、更能代表中国人群的中国健康与养老追踪调查(CHARLS)数据集进行糖尿病预测,其中张乐等人 11 针对CHARLS数据集,结合重采

12、样技术和逻辑回归、支持向量机、随机森林建立了预测模型,预测的AUC值最高为0.761,预测精度距离临床应用还有提升的空间。本文将CHARLS数据集作为研究对象,提出了融合随机森林-交叉验证递归特征消除算法(RF-RFECV)和 LightGBM 算法的预测模型,其中 LightGBM是一个基于决策树算法的快速的、分布式的高性能算法,已被广泛应用于分类回归等任务中。本文首先通过 RF-RFECV 算法选择重要特征,其次建立LightGBM预测模型,并和其他模型在准确率、精度、F1等指标上进行了对比,该方法预测准确率最高,内存占用低、预测时间短。特征选择后的数据集相比于特征选择前,预测准确率有所提

13、升,且耗时更短。为了进一步验证本文所提方法的优异性能,在最广泛使用的Pima数据集上进行了建模预测,预测准确度为0.9415,并和已有文献结果进行了对比。最后,结合LightGBM和随机森林的特征重要性排序结果,分析了影响糖尿病的最重要因素,从而可以提早制定预防措施,为临床提供有力的辅助决策工具。1研究对象和方法1.1研究对象本 文 选 取 CHARLS 数 据 集 作 为 研 究 对 象,CHARLS是由北京大学国家发展研究院主持、北京大学中国社会科学调查中心与北京大学团委共同执行的大型跨学科调查项目。CHARLS全国基线调查于2011、2013、2015和2018年分别在全国28个省(自治

14、区、直辖市)的150个县、450个社区(村)开展调查访问,其样本已覆盖总计1.24万户家庭中的1.9万名受访者。CHARLS研究获得了北京大学生物医学伦理审查委员会(IRB00001052-11015)对受访者访谈和数据收集的批准,并要求受访者签署知情同意书12。调查数据包括个人基本信息、健康状况,体格测量等。由于糖尿病的检测标准和血液体检结果密切相关,而CHARLS 2011年和2015的数据包括血液检测数据13,故以这2次血液数据为基准,增加了和糖尿病预测相关的其他特征变量,包括BMI、收缩压、舒张压、是否抽烟、腰围、年龄、性别、饮酒频次,共24个特征变量纳入分析,如表2所示,结果是否患糖

15、尿病是一个二分类变量。为了保持数据的一致性,删除了非空腹血糖数据,删除了特征属性缺失率超过 20%的样本,按照中国2型糖尿病防治指南(2020年版)中糖尿病的诊断标准为:典型糖尿病症状(烦渴多饮、多尿、多食、不明原因体重下降)加上空腹血糖7.0 mmol/L(126 mg/dL)或随机血糖11.1 mmol/L或口服葡萄糖耐量试验2 h的血糖值11.1 mmol/L或糖化血红蛋白值6.5%作为糖尿病诊断的主要依据,如患者无“三多一少”等糖尿病典型临床表现,则须改日重复检测来确认诊断14,另外报告显示,2015年2017年我国糖尿病患病率11.2%,但知晓率只有36.5%,这是因为糖尿病前期没有

16、明显的症状,存在一些患者并不知道自己得了糖尿病。为了保证数据的准确性,删除了疑似糖尿病患者数据(包括空腹血糖7.0 mmol/L或者糖化血红蛋白6.5%的数据记录),此外,为了保持正负样本的相对均衡,非糖尿病患者样本取自2015年数据,糖尿病患者样本取自2011年和2015年访谈者自己上报的(即曾被医生告知患了糖尿病),最终10543 条数据纳入分析,其中糖尿病患者数据 1292条,非糖尿病患者9251条。数据预处理是机器学习中必不可少的步骤,直接影响着实验结果的好坏。采用Python中Pandas库中的describe函数,可以看到多个特征字段存在数据缺失、数据异常、单位不统一、均值和方差差

17、值很大等问表1国内外已有相关研究综合对比文献文献 2文献 3文献 4文献 5文献 6文献 7文献 8文献 9模型算法随机森林XGBoost逻辑回归集成算法(多层感知机+AdaBoost+随机森林+梯度树提升+支持向量机)集成算法(K近邻+Adaboost+LightGBM)决策树深度神经网络LightGBM数据集山西省慢性病调查数据孟加拉国医院数据医院临床数据南京鼓楼医院Pima数据集Pima数据集Pima数据集Pima数据集特征选择方法LASSO多元线性回归和随机森林全子集回归法人工选择无遗传算法随机森林无实验结果准确率为89%精度为99.3%精度为93.7895%准确率为91%准确率为90

18、.76%准确率为82.1256%准确率为98.16%准确率为91.6%刘静乐,等:基于RF-RFECV和LightGBM算法的糖尿病预测37计算机与现代化2023年第11期题,如表2所示。首先针对缺失和异常数据,按照病人是否患有糖尿病进行中位数分开填充;其次,为了消除不同特征单位不统一的影响,同时考虑数据集的异常值较多,故采用了稳健标准化进行处理,在一定程度上能减少异常值对数据分析造成的影响。1.2实验方法本文糖尿病预测流程如图1所示,首先通过缺失值和异常值检测填充、数据标准化对数据进行预处理;其次采用随机森林-交叉验证递归特征消除法选择重要的特征,去除冗余的特征;再次建立 LightGBM、

19、逻辑回归、K近邻、支持向量机、随机森林、XGBoost这6种模型进行训练,并结合十折交叉验证法和网格搜索法进行参数调优,通过准确率、精度、召回率、F1、AUC这5种评价指标对比各模型的性能;最后通过LightGBM和随机森林算法将模型的特征按照重要性排序,分析影响糖尿病的关键因素,从而可以指导高危人群有针对性地制定预防措施。1.2.1基于RF-RFECV的特征选择特征选择是特征工程中的一个重要的组成部分,其目标是寻找到最优的特征子集。在机器学习领域,特征选择主要有过滤器、封装法、嵌入式 3种模型。经过实验对比后,最终选用随机森林-交叉验证递归特征消除(RF-RFECV)算法15-17,具体实现

20、采用Python机器学习库sklearn中的RFECV模块。RF-RFECV以随机森林(Random Forest,RF)作为监督学习分类器,并对特征进行重要性排序。随机森林是一种基于决策树的集成学习算法,该算法在对数据进行拟合处理时会生成一个变量重要性的度量指标,其基本思想是对每个特征在每棵树上的贡献程度取平均值,然后通过比较不同特征的贡献大小对特征重要性进行排序18。RFECV的实现分成递归特征消除(RFE)和交叉验证(CV)这2个部分,RFE是一种寻找最优特征子集的贪心算法,主要基于模型的特征选择方法,通过反复地构建基模型(本文指随机森林模型)来评估每个表2数据集特征列表特征属性bl_w

21、bcbl_hgbbl_hctbl_mcvbl_pltbl_tgbl_creabl_bunbl_hdlbl_ldlbl_chobl_glubl_uabl_cyscbl_crpbl_hbalcBMIsys_pressuredia_pressureAgeGenderWaistCirsmokedrink特征属性含义白细胞(1000)血红蛋白(g/dl)红细胞比容(%)平均红细胞体积(fl)血小板(109/L)甘油三酯(mg/dl)肌酸酐(mg/dl)血尿素氮(mg/dl)高密度脂蛋白胆固醇(mg/dl)低密度脂蛋白胆固醇(mg/dl)总胆固醇(mg/dl)葡萄糖(mg/dl)尿酸(mg/dl)半胱氨酸

22、蛋白酶抑制物C(mg/l)c反应蛋白(CRP)(mg/l)糖化血红蛋白(%)身体质量指数收缩压舒张压年龄性别腰围是否抽烟喝酒频次变量类型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型数值型分类型数值型分类型分类型count105271052710541105271052210543105421054310543105391054310542105431039710542105341054310543105431054310542105431053610536mean5.9313.7741.5091.36205.12134.98

23、0.8015.3851.30103.06183.8499.864.860.852.645.8661.97127.1973.7059.320.4683.460.272.39std1.811.935.637.6876.7788.290.304.7011.8829.4936.1933.441.390.256.360.902760.5033.4316.4911.500.5021.740.450.87min1.725.2012.808.608.0026.550.182.803.090.7772.5930.781.000.360.013.800.000.000.000.000.000.000.000.00

24、max34.6027.9084.50137.601313.001639.0211.8893.84159.85367.18616.60596.1614.407.04150.2018.20202184.11662.00184.67102.001.00993.001.003.00median5.7013.7041.2091.80201.00108.850.7614.5750.19101.16180.6993.694.700.821.305.7023.53125.6774.3360.000.0085.400.003.00图1糖尿病预测流程数据预处理CHARLS数据集缺失值填充异常值检测数据标准化基于随

25、机森林-交叉验证递归特征消除算法进行特征选择模型训练LightGBM逻辑回归K近邻支持向量机随机森林XGBoost参数调优十折交叉验证网格搜索法测试模型性能评估准确率、精度、召回率、F1、AUC重要特征分析训练集和测试集比例为82382023年第11期特征的重要性,从而递归地消除不重要的特征。CV采用交叉验证来选择最优的特征子集,根据RFE阶段确定的不同数量的特征子集,采用交叉验证选择性能评分最高的特征集作为最终的结果。具体步骤如下:1)初始化:将所有特征作为初始特征集合。2)通过构建随机森林模型评估每个特征的重要性。3)根据特征的重要性对特征进行排序。4)删除最不重要的一个(或多个)特征,得

26、到新的特征集合。5)保存新的特征子集,重复步骤2步骤5,直到特征数目达到设定的最小特征数或者默认值1。6)采用5折交叉验证来评估以上所有特征子集的性能。7)选择性能最好的特征子集作为最终的特征子集。通过RF-RFECV算法,提升了模型预测效果,同时减小了计算复杂度,最终从24个特征中选取了16个特征纳入分析。1.2.2LightGBM建模方法针对 RF-RFECV 算法进行特征提取后的数据,本文建立了LightGBM模型进行糖尿病预测,并和其他5种模型进行了性能比较,包括逻辑回归、K近邻、支持向量机、随机森林、XGBoost。LightGBM(Light Gradient Boosting M

27、achine)是微软开发的一种集成算法,它是在决策树算法的基础上构建的。LightGBM是为了解决基于梯度提升决策树(Gradient Boosting Decision Tree,GBDT)的算法在特征维数高、数据量大的情况下,其效率低的背景下提出的19。LightGBM主要通过采用基于梯度的单边 采 样 算 法(Gradient-based One-Side Sampling,GOSS)和互斥特征捆绑算法(Exclusive Feature Bundling,EFB)来减少样本的数量和特征的维数,从而具有训练速度快、内存占用少、准确率高、处理大规模数据能力强等优点,该算法已被广泛应用于分类

28、和回归等问题中,并取得了优异的检测结果。由于梯度较大的样本在信息增益的计算中起着至关重要的作用,GOSS在进行数据采样时保留所有梯度较大的样本,对梯度较小的样本进行随机抽样从而减少信息增益的计算。为了不过多改变样本的数据分布,GOSS在计算信息增益时,对梯度较小的数据样本引入权重系数进行平衡,它是一种在减少数据和保持精度上平衡的算法。EFB算法是通过捆绑特征来降低特征的维度,由于高维度的数据往往是稀疏的,所以可以设计一种无损的方法来减少特征的维度。如果2个特征是完全互斥的(即特征不会同时为非零值),则将这2个特征捆绑起来并不会丢失信息;如果2个特征不是完全互斥的(部分情况下2个特征都是非零值)

29、,可以用一个指标对特征不互斥程度进行衡量,称之为冲突比例,如果这个值较小,可以选择把这2个不完全互斥的特征进行捆绑,而不影响最后的精度,从而降低特征的维度,减少运算的复杂度。1.2.3实验环境及评估指标本文实验使用的 Python 版本为 Python 3.10,scikit-learn版本为1.0.2,开发环境为Anaconda3,操作系统为 Windows11,CPU 为 Inter Core i7-9700,内存为8 GB。评估指标是衡量模型泛化能力好坏的评估标准,本文采用 5 项指标评估模型的性能,分别是准确率(Accuracy)、精度(Precision)、召回率(Recall)、F

30、1值、AUC值。分类问题的评价指标大多基于混淆矩阵计算得到,表3是混淆矩阵,每一列代表了预测类别,每一行代表了数据的真实类别。表3混淆矩阵真实结果实际患病实际未患病预测结果患病TPFP未患病FNTN准确率是分对样本占测试样本总数的比例。精度是被分为正类的样本中实际为正类的样本比例,也叫查准率。召回率是实际为正类的样本中被分为正类的样本比例,也叫查全率或敏感度。F1是召回率和精度的加权调和平均,为了调和召回率和精度之间增减反向的矛盾。上述指标公式分别如式(1)式(4)所示:Accuracy=TP+TNTP+TN+FP+FN(1)Precision=TPTP+FP(2)Recall=TPTP+FN

31、(3)F1=2 Precision RecallPrecision+Recall(4)ROC曲线也称受试者工作特征曲线,表示模型或预测结果的可靠性,曲线下方面积即为 AUC 值,AUC越大,其模型性能越好,以FPR为横轴,TPR为纵轴,绘制得到。FPR是假正率,代表将负类错分为正类的比例,具体公式如式(5)所示:FPR=FPFP+TN(5)TPR是真正率,和召回率计算方式一样,如公式(3)所示。2实验结果及分析本文分别基于全量特征和RF-RFECV特征选择后的特征建立了LightGBM、K近邻(K-nearest neighbor,KNN)、逻辑回归(Logistic Regression,L

32、R)、支持向量机(Support Vector Machine,SVM)、随机森林(Random Forest,RF)、XGBoost共6种模型进行糖尿病预测。采用准确率、精度、召回率、F1、AUC值5项常用指标来评估各模型的性能,此外,各模型参数设置的好坏直接影响最终预测的结果,因此对于每种模型的超参数,首先在训练集上进行十折交叉验证网格搜索法确定最优值,然后,在测试集中对训练好的模型进行性能评估,其中训练集和测试集的比例为8:2。刘静乐,等:基于RF-RFECV和LightGBM算法的糖尿病预测39计算机与现代化2023年第11期2.1基于全量特征的各模型实验结果对比首先基于所有的特征进行

33、实验分析,为了确保实验结果的科学性与公正性,所有调参后的模型算法采用了十折交叉验证法,以准确率为评价指标绘制了箱线图,如图2所示,可以看出,LightGBM的准确率最高,平均值为0.9735。图2 十折交叉验证箱线图对比图3 ROC曲线对比为了综合评价各模型的性能,采用准确率、精度、召回率、F1、AUC、预测时间 6 项指标评估,图 3 为 6种模型的 ROC 曲线对比,可以看出 LightGBM 和XGBoost曲线几乎重叠,两者 AUC值最高,表 4为各性能指标值对比。表46种模型性能对比模型KNNLRSVMRFXGBoostLightGBMAccuracy0.94490.94160.95

34、870.97060.97290.9753Precision0.95510.90410.96721.00000.99500.9951Recall0.57750.58520.68600.75960.78290.8023F1-Score0.71980.71050.80270.86340.87630.8884AUC0.82480.87970.90770.93040.94450.9498Time/s0.63230.02093.54651.61860.53150.0977从表4可以看出,LightGBM算法的准确率、召回率、F1 值、AUC 分 别 为 0.9753、0.8023、0.8884、0.949

35、8,是所有模型中最优的,相比于其他机器学习算 法,性 能 分 别 提 升 约 0.25%3.57%,2.47%38.92%,1.38%25.03%,0.56%15.15%。KNN、LR、SVM 这 3 种算法的召回率相对较低,是因为CHARLS数据集中非患病样本数是患病样本数的7倍多,属于不平衡数据,预测结果易受多数类的影响。在疾病预测领域,正常样本数往往远高于患病样本数,而人类更关注患病人群的识别率,所以召回率是一个重要评判指标。LightGBM算法在召回率上明显优于其他算法,表明其更能准确识别糖尿病高危人群,更适合进行疾病预测,LightGBM预测精度为0.9951,略低于RF的1。整体性

36、能表现上,集成算法 RF、XGBoost、LightGBM这3种算法表现相对较优,这是因为集成算法具有很强的鲁棒性,能够应对数据不平衡、噪声等问题,同时也能够有效地减少过拟合的风险。3种算法中LightGBM 的运行时间明显缩短,为 0.0977 s,RF 和XGBoost算法运行时间分别为 1.6186 s和 0.5315 s,这是因为LightGBM算法不同于XGBoost在进行分裂时需要预先对每一个特征的原始数据进行预排序,而是采用了直方图算法对特征的原始数据进行“分桶”,把数据划分到不同的离散区域中,再对离散数据进行遍历,寻找最优划分点,此外,该算法在训练过程中采用了基于梯度的单边采样

37、算法以减少样本数量,互斥特征捆绑算法以减少特征数量,从而具有更快的训练速度和更低的内存消耗,准确率也更高。2.2基于RF-RFECV特征选择后的各模型实验结果对比为了进一步提升预测精度,去除和预测结果不相关的特征变量,通过 RF-RFECV 算法得到最优特征子集,包括 16 个特征,分别是:bl_wbc(白细胞)、bl_mcv(平均红细胞体积)、bl_tg(甘油三酯)、bl_crea(肌酸酐)、bl_bun(血尿素氮)、bl_hdl(高密度脂蛋白胆固醇)、bl_ldl(低密度脂蛋白胆固醇)、bl_cho(总胆固醇)、bl_glu(葡萄糖)、bl_ua(尿酸)、bl_cysc(半胱氨酸蛋白酶抑制

38、物C)、bl_crp(C反应蛋白)、bl_hbalc(糖化血红蛋白)、BMI、sys_pressure(收缩压)、WaistCir(腰围)。图4是RF-RFECV算法对所有特征优先级排序的结果,优先级值越小,特征越重要,最优特征子集中的特征优先级均为1。为了进一步评估所选16个特征的贡献大小,采用随机森林算法将其进行重要性排序,如图5所示,可以看出葡萄糖和糖化血红蛋白对结果贡献最大。图4特征优先级排序结果0.00.20.40.60.81.0False Positive Rate1.00.80.60.40.20.0True Positive RateLRKNNRFSVMLightGBMXGBoo

39、stLRKNNSVMRFXGBoost LightGBM0.980.970.960.950.94Accuracy0123456789Priority of variablesVariablesbl_wbcWaistCirsys_pressureBMIbl_hbalcbl_crpbl_cyscbl_uabl_chobl_glubl_hdlbl_bunbl_creabl_tgbl_mcvbl_ldlbl_hctdia_pressurebl_hgbAgebl_oltdrinkGendersmoke402023年第11期图5随机森林特征重要性排序图6给出了以准确率为评价指标的十折交叉验证箱线图,RF-

40、RFECV-LightGBM算法的平均准确率最高,为0.9756。图6十折交叉验证箱线图对比表5为特征选择后各模型的性能对比,可以看出RF-RFECV-LightGBM 准确率、召回率、F1值分别为0.9772、0.8178、0.8978,在所有算法中性能最优,尤其召 回 率 较 其 他 算 法 提 升 2.93%44.53%,精 度 为0.9952,略低于 RF 和 XGBoost 的结果值 1,AUC 值为0.9357,略低于XGBoost的0.9381,是因为在网格搜索调参时,为了更好地识别高危人群,评分指标设定为召回率,而精度和召回率往往会相互影响,可能导致精度没有达到最优。Varia

41、blesbl_glubl_hbalcbl_tgbl_cyscbl_crpbl_ldlWaistCirBMIsys_pressurebl_wbcbl_mcvbl_creabl_hdlbl_chobl_uabl_bun0.000.050.100.150.200.250.300.35Significance Score of Variables0.980.970.960.950.94AccuracyRF-RFECV-LRRF-RFECV-KNNRF-RFECV-SVMRF-RFECV-RFRF-RFECV-XGBoostRF-RFECV-LightGBM表5特征选择后各模型性能对比模型RF-RFEC

42、V-KNNRF-RFECV-LRRF-RFECV-SVMRF-RFECV-RFRF-RFECV-XGBoostRF-RFECV-LightGBMAccuracy0.94780.94260.95870.96960.97480.9772Precision0.98680.94190.9523110.9952Recall0.58130.56580.69760.75190.79450.8178F1-Score0.73170.70700.80530.85840.88550.8978AUC0.83570.87320.90360.93570.93810.9357Time/s0.61430.01193.9504

43、5.47530.37100.0428表 5和表 4对比表明,特征选择后,相对于同一种算法,RF-RFECV-KNN 和 RF-RFECV-LR 的精度分别提升了 3.32%和 4.18%,RF-RFECV-SVM、RF-RFECV-RF、RF-RFECV-XGBoost 这 3 种算法对应的准确率、精度、召回率、F1、AUC 值则没有明显变化;在预测时间上,RF-RFECV-KNN、RF-RFECV-LR、RF-RFECV-XGBoost、RF-RFECV-LightGBM 分别 缩 短 了 0.018 s(提 升 2.85%)、0.009 s(提 升43.06%)、0.1605 s(提升 3

44、0.20%)、0.0549 s(提升56.19%)。RF-RFECV-RF 预测时间增长是因为参数决策树的数量 n_estimators 值为 300,而特征选择前该参数的值是 100,所以提升了训练时间。RF-RFECV-SVM 算法预测时间增长是因为特征选择前参数惩罚系数 C的值为 3,特征选择后为 5,C越大,即对分错样本的惩罚程度越大,模型复杂度越高,训练时间越长。综上表明,特征选择在保证模型预测准确率和精度的前提下,降低了模型复杂度,减少了训练时间。图7是以准确率为评价指标的十折交叉验证箱线图,对比了 RF-RFECV-LightGBM 和 LightGBM 的实验结果,可以看出特征

45、选择后准确率有所提升,均值为 0.9772,特征选择前为 0.9746。图 8 综合对比 了 2 种 算 法 在 6 项 指 标 上 的 实 验 结 果,RF-LightGBMRF-RFECV-LightGBM0.9900.9850.9800.9750.970Accuracy0.97530.99510.80230.88840.94980.09770.97720.99520.81780.89780.93570.0428ACCPRE RECA LLF1AUCTIMELightGBMRF-RFECV-LightGBM图7十折交叉验证箱线图对比图8 6项性能对比刘静乐,等:基于RF-RFECV和Lig

46、htGBM算法的糖尿病预测41计算机与现代化2023年第11期RFECV-LightGBM 在准确率、精度、召回率、F1 值指标上都有所提升,AUC值下降了0.0141,预测时间明显下降,综合性能更优,表明了 RF-RFECV 特征选择的有效性。2.3RF-RFECV-LightGBM 在 PIMA 数据集上的实验结果对比为了进一步验证 RF-RFECV-LightGBM 算法的优异性能,本文将最广泛使用的PIMA数据集作为研究对象,首先用同样的数据预处理方法,包括缺失值、异常值检测填充,稳健标准化,再采用 RF-RFECV 算法进行特征选择,从 8 个特征中选择了 7个特征,包括 Pregn

47、ancies(怀孕次数)、Glucose(葡萄糖浓度)、SkinThickness(皮层厚度)、Insulin(血清胰岛素)、BMI、PedigreeFunction(家族遗传因素)、Age(年龄),删除了BloodPressure(血压),其中各特征的优先级排序如图9所示,最优特征子集中7个特征的优先级均为1。图9特征优先级排序结果基于RF-RFECV特征选择后的数据,建立LightGBM预测模型并结合十折交叉验证和网格搜索法进行调参。采用准确率、精度、召回率、F1、AUC这5项指标评估模型的性能,并和近几年具有代表性且性能优异的实验结果进行对比,如表6所示。012Priority of v

48、ariablesPregnanciesGlucoseSkinThicknessInsulinBMIPedigreeFunctionAgeBloodpressurevariables表6和已有研究的对比结果文献文献 9(2022)文献 6(2023)文献 7(2022)文献 20(2023)文献 21(2021)文献 22(2021)文献 23(2018)文献 23(2018)文献 23(2018)本文方法数据PIMAPIMAPIMAPIMAPIMAPIMAPIMAPIMAPIMAPIMA模型LightGBM集成算法KNN+Adaboost+LightGBM遗传算法+决策树KFPredict软投

49、票分类器量子启发的集成方法朴素贝叶斯SVM决策树RF-RFECV-LightGBMAccuracy0.9160.90760.8212560.9350.79080.9050.7630.6510.73820.9415Precision0.9200.87450.80700.73130.920.7590.4240.7350.9423Recall0.8360.85820.85980.850.70.890.7630.6510.7380.8909F10.8760.86630.83260.71560.9050.760.5130.7360.9158AUC0.9650.920.85110.80980.8190.5

50、0.7510.9832所有方法的研究对象都是 PIMA 数据集。本文所提方法在5项性能指标上都要优于文献中所提方法,表明了RF-RFECV-LightGBM算法在糖尿病预测上的有效性和泛化能力。3影响因素分析为了进一步识别出影响糖尿病的关键高危因素,帮助人们制定有针对性的干预措施,分别采用LightGBM和随机森林算法基于CHARLS数据集将所有特征进行了重要性排序,如图10、图11所示。可以看出 2 种算法的排序结果不完全相同,LightGBM算法按照重要性排在前10的包括:bl_hbalc(糖化血红蛋白)、bl_glu(葡萄糖)、bl_tg(甘油三酯)、BMI、bl_crp(C 反应蛋白)

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服