1、医药前沿 2024年3月 第14卷第7期 综合医学 143基于 SMOTE 的神经外科患者输血机器学习预测模型建立刘 威1,熊 伟2,刘 强2(通信作者)(1 南昌大学第一附属医院输血科 江西 南昌 330006)(2 南昌大学第一附属医院信息处 江西 南昌 330006)【摘要】目的:采用过采样-机器学习算法的神经外科患者输血预测模型建立,指导临床用血决策。方法:选取2015 年 1 月2018 年 12 月南昌大学第一附属医院收治的 9 006 例神经外科手术患者为研究对象。通过缺失值、异常值处理及特征筛选共纳入 27 个特征,采用合成少数过采样算法(SMOTE)包括 Borderline
2、-SMOTE、SVM-SMOTE 对逻辑回归、随机森林、XGboost 和 LightGBM 模型 4 种机器学习算法的优化升级,以探索最佳神经外科患者输血预测模型。结果:未使用过采样方法前的 4 种模型预测结果显示 lightGBM 模型效果最佳,随机森林模型效果最差,F1-score 值仅为0.659 2。采用2种过采样方法对4种模型进行3种比例的过采样比较,结果显示过采样后4种模型观测均有明显提升。在模拟比例相同模型中 Borderline-SMOTE 对逻辑回归、XGBoost 模型提升最大;SVM-SMOTE 对随机森林、lightGBM提升最大;过采样后仍是 lightGBM 模型
3、效果最佳,F1-score 值可达到 0.924 8。结论:过采样算法可有效提升现有不平衡数据的机器学习模型预测效果,SVM-SMOTE 和 lightGBM 的模型在神经外科手术患者临床用血中的预测效果较好。【关键词】临床输血;预测模型;过采样;机器学习算法【中图分类号】R826.2【文献标识码】A【文章编号】2095-1752(2024)07-0143-04血液输注是保障创伤性失血性休克或术中大量失血患者救治成功率的重要辅助手段1。研究显示,神经外科患者术前贫血率可高达 20%,且贫血术前患者术中输血率与输血量均明显高于未贫血患者2。但有研究显示红细胞输注与输血相关并发症与不良预后相关,如
4、免疫抑制、术后感染与肾损伤3-5,输血的收益与风险关系尚不明确。因此,准确评估与预测神经外科患者术中输血风险,做出最佳输血治疗决策对患者临床救治意义重大。随着互联网+、大数据、云计算等新兴信息技术的飞速发展,基于大数据的数据分析挖掘、机器学习和人工智能技术在医疗领域中有着极大的应用前景6-7。数据是是机器学习和人工智能的基础,但由于医疗行业的特殊性,医疗数据不平衡的问题变得尤为突出。若不对医疗数据中类别分布的不平衡问题进行处理,将会使得多数类淹没少数类,得不到好的分类效果或预测模型效果不佳8-9。因此,本研究将通过不同过采样技术处理不平衡数据,再使用逻辑回归、随机森林、XGboost 和Lig
5、htGBM 模型对数据集南昌大学第一附属医院神经外科患者术中用血病例资料进行挖掘分析,探讨过采样处理的不同分类模型下的分类结果,建立患者术中用血随机森林预测模型,以期为手术患者临床输血治疗决策提供建议和指导。1 资料与方法1.1 一般资料利用手术麻醉管理系统和临床用血管理与评价信息系统检索南昌大学第一附属医院 2015 年 1 月2018 年12 月的所有神经外科手术成年患者的资料。患者所有临床资料均来源于医院病案系统、医院信息系统、临床检验信息系统和临床用血管理与评价信息系统数据库。选取的临床资料包括患者年龄,性别,体重,检验指标,手术等级,手术次数,麻醉方式,术前是否输血,术中输血量。纳入
6、标准:(1)接受神经外科手术患者;(2)无传染病。排除标准:(1)年龄 18 岁;(2)病例资料存在缺失的患者。1.2 特征处理与选择1.2.1 缺失值与异常值处理 为了保证数据的完成性与可靠性,选取了缺失值占比小于等于 10%的特征,其他缺失特征根据数据特征使用中位数、平均数和多重回归插补等方法填充。使用3与人工判断原则处理异常值,在数据基本符合正态分布的基础上认为特征值在(3)之外的数据为极端值,将识别出的极端值进行删除或以缺失值模式填充。其中 为该特征的均值,为该特征的标准差。1.2.2 纳入数据概况 经数据提取并行转列处理后共纳入 9 006 条患者数据,数据以患者住院 ID 作为唯一
7、标识。将初步处理后的数据通过患者ID连接患者输血数据、患者手术情况以及患者基本信息数据,形成一个包含检查-输血-手术-患者基本信息的完整数据集,见表 1。1.2.3 不平衡数据规模设置 采用神经外科不平衡数据集,根据是否输血的类型分布,在实验中模拟出不同比例的不平衡数据集,见表 2。基金项目:江西省重点研发计划项目(20192ACB50014);江西省卫生健康委员会科技计划项目(202130327)。144 医药前沿 2024年3月 第14卷第7期 综合医学表 1 患者指标维度框架一级指标二级指标指标说明患者个体因素患者 ID 性别年龄手术次数患者是否术前输血患者是否术中输血已知输血影响因素红
8、细胞计数(red blood cell count,RBC)血常规血红蛋白(hemoglobin,HB)血小板计数(platelet count,PLT)红细胞压积(hematocrit,HCT)凝血酶原时间(prothrombin time,PT)凝血功能活化部分凝血活酶时间(activated partial thromboplastin time,APTT)国际标准化比例(international normalized ratio,INR)纤维蛋白原(fibrinogen,FIB)D-二聚体手术因素手术名称失血量手术等级是否全麻是否局麻是否复合麻醉其他指标 谷氨酰转移酶肝功能丙氨酸氨基
9、转移酶丙肝核心抗原传染病指标乙肝 e 抗体等表 2 两种样本数量比例比例规模未输血样本数量输血样本数量原数据比例6 9232 083少数类样本 26 9234 166少数类样本 36 9236 249比例相同6 9236 9231.3 过采样算法合成少数过采样技术(synthetic minority over-sampling technique,SMOTE)的主要思想便是在原有少数类数据的基础上对其进行复制,或通过某种手段合成新的数据来达到扩充少数类数据的目的从而平衡整个数据集。本研究采用的过采样算法包括 Borderline-SMOTE、SVM-SMOTE。1.4 统计学方法采用 Pyt
10、hon 语言统计软件进行对数据进行处理。符合正态分布的计量资料用均数 标准差(x s)表示,组间比较采用 t 检验;不符合正态分布的计量资料用中位数和四分间距M(IQR)表示,两组间比较采用Mann-Whitney U 检验。计数资料采用频数表示,组间比较采用2检验,当理论频数小于 5,改用 Fisher 确切概率法;等级资料比较采用秩和检验。在模型构建中以7 3 的比例将数据集分为训练集与测试集,采用逻辑回归、随机森林、XGBoost、lightGBM 等 4 种模型作为建模算法,然后选择 Borderline-SMOTE、SVM-SMOTE两种方法对数据进行过采样,并采用受试者工作特征(r
11、eceiver operating characteristic,ROC)曲线、ROC 曲线下面积(area under curve,AUC)、F1-score 值、召回(Recall)率和精确率对模型进行预测准确度分析。P0.05为差异有统计学意义。2 结果2.1 输血组与未输血组患者的基本资料比较根据输血组与未输血组患者的基本资料比较结果,筛选出两组比较存在差异的特征共 27 个,见表 3。表 3 输血组与未输血组患者的基本资料比较指标训练集(n=6 304)测试集(n=2 702)未输血组(n=4 878)输血组(n=1 426)U/2P未输血组(n=2 045)输血组(n=657)U/
12、2P年龄M(IQR),岁52.8(13.5)55.1(13.1)5.70 0.0153.3(13.5)54.7(13.2)2.260.02红细胞M(IQR),1012/L4.1(0.7)4.0(0.8)3.87 0.014.0(0.7)4.0(0.8)1.550.12血小板M(IQR),109/L221.5(79.5)201.3(75.0)12.21 0.01221.7(75.3)204.0(77.1)7.94 0.01血红蛋白M(IQR),g/L130.2(18.6)128.5(20.9)3.22 0.01130.5(19.0)129.1(21.0)1.590.11红细胞比积M(IQR)0.
13、4(0.1)0.4(0.1)3.77 0.010.4(0.1)0.4(0.1)1.910.056白细胞M(IQR),109/L7.9(4.4)10.3(6.1)13.73 0.017.9(4.4)10.4(5.7)11.65 0.01淋巴细胞M(IQR),109/L1.5(0.7)1.3(0.7)8.40 0.011.5(0.7)1.3(0.7)5.03 0.01单核细胞M(IQR),109/L0.5(0.3)0.5(0.3)6.06 0.010.5(0.3)0.5(0.3)4.91 0.01嗜中性粒细胞M(IQR),109/L5.9(4.4)8.5(5.9)17.68 0.016.0(4.4
14、)8.5(5.7)11.99 0.01凝血酶原时间M(IQR),s11.0(1.1)11.2(2.0)8.12 0.0110.9(1.0)11.2(2.5)4.26 0.01国际标准化比率M(IQR)1.0(0.1)1.0(0.1)4.54 0.011.0(0.1)1.0(0.2)2.68 0.01总胆红素M(IQR),mol/L10.2(5.7)11.9(7.3)9.47 0.0110.1(5.7)11.5(6.5)5.22 0.01直接胆红素M(IQR),mol/L2.9(2.0)3.6(3.1)9.48 0.012.9(1.9)3.4(2.5)6.25 0.01天门冬氨酸氨基转移酶M(I
15、QR),U/L26.2(33.1)29.5(23.0)3.45 0.0126.9(22.3)29.9(22.2)3.05 0.01肌酸激酶M(IQR),U/L151.2(527.6)227.7(752.5)4.34 0.01160.5(644.5)218.2(464.4)2.120.034医药前沿 2024年3月 第14卷第7期 综合医学 145表 3(续)指标训练集(n=6 304)测试集(n=2 702)未输血组(n=4 878)输血组(n=1 426)U/2P未输血组(n=2 045)输血组(n=657)U/2P肌酸激酶MB同功酶 M(IQR),U/L18.3(10.4)22.6(22.
16、5)10.20 0.0118.9(14.3)21.6(15.4)4.16 0.01葡萄糖M(IQR),mmol/L5.9(2.1)6.5(2.6)9.38 0.015.9(2.1)6.6(2.5)7.14 0.01钾M(IQR),mmol/L3.9(0.4)3.9(0.4)3.210.0013.9(0.4)3.9(0.4)1.870.06钠M(IQR),mmol/L140.3(3.7)140.0(3.7)2.180.028140.4(3.6)139.8(4.3)3.09 0.01氯M(IQR),mmol/L103.0(5.4)102.4(4.4)3.43 0.01103.2(5.8)102.4
17、(5.2)3.21 0.01钙M(IQR),mmol/L2.3(0.2)2.3(0.2)7.80 0.012.3(0.2)2.3(0.2)3.31 0.01预估失血量M(IQR),mL261.4(224.5)801.2(675.5)47.55 0.01271.0(207.8)777.7(523.2)35.87 0.01手术等级 n(%)131.81 0.0177.31 0.011 级49(1.0)3(0.2)30(1.5)1(0.2)2 级907(18.6)277(19.4)368(18.0)114(17.4)3 级792(16.2)71(5.0)346(16.9)30(4.6)4 级3 13
18、0(64.2)1 075(75.4)1 301(63.6)512(77.9)手术次数 n(%)32.98 0.0112.570.011 次3 716(76.2)1 175(82.4)1 539(75.3)536(81.6)2 次763(15.6)186(13.0)330(16.1)85(12.9)3 次271(5.6)38(2.6)110(5.4)20(3.0)4 次128(2.6)27(2.0)66(3.2)16(2.5)手术时长M(IQR),h3.3(2.7)5.2(2.3)4.61 0.013.78(2.8)5.3(2.2)0.840.39麻醉方式 n(%)181.66 0.0186.4
19、2 0.01全身麻醉4 295(88.0)1 423(99.8)1 784(87.2)655(99.7)局部麻醉581(11.9)3(0.2)261(12.7)2(0.3)复合麻醉2(0.1)0(0.0)0(0.00)0(0.00)术前输血 n(%)4 700(96.4)1 339(93.9)15.78 0.011 975(96.6)627(95.4)1.750.182.2 过采样-机器学习算法结果分析2.2.1 未使用过采样的模型比较 未使用过采样方法前的 4 种模型预测结果显示 lightGBM 模型效果最佳,随机森林模型效果最差,F1-score 值仅为 0.659 2。见表 4、图 1
20、。表 4 未使用过采样方法前的 4 种模型预测结果方法准确率AUC 值Recall 值F1-score 值逻辑回归0.868 20.914 30.616 40.694 7随机森林0.854 60.913 70.578 40.659 2XGBoost0.857 50.907 00.660 60.692 7lightGBM0.867 90.929 40.680 40.714 62.2.2 使用过采样的模型比较 采用 2 种过采样方法对 4 种模型进行了 3 种比例的过采样比较,结果显示过采样后 4 种模型观测均有明显提升,其中在模拟比例相同模型中 Borderline-SMOTE 对逻辑回归、XG
21、Boost 模型提升最大;SVM-SMOTE 对随机森林、lightGBM 提升最大;过采样后仍是 lightGBM 模型效果最佳,见表 5 和 图 2、3。表 5 过采样方法前的 4 种模型预测结果(模拟比例相同)方法准确率 AUC 值RecallF1-score 值Borderline-SMOTE_ 逻辑回归0.856 50.928 30.860 10.857 2Borderline-SMOTE_XGBoost0.915 70.976 10.911 50.915 5SVM-SMOTE_ 随机森林0.914 10.972 70.932 70.915 7SVM-SMOTE_lightGBM0.
22、925 10.979 10.919 70.924 83 讨论近年来,数据挖掘、机器学习和人工智能等技术越来越多的应用到医学行业,但医学数据不平衡较为突出,常会给分类器的实用性带来很大的影响,影响着技术、模型建立与应用。本研究利用不同过采样方法对是否输血二分类中不同比例的数据集进行模拟生成,并采用4 种机器学习模型进行了模型构建与预测,研究显示随着数据集不平衡比例的逐渐减小,各分类算法的分类性能逐渐提升。本研究中采用了 Borderline-SMOTE 和 SVM-SMOTE 2 种过采样方法对数据进行了平衡处理,并利用 4 种机器学习算法进行预测模型构建,除逻辑回归算法外,其他算法模型优化后的
23、最佳预测效果(Recall 值、F1-score值)均能达到 0.9 以上,取得了较好的分类效果。本研究使用的 Borderline-SMOTE 和 SVM-SMOTE 均是在单一 SMOTE 方法基础上进行了优化,均使用边界上的少数类样本来合成新样本,从而改善样本的类别分布,并避免了极端数据的影响,相较于单一 SMOTE 算法表现更为优越10-11。然而,逻辑回归算法的性能未能有效提高,原因可能与过采样方法的特性有关。由于现有过采样方法均是在现有的少数类样本上进行扩展12,所以新生成的样本和原先的样本具有强关联性。在逻辑回归算法中,边界对结果的影响很大,而正因为新生成的样本和原先的样本的相似
24、性,使得边界不会发生大的变化,故而对性能的改善非常小,因此,SMOTE算法仍存在改进空间。146 医药前沿 2024年3月 第14卷第7期 综合医学本研究也存在一定的局限性,首先,本研究数据为单中心回顾性数据,未能采用外部数据进行模型效果验证,其次,仅采用了两种方法进行数据平衡处理,且已有基于深度学习的 SMOTE 算法应用于医学影像领域13,因此,仍需要进一步多中心研究予以解决。综上所述,过采样算法可有效提升现有不平衡数据的机器学习模型预测效果,SVM-SMOTE 和 lightGBM的模型在神经外科手术患者临床用血中的预测效果较好,其中,SVM-SMOTE 算法的性能更为优异。【参考文献】
25、1 霍延伟,赵新昂,程永涛,等通用型红细胞输血与配合型输血联合应用在创伤失血性休克抢救中的价值研究 J临床急诊杂志,2021,22(10):657-662.2 刘俊婷,林洁,周玲玲,等某三甲医院神经外科患者术前贫血状况调查 J中国输血杂志,2020,33(3):201-205.3 SIM J H,KIM S H,JUN I G,et al.The Association between Prognostic Nutritional Index(PNI)and Intraoperative Transfusion in Patients Undergoing Hepatectomy for He
26、patocellular Carcinoma:A Retrospective Cohort StudyJ.Cancers(Basel),2021,13(11):2508.4 HERNNDEZ-HERNNDEZ MIGUEL A,SNCHEZ-MORENO LAURA,ORIZAOLA PEDRO,et al.A prospective evaluation of phrenic nerve injury after lung transplantation:Incidence,risk factors,and analysis of the surgical procedureJ.J Hear
27、t Lung Transplant,2022,41:50-60.5 EGHBAL M H,SAMADI K,KHOSRAVI M B,et al.The impact of preoperative variables on intraoperative blood loss and transfusion requirements during orthotopic liver transplant J.Exp Clin Transplant,2019,17(4):507-512.6 MCPADDEN J,DURANT T J,BUNCH D R,et al.Health care and
28、precision medicine research:Analysis of a scalable data science platformJ/OL.J Med Internet Res,2019,21(4):e13043.https:/doi.org/10.2196/13043.7 BEAM A L,KOHANE I S.Big data and machine learning in health careJ.JAMA,2018,319(13):1317-1318.8 李艳霞,柴毅,胡友强,等不平衡数据分类方法综述 J控制与决策,2019,34(4):673-688.9 LONGADG
29、E R,DONGRRE S S,MALIK L.Class imbalance problem in data mining:reviewJ.IJCSNS,2013,2(1):83-87.10 石颖花,黄子珊,蓝宁路基于 SMOTE 算法的下肢创伤性骨折术后下肢深静脉血栓形成风险预警模型的构建J医学理论与实践,2023,36(19):3259-3262+3255.11 王梅英,杨敏,刘佳微,等基于 SMOTE 算法的化疗肿瘤患者下呼吸道感染预警模型构建 J中国感染控制杂志,2021,20(12):1094-1101.12 NAKAMURA M,KAJIWARA Y,OTSUKA A,et al
30、.LVQ-SMOTE-Learning Vector Quantization based Synthetic Minority Over-sampling Technique for biomedical data J.Bio Data Min,2013,6(1):16.13 DABLAIN D,KRAWCZYK B,CHAWLA N V.DeepSMOTE:Fusing Deep Learning and SMOTE for Imbalanced Data J.IEEE Trans Neural Netw Learn Syst.2023;34(9):6390-6404.特异度(假阳性率)敏感度(真阳性率)图 1 未使用过采样方法前的 4 种模型预测 ROC 曲线特异度(假阳性率)敏感度(真阳性率)图2 Borderline-SMOTE过采样4种模型预测ROC曲线(模拟比例相同)特异度(假阳性率)敏感度(真阳性率)图 3 SVM-SMOTE 过采样 4 种模型预测 ROC 曲线(模拟比例相同)