1、第5 4卷 第5期2 0 2 3年9月 太原理工大学学报J OUR NA L O F T A I YUAN UN I V E R S I T Y O F T E CHNO L OG Y V o l.5 4 N o.5 S e p.2 0 2 3 引文格式:刘晓玉,李灯熬,赵菊敏.基于多核S VM的A d a B o o s t心力衰竭死亡率评估模型J.太原理工大学学报,2 0 2 3,5 4(5):8 0 4-8 1 1.L I U X i a o y u,L I D e n g a o,Z HAO J u m i n.A m o r t a l i t y p r e d i c t i n
2、 g m o d e l f o r h e a r t f a i l u r e p a t i e n t s b a s e d o n A d a B o o s t w i t h m u l t i-k e r n e l S VMJ.J o u r n a l o f T a i y u a n U n i v e r s i t y o f T e c h n o l o g y,2 0 2 3,5 4(5):8 0 4-8 1 1.收稿日期:2 0 2 2-0 5-1 9;修回日期:2 0 2 2-0 6-2 4 基金项目:国家重大科研仪器研制项目(6 2 0 2 7 8
3、1 9);国家自然科学基金资助项目(6 2 0 7 6 1 7 7,6 1 7 7 2 3 5 8);山西省关键核心技术和共性技术研发专项资助项目(2 0 2 0 X X X 0 0 7)第一作者:刘晓玉(1 9 9 6-),硕士研究生,(E-m a i l)3 2 9 2 4 7 8 8 0 4q q.c o m 通信作者:李灯熬(1 9 7 1-),博导,教授,主要从事智能感知与物联网技术、空天地一体化与导航技术、大数据分析技术与应用研究,(E-m a i l)l i d e n g a o t y u t.e d u.c n基于多核S VM的A d a B o o s t心力衰竭死亡率评
4、估模型刘晓玉,李灯熬,赵菊敏(太原理工大学 信息与计算机学院(大数据学院),山西 晋中 0 3 0 6 0 0)摘 要:【目的】心力衰竭简称心衰,是一种复杂的临床综合征,具有高发病率、高死亡率和预后效果不佳等显著特点,是各类心脏疾病发展的终末期,严重危害人类健康。因此,对心衰患者进行早期的预后评估研究至关重要,可以最大程度地帮助患者生存。【方法】提出一种基于多核支持向量机(m u l t i k e r n e l s u p p o r t v e c t o r m a c h i n e,MK-S VM)和自适应提升算法(a d a p t i v e b o o s t i n g,A
5、 d a B o o s t)的心力衰竭死亡率评估模型(MK-S VM-A d a B o o s t).该算法利用MK-S VM将特征映射到高维空间,并依据A d a B o o s t算法将基本分类器进行集成,实现死亡率的精确预测。同时,将合成少数过采样技术(s y n t h e t i c m i n o r i t y o v e r s a m p l i n g t e c h n i q u e,S MO T E)和T o m e k l i n k s欠采样技术相结合的混合抽样方法引入到预测模型中,减轻不平衡数据集对模型性能的影响。【结果】在收集于白求恩医院的小型心衰数据集上
6、进行心衰患者3 0 d内死亡率预测实验。实验结果表明,MK-S VM-A d a B o o s t模型的准确率和召回率分别达到了8 5.6 3%和8 6.3 3%,优于现有方法,R O C曲线下与坐标轴围成的面积(a r e a u n d e r c u r v e,AU C)和其微观平均值(m i c r o-m e a n AU C,M i A-AU C)分别达到了9 1.0 0%和9 2.0 0%,表明提出的模型具有良好的稳定性。【结论】提出的模型具有较高的准确率和稳定性,可以为医生的临床决策提供一定的参考。今后课题将继续对数据集进行扩充,并对分级预警进行研究,以便对患者进行更有效的
7、评估。关键词:心力衰竭;多核支持向量机;A d a B o o s t算法;死亡率预测中图分类号:T P 1 8 1;T P 3 9 9 文献标识码:AD O I:1 0.1 6 3 5 5/j.t y u t.1 0 0 7-9 4 3 2.2 0 2 3.0 5.0 0 7 文章编号:1 0 0 7-9 4 3 2(2 0 2 3)0 5-0 8 0 4-0 8A M o r t a l i t y P r e d i c t i n g M o d e l f o r H e a r t F a i l u r e P a t i e n t s B a s e d o n A d a
8、B o o s t w i t h M u l t i-k e r n e l S VML I U X i a o y u,L I D e n g a o,Z H A O J u m i n(C o l l e g e o f I n f o r m a t i o n a n d C o mp u t e r(C o l l e g e o f D a t a S c i e n c e),T a i y u a n U n i v e r s i t y o f T e c h n o l o g y,J i n z h o n g 0 3 0 6 0 0,C h i n a)A b s
9、t r a c t:【P u r p o s e s】H e a r t f a i l u r e i s a c o m p l e x c l i n i c a l s y n d r o m e w i t h s i g n i f i c a n t f e a t u r e s s u c h a s h i g h m o r b i d i t y,h i g h m o r t a l i t y,a n d p o o r p r o g n o s i s.I t i s t h e t e r m i n a l s t a g e i n t h e d e v
10、 e l-o p m e n t o f a l l t y p e s o f h e a r t d i s e a s e a n d s e r i o u s l y t h r e a t e n s h u m a n h e a l t h.T h e r e f o r e,e a r l y p r o g-n o s t i c a s s e s s m e n t s t u d i e s o f h e a r t f a i l u r e p a t i e n t s a r e c r u c i a l t o h e l p t h e s u r v
11、 i v a l o f p a t i e n t s.【M e t h o d s】A h e a r t f a i l u r e m o r t a l i t y a s s e s s m e n t m o d e l(MK-S VM-A d a B o o s t)b a s e d o n M u l t i K e r n e l S u p p o r t V e c t o r M a c h i n e(MK-S VM)a n d A d a p t i v e B o o s t i n g(A d a B o o s t)a l g o r i t h m i
12、s p r o-p o s e d.T h e a l g o r i t h m u t i l i z e s MK-S VM t o m a p f e a t u r e s i n t o a h i g h-d i m e n s i o n a l s p a c e a n d i n-t e g r a t e s b a s i c c l a s s i f i e r s o n t h e b a s i s o f t h e A d a B o o s t a l g o r i t h m t o a c h i e v e a c c u r a t e m
13、o r t a l i t y p r e-d i c t i o n.M e a n w h i l e,a h y b r i d s a m p l i n g m e t h o d c o m b i n i n g S y n t h e t i c M i n o r i t y O v e r s a m p l i n g T e c h n i q u e(S MOT E)a n d T o m e k l i n k s u n d e r-s a m p l i n g t e c h n i q u e i s i n t r o d u c e d i n t o
14、t h e p r e d i c t i o n m o d e l t o a l l e v i a t e t h e i m p a c t o f u n b a l a n c e d d a t a s e t s o n m o d e l p e r f o r m a n c e.【F i n d i n g s】E x p e r i-m e n t s w e r e p e r f o r m e d o n a s m a l l h e a r t f a i l u r e d a t a s e t c o l l e c t e d f r o m B e
15、 t h u n e H o s p i t a l f o r m o r-t a l i t y p r e d i c t i o n i n h e a r t f a i l u r e p a t i e n t s w i t h i n 3 0 d a y s.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a t t h e a c c u r a c y a n d r e c a l l o f t h e MK-S VM-A d a B o o s t m o d e l r e a c h 8 5.6 3
16、%a n d 8 6.3 3%,r e s p e c t i v e l y,w h i c h a r e b e t t e r t h a n t h a s e o f t h e e x i s t i n g m e t h o d s.T h e A r e a U n d e r C u r v e(AU C)u n d e r t h e R O C c u r v e e n c l o s e d w i t h t h e a x e s a n d i t s m i c r o-m e a n(M i A-AU C)r e a c h 9 1.0 0%a n d
17、9 2.0 0%,r e s p e c t i v e l y,w h i c h i n d i c a t e s t h a t t h e p r o p o s e d m o d e l h a s g o o d s t a b i l i t y.【C o n c l u s i o n s】T h e p r o-p o s e d m o d e l h a s h i g h a c c u r a c y a n d s t a b i l i t y,a n d c a n p r o v i d e s o m e r e f e r e n c e f o r
18、t h e c l i n i c a l d e c i-s i o n-m a k i n g o f d o c t o r s.I n t h e f u t u r e,t h e d a t a s e t w i l l b e e x p a n e d a n d t h e g r a d e d w a r n i n g s w i l l b e s t u d i e d f o r m o r e e f f e c t i v e a s s e s s m e n t o f p a t i e n t s.K e y w o r d s:h e a r t
19、f a i l u r e;m u l t i-k e r n e l s u p p o r t v e c t o r m a c h i n e;A d a B o o s t a l g o r i t h m;m o r t a l i-t y p r e d i c t i o n 心力衰竭(简称心衰),指心脏由于结构损伤或功能异常导致的不能正常泵血以满足身体需要的疾病。心衰通常由慢性糖尿病、高血压疾病、心肌病及其他心脏病病变造成,是一种复杂的临床综合征1,具有高患病率、高致死率、高医疗费用、患者逐渐年轻化和预后效果不佳等诸多特点。在中国,年龄3 5岁的成人中心衰患病率达到1.3%
20、,约1 3 7 0万。在过去的1 5 a期间,心衰患病率增长了4 4%2.2 0 2 0年,我国心衰病人的院内死亡率为1.6%,3 0 d再入院率为4.7%,平均住院时长达到9 d,年人均总费用近1.7 4万元,远高于年人均可支配收入3。可见,心衰严重威胁着人类健康,其防治形势十分严峻4。其中,对心衰患者早期预后死亡率进行准确估计,可以为医生和患者提供一定的临床参考。一方面,帮助临床医生及时了解患者未来疾病发展的状况及带来的风险,并根据患者的情况对治疗的具体方案做出明智的决策,遏制病患病情加重。另一方面,对病情风险的准确预测能够避免无意义的干预措施,减轻医疗负担5。目前,针对心衰患者预后死亡率
21、的研究模型主要分为两种。一种是基于传统医学和统计学的预后评估模型。如西雅图心衰模型、慕尼黑评分模型等。但此类模型的应用存在一定的局限性,如慕尼黑评分模型没有详细考虑影响心衰预后的各项实验室指标。另一种是基于机器学习和深度学习算法的预后评估模型。如S HAME E R e t a l6基于心衰患者的电子医疗记录,建立了相关性特征选择和朴素贝叶斯相结合的再入院率预测模型,准确率达到8 3.1 9%.A R T E T X E e t a l7基于心衰病人的人口学资料、用药及生活习惯等信息,采用序列特征选择方法和支持向量机实现心衰患者3 0 d再入院或死亡风险的预测。WANG e t a l8通过将
22、邻域判别约束准则引入到多经验核学习实现心衰患者的死亡率预测,并通过特征分析发现了对于心衰患者存亡影响程度最大的三项指标,即心率、钠元素和抗心律失常药物。S AMA D e t a l9在电子病历1 0的基础上,结合超声心动图衍生的额外测量值,采用非线性随机森林实现了心衰病人的1 a和5 a生存预测,并进行特征重要性排序,证实了超声心动图指标三尖瓣反流速度对心衰患者的生存具有重要影响。相对于基于传统医学和统计学的预后评估模型,此类模型可以综合分析患者信息,具有较好的可移植性。针对上述医学模型在数据处理和识别风险率方面的局限性,且在心衰的临床预后上存在过度依赖医生决策和医患交谈的问题,本文提出一种
23、基于多核支 持 向 量 机(m u l t i-k e r n e l s u p p o r t v e c t o r m a-c h i n e,MK-S VM)的 自 适 应 提 升 算 法(a d a p t i v e b o o s t i n g,A d a B o o s t)来进行心衰患者的死亡率研究,解决了小样本、不平衡数据下心衰患者预后情况不乐观的问题。该方法主要贡献:1)将在处理小样508 第5期 刘晓玉,等:基于多核S VM的A d a B o o s t心力衰竭死亡率评估模型本、非线性和高纬度的模式识别问题上具有优势的MK-S VM作为基本分类器,利用A d a
24、B o o s t进行快速集成学习,从而提升死亡率预测的精准度。2)在预测模型上引入S MOT E和T o m e k l i n k s相结合的混合采样方法,解决数据不平衡问题的同时能够进一步减少噪音的干扰,提升模型的稳定性。本文具体的实验流程如图1所示,主要包括数据预处理和死亡率预测算法两部分。数据预处理SMOTE+Tomek?Links心衰数据集电子健康记录MK-SVM-AdaBoost算法30?d 死亡率图1 模型算法流程图F i g.1 M o d e l a l g o r i t h m f l o w1 数据的使用1.1 数据介绍山西白求恩医院历史悠久,拥有庞大的区域卫生系统,
25、记录了多样的、全面的住院患者信息。据此我们收集并建立了小型的心衰数据集,数据集由2 0 1 8年2月至2 0 2 0年1月的有住院记录的1 1 4 0例心衰患者组成。其中,3 0 d内死亡患者有4 3 9例,未死亡患者有7 0 1例,数据集的不平衡率为1.7 1 4.为充分探讨影响心衰患者短期生存的因素,我们收集了心衰患者的5种相关信息,包括一般检查指标(性别、年龄等)、相关性疾病、用药信息、住院信息和实验室检测指标1 0。1.2 数据预处理为了提高模型的性能,本文结合医学统计经验知识,对部分连续特征进行了离散化和向量化,如用药信息。最终,心衰数据的表现形式见表1.同时,为了消除指标离群值和指
26、标量纲的影响,采用Z-s c o r e标准化方法对数值信息进行处理,使各指标处于同一数量级。x=x-.(1)其中,x是原始特征值,x 是标准化后的值。此外,是数据集单一特征的平均值,是数据集单一特征的方差。表1 患者特征信息表T a b l e 1 P a t i e n t c h a r a c t e r i s t i c i n f o r m a t i o n索引特征名称范围o n e-h o t编码1性别0,10男性,1女性2年龄1 89 6连续数值3BM I04.0 4连续数值4心率01 9 8连续数值5体温/3 54 2连续数值6收缩压/mmH g5 02 5 2连续数值
27、7舒张压/mmH g3 01 4 6连续数值81 6相关疾病信息0,10未患病,1患病1 72 5用药信息0,10未使用,1使用2 63 8住院信息0,1-3 97 7实验室检测信息-连续数值1.3 S MOT E+T o m e k l i n k s技术本文心衰数据存在不平衡问题,会对死亡率预测产生不良影响,使得模型不能较好区分两个类别,因此在数据预处理后引入S MOT E+T o m e k l i n k s的混合采样技术对数据进一步处理。合成少数过采样技术(s y n t h e t i c m i n o r i t y o v e r-s a m p l i n g t e c
28、h n i q u e,S MOT E)1 1是通过样本最近的邻居随机合成数据,从而增加数据实例的数量。首先找到K个最近的邻居,然后随机选择其中的一个邻居xi,其中为取值0或1的随机值。xn e w=xi+(xi-xi).(2)T o m e k l i n k s技术是一种数据清洗技术1 2,可以快速从较多类别样本中删除一些样本。给定一堆样本对(xi,xj),xi属于少数类,xj属于多数类,d(xi,xj)为两者之间的欧式距离,如果不存在任何样本对满足式(3)或(4),则样本对(xi,xj)称为T o m e k l i n k s.d(xi,xk)d(xi,xj).(3)d(xj,xk)d
29、(xi,xj).(4)S MOT E+T o m e k l i n k s方法的具体流程如图2所示。首先设定不平衡率的比较值I R 0=1,用于衡量数据集的不平衡情况。然后对少数类样本使用S MOT E方法增加其样本数量,再对多数类样本使用T o m e k l i n k s方法删除噪声样本。计算重复上述操作,直到两类样本数目达到平衡(I R=1),得到最终用于心衰患者死亡率预测的实验数据。结果显示,对本文数据集来说,T o m e k l i n k s方法克服了S MOT E方法带来的噪声样本的问题,即通过两种方法的结合使用可以在增加样本的同时去除噪声样本,减轻数据不平衡带来的问题。6
30、08太 原 理 工 大 学 学 报 第5 4卷 原始数据预处理设定 IR0少数类样本SMOTE 算法多数类样本计算 IR 值IR1?多数类样本Tomek?link 算法是新数据集IR1?心力衰竭患者死亡率预测是否否图2 混合采样流程图F i g.2 F l o w c h a r t o f m i x e d s a m p l i n g2 心力衰竭死亡率评估模型2.1 多核支持向量机支持向量机是一种常见的用于分类问题的监督学习方法,目前已经被广泛地应用于生物信息学和医学信息学领域1 3-1 4。其工作原理是根据样本空间中的最佳分类超平面实现待测样本的判别。但在实际应用中,由于数据的复杂性
31、,采用线性核函数的S VM 模型性能效果不佳。而采用非线性核函数的S VM则可以通过空间映射解决非线性和高维度问题1 5。因此,本文采用MK-S VM算法进行死亡率预测,其中核函数采用了具有较强泛化能力的P o l y n o m i a l核和具有较强学习能力的S i g m o i d核的组合形式,具体组成如式(5)所示。K(xi,xj)=1Kp o l y n o m i a l(xi,xj)+2Ks i g m o i d(xi,xj)1+2=1.(5)其中,1、2可以自由调整多重核函数中不同核的权值。此时,S VM分类超平面表示如公式(6)所示。W()=li=1i-12li,j=1y
32、iyjijK(xi,xj).(6)S VM的最优分类判别函数为式(7),当最终的加权和大于0时,可以判定待测样本为3 0 d内死亡的心衰患者;反之,判定为3 0 d内未死亡的心衰患者。f(x)=s i g nli=1*iyiK(xi,xj)+b*.(7)2.2 自适应提升算法自适应提升算法1 6是一种基于B o o s t i n g思想的提升算法,是一种典型的集成算法,已被广泛应用于解决分类和回归问题。该算法的思路不断地添加新的弱分类器,使得整个分类结果能够达到某个预定的、足够小的误差率。具体而言,A d a B o o s t算法的适应性在于每次迭代后自适应地调整样本权重,分类错误的样本权
33、重将增加,分类正确的样本权重将减少。在此过程中,被分错的样本会加入到下一个分类器训练过程中,直到这些样本分类正确。所以,A d a B o o s t 算法有以下优点:A d a B o o s t 提供框架,各种类型的弱分类器可用于构建子分类器;不会造成过拟合;能够有效提高分类准确率。2.3 基于多核S VM的A d a B o o s t算法针对小样本、高维度的心衰数据,本文首先采用在处理小样本、非线性和高维度的模式识别问题上具有优势的MK-S VM算法,将其作为基本分类器进行使用,以便充分考虑不同类型的特征,加深对心衰特征的学习。其次利用集成学习算法A d a B o o s t将MK-
34、S VM进行级联,得到最终用于死亡率预测的强分类器,并称其为MK-S VM-A d a B o o s t算法。该算法依据基本分类器MK-S VM的分类误差调整模型的权重,增强对少数样本的关注程度;同时充分考虑了每个基本分类器,具有极强的泛化能力和较高的预测精度。MK-S VM-A d a B o o s t算法的具体模型如图3所示,其中MK-S VMi为基分类器,Ei为预测值和实际值之间的误差,Di为基分类器的初始权重,Wi为最终的基分类器的权重,G(x)为最终分类器。其实现步骤具体如下:MK-SVM2(x)w2D2(x)E2MK-SVM1(x)w1D1(x)E1MK-SVMT(x)wtDT
35、(x)ETData?setG(x)sign?wtMK-SVMt(x)Tt=1()Results图3 MK-S VM-A d a B o o s t的模型结构图F i g.3 S t r u c t u r e o f t h e m o d e l MK-S VM-A d a B o o s t708 第5期 刘晓玉,等:基于多核S VM的A d a B o o s t心力衰竭死亡率评估模型1)设置基本分类器MK-S VM和N组训练数据(x1,y1),(x2,y2),(xN,yN),学习迭代次数T,初 始 化 样 本 权 重D1=(w1 1,w1i,w1N),w1i=1/N,i=1,2,N.2
36、)根据式(8)计算各基本分类器输出值与实际值之间的误差t,然后将t相加得到误差总和Et.Et=Ni=1t,Gi(i)yi.(8)3)根据式(9)计算各基本分类器的权重wt,预测误差较小的基本分类器可以得到较大权值。wt=12l n1-EtEt .(9)4)依据式(1 0)调整训练数据的权重,为归一化因子,其目的是在权重比不变的情况下,使各分配权重之和等于1.Dt+1(i)=Dt(i)Bte-wtyigt(xi).(1 0)5)经T轮训练后,利用式(1 1)将T个基分类器Gt(x)结合为强分类器G(x).G(x)=s i g nTt=1wtGt(x).(1 1)3 实验结果及分析3.1 模型评价
37、标准在模型评估中,本文采用5种模型评价准则,分别是准确率(A c c u r a c y,A c c)、召回率(R e c a l l,R e c)、精确率(P r e c i s i o n,P r e)、F1分数,R O C曲线下与坐标轴围成的面积(a r e a u n d e r c u r v e,AU C)1 7,计算公式分别如下。A c c=T P+T NT P+F P+T N+F N1 0 0%.(1 2)R e c=T PT P+F N1 0 0%.(1 3)P r e=T PT P+F P1 0 0%.(1 4)F1=2P r e R e cP r e+R e c1 0 0
38、%.(1 5)AU C=sp-np+nn+1/2npnn1 0 0%.(1 6)其中,T P为真实阳性样本的数量,T N为真实阴性样本的数量。F P为假阳性样本的数量,F N为假阴性样本的数量,sp为正样本的数量,np和nn分别是正样本数和负样本数。考虑到本文心衰数据集存在着不平衡问题,因此对模型稳定性的衡量至关重要。所以,本文还将AU C的微观平均值(M i A-AU C)纳入模型评价准则中,M i A-AU C值受数量占比小的阳性心衰样本的影响会更大,可以更好地反映模型的稳定情况。3.2 基本分类器MK-S VM核的选取分析本文在研究MK-S VM的最佳核函数时,选取了基于高斯核R B F
39、、S i g m o i d核、P o l y n o m i a l核三种单核函数,以及上文式(2)提出的多核函数形式的S VM进行心衰死亡率预测,其训练阶段的R O C曲线如图4所示。MK-S VM的性能比较结果见表2.1.00.90.80.70.60.5True?positive?rate0.200.40.60.81.0False?positive?rateProposedRBFPolynomialSigmoid图4 四种核函数的RO C曲线图F i g.4 R O C c u r v e s o f t h e f o u r k e r n e l f u n c t i o n s
40、由图4可知,基于P o l y n o m i a l核和S i g m o i d核混合形式的S VM模型的R O C曲线左上顶点更接近(0,1)点,其AU C值可以达到0.8 7,可见该模型对于短期心衰患者是否死亡具有较好的识别效果。由表2可知,本文在心衰数据集上的F1分数能够达到8 2.1 8%,与几个单核函数相比是较优的。此时,相 应 的A c c和R e c分 别 达 到8 3.2 3%和8 2.2 3%,准确率较高。综合比较,多核函数的实验结果较好,所以本文后续的基分类器都采用了P o l-y n o m i a l核和S i g m o i d核混合形式的S VM,以追求更准确的
41、死亡率预测。表2 基于四种核函数的S VM性能对比T a b l e 2 S VM p e r f o r m a n c e c o m p a r i s o n b a s e d o n t h e f o u r k e r n e l f u n c t i o n s%评价因子R B FP o l y n o m i a lS i g m o i d本文核函数R e c7 9.0 68 2.4 68 1.2 68 3.2 3A c c8 1.2 78 0.9 87 9.6 28 2.2 3F 17 8.8 88 0.6 47 6.2 48 2.1 8AU C8 4.1 88 5.
42、8 78 3.2 08 7.0 23.3 MK-S VM-A d a B o o s t的算法对比为了证明本文提出算法的有效性,本小节将进行对比实验分析。为了突出模型的最佳结果,将其进行加粗显示。首先,对本文提出的算法进行消融实验,结果见表3.其中,S VM-S i g模型为仅使用S i g m o i d核的808太 原 理 工 大 学 学 报 第5 4卷 S VM算法;S VM-P o l y模型为仅使用P o l y n o m i a l核的S VM算法;MK-S VM为基于多核学习(S i g m o i d核和P o l y n o m i a l核)的S VM算法;S VM-S
43、i g-A d a-B o o s t为 基 于S VM-S i g的 集 成 算 法;S VM-P o l y-A d a B o o s t为基于S VM-P o l y的集成算法;本文模型为基于MK-S VM的A d a B o o s t集成学习算法。表3 心衰数据集上基础算法性能对比分析T a b l e 3 B a s i c a l g o r i t h m p e r f o r m a n c e c o m p a r i s o n a n a l y s i s o n h e a r t f a i l u r e d a t a s e t%模型评价准则A c c
44、R e cF 1AU CM i A-AU CS VM-S i g7 9.6 28 1.2 67 6.2 48 3.2 08 4.0 0S VM-P o l y8 0.9 88 2.4 68 0.6 48 5.8 78 8.0 0MK-S VM8 2.2 38 3.2 38 2.1 88 7.0 29 0.0 0S VM-S i g-A d a B o o s t 8 5.2 98 3.0 08 4.0 98 0.2 28 9.0 0S VM-P o l y-A d a B o o s t 8 4.0 68 3.5 18 3.8 28 6.2 49 0.0 0本文模型8 5.6 38 6.3 3
45、8 5.0 59 1.0 09 2.0 0 由表3可知,与相关基础模型相比,本文提出的MK-S VM-A d a B o o s t算法在心衰数据集上的识别性能最佳,其准确率和召回率指标分别达到8 5.6 3%和8 6.3 3%,其F1分数也达到8 5.0 5%,显示该模型可以全面综合患者各项特征以实现阳性、阴性样本的正确识别。从理论上说,该模型利用以P o l y-n o m i a l+S i g m o i d组合核函数为基础的MK-S VM为基本分类器实现心衰患者的初步分类,相比于基于其他核函数的S VM,该基本分类器可以将心衰特征映射到线性可分的高维空间,易于实现对多维心衰数据的高精
46、度分类,从而实现更加精准的患者预测。此外,本文模型的AU C和M i A-AU C值分别达到9 1%和9 2%,说明此模型具备较好的处理不平衡数据的能力。从原理上讲,MK-S VM-A d a B o o s t模型 是 利 用A d a B o o s t算 法 对 基 本 分 类 器MK-S VM进行集成的,A d a B o o s t算法本身是利用误差进行权重更新的,本文中阳性样本是小样本集,更易判错,会得到更多的关注。另一方面,本文采用了S MOT E+T o m e k l i n k s混合采样技术对数据进行了处理,一定程度上减轻了数据不平衡带来的问题。其次,为了进一步证明MK-
47、S VM-A d a B o o s t算法的有效性,本文选择了逻辑斯蒂回归(l o g i s t i c r e-g r e s s i o n,L R)、K近 邻(K-N e a r e s t N e i g h b o r,KNN)、多 层 感 知 机(m u l t i-l a y e r p e r c e p t r o n,ML P)、决策树(d e c i s i o n t r e e,D T)、极端梯度提升(e x t r e m e g r a d i e n t b o o s t i n g,X G B o o s t)、朴素贝 叶斯(n a i v e b a
48、y e s i a n,N B)和随机森林(r a n d o m f o r e s t,R F)七种广泛应用于解决生物医学领域的机器学习算法1 8-1 9进行对比。表4结果显示,与L R、KNN、ML P、D T、X G-B o o s t五种算法相比,本文算法克服了其他方法对于多种心衰特征利用不充分的缺点。因此,在各项指标上都达到最优结果,尤其是AU C值至少提升了近7%.与前人针对心衰预后使用的N B、R F算法相比,本文算法除在精确率指标上比R F低1%左右,在其他指标仍表现出最佳性能。究其原因在于N B算法分类效果不佳,主要是其存在假设基础,即属性之间相互独立,但心衰特征比较多且部
49、分特征之间相关性较大,会对实验结果产生影响。R F算法则是依据特征的取值划分进行决策,当所选心衰特征的划分存在问题时,会对结果产生不良影响。同时,在AU C和M i A-AU C指标上,MK-S VM-A d-a B o o s t算法表现最佳,再次显示了其在本文心衰数据上学习的稳定性和优越性。表4 心衰数据集上机器学习算法性能对比T a b l e 4 M a c h i n e l e a r n i n g a l g o r i t h m p e r f o r m a n c e c o m p a r i s o n a n a l y s i s o n h e a r t f
50、 a i l u r e d a t a s e t%模型评价准则A c cP r eR e cF1AU CM i A-AU CL R7 6.9 57 9.5 37 6.3 27 7.8 97 9.8 28 9.0 0KNN7 9.9 27 9.5 08 0.1 17 9.8 08 1.6 49 0.0 0ML P7 5.0 97 8.2 37 6.6 77 7.4 47 9.8 28 9.0 0D T8 2.2 38 0.5 28 1.6 78 0.0 98 4.4 88 8.0 0X G B o o s t 8 3.6 78 1.8 28 3.0 08 2.4 18 1.2 28 9.0