基于因果模型和多模态多目标优化的两阶段特征选择方法.pdf

资源描述

1、第卷第期陕西师范大学学报(自然科学版)V o l N o 年月J o u r n a l o fS h a a n x iN o r m a lU n i v e r s i t y(N a t u r a lS c i e n c eE d i t i o n)S e p,生物医学大数据专题引用格式:王逸豪,黄敬英,范勤勤基于因果模型和多模态多目标优化的两阶段特征选择方法J陕西师范大学学报(自然科学版),():WANG Y H,HUAN GJY,F AN Q Q At w o s t a g ef e a t u r es e l e c t i o nm e t h o db a s e

2、 do nc a u s a lm o d e l a n dm u l t i m o d a lm u l t i o b j e c t i v eo p t i m i z a t i o nJ J o u r n a lo fS h a a n x iN o r m a lU n i v e r s i t y(N a t u r a lS c i e n c eE d i t i o n),():D O I:/j c n k i j s n u 收稿日期:基金项目:上海市浦江人才计划(P J D );国家自然科学基金山东联合基金(U )通信作者:范勤勤,男,副教授,博士生导师,主要

3、从事多目标优化、机器学习方面的研究.E m a i l:f o r e v e r f a n c o m基于因果模型和多模态多目标优化的两阶段特征选择方法王逸豪,黄敬英,范勤勤(上海海事大学物流研究中心,上海 ;浙江大学医学院附属邵逸夫医院麻醉恢复室,浙江杭州 )摘要:特征选择中特征数量和分类精度之间的关系通常可以看作是一个多模态多目标优化问题,但现有大多数多模态多目标进化算法对于高维优化问题的求解存在搜索能力不足的问题.为解决该问题,提出一种基于因果模型和多模态多目标进化算法的两阶段特征选择方法.在该方法中,首先使用因果模型对数据进行特征选择以便降低问题维度;然后使用多模态多目标优化

4、算法搜索具有多模态特性的特征子集.为验证所提算法性能,它被用于术中低体温风险预测模型的特征选择问题.实验结果表明,提出的两阶段特征选择方法不仅融合了种不同方法的优点,而且能为术中低体温预测提供更多决策支持.关键词:因果模型;多模态多目标优化;特征选择;术中低体温;进化计算中图分类号:T P 文献标志码:A文章编号:()At w o s t a g e f e a t u r e s e l e c t i o nm e t h o db a s e do nc a u s a lm o d e la n dm u l t i m o d a lm u l t i o b j e c t i v

5、 eo p t i m i z a t i o nWANGY i h a o,HUANGJ i n g y i n g,F ANQ i n q i n(L o g i s t i c sR e s e a r c hC e n t e r,S h a n g h a iM a r i t i m eU n i v e r s i t y,S h a n g h a i ,C h i n a;P o s t a n e s t h e s i aC a r eU n i t,S i rR u nR u nS h a wH o s p i t a l,Z h e j i a n gU n i v

6、e r s i t yS c h o o l o fM e d i c i n e,H a n g z h o u ,Z h e j i a n g,C h i n a)A b s t r a c t:T h er e l a t i o n s h i pb e t w e e nt h en u m b e ro ff e a t u r e sa n dc l a s s i f i c a t i o na c c u r a c yi nt h ef e a t u r es e l e c t i o nc a nu s u a l l yb ec o n s i d e r e

7、da sam u l t i m o d a lm u l t i o b j e c t i v eo p t i m i z a t i o np r o b l e m(MMO P)H o w e v e r,m o s t e x i s t i n g m u l t i m o d a l m u l t i o b j e c t i v e e v o l u t i o n a r y a l g o r i t h m s(MMO E A s)h a v ew e a ks e a r c hc a p a b i l i t yi ns o l v i n gh i g

8、h d i m e n s i o n a lMMO P s T os o l v et h i sp r o b l e m,a t w o s t a g e f e a t u r es e l e c t i o nm e t h o db a s e do nc a u s a lm o d e l a n dMMO E Ai sp r o p o s e d I nt h ep r o p o s e da l g o r i t h m,t h ec a u s a lm o d e li sf i r s t l yu s e dt os e l e c tf e a t u

9、r e st or e d u c et h ep r o b l e md i m e n s i o n a l i t y,a n dt h e na c o m p e t i t i v eMMO E Ai su s e d t o f i n da s u b s e t o f f e a t u r e sw i t hm u l t i m o d a l c h a r a c t e r i s t i c s T od e m o n s t r a t e t h ep e r f o r m a n c eo f t h ep r o p o s e da l g

10、o r i t h m,i t i su s e dt o s o l v e t h e f e a t u r e s e l e c t i o n p r o b l e m o f i n t r a o p e r a t i v e h y p o t h e r m i a p r e d i c t i o n m o d e l 陕西师范大学学报(自然科学版)第卷E x p e r i m e n t a lr e s u l t ss h o w t h a tt h e p r o p o s e dt w o s t a g ef e a t u r es e l

11、e c t i o n m e t h o d n o to n l yc o m b i n e s t h ea d v a n t a g e so ft w od i f f e r e n tm e t h o d s,b u ta l s op r o v i d e sm o r ed e c i s i o ns u p p o r tf o rt h e i n t r a o p e r a t i v eh y p o t h e r m i ap r e d i c t i o n K e y w o r d s:c a u s a l m o d e l;m u l

12、t i m o d a l m u l t i o b j e c t i v eo p t i m i z a t i o n;f e a t u r es e l e c t i o n;i n t r a o p e r a t i v eh y p o t h e r m i a;e v o l u t i o n a r yc o m p u t a t i o n在医疗领域,风险预测模型通常以某种疾病的病因为基础,通过分析多因素的危险水平来建立预测模型.术中低体温是指人体在接受手术治疗中核心体温低于的现象.术中低体温的发生会影响人体酶促反应效率和药物代谢时间,严重的会导致人体术后

13、寒战、凝血功能异常、呼吸抑制等情况,有时甚至会导致死亡 .此外,术中低体温的发生概率较高().因此,降低术中低体温发生的风险十分重要.为降低术中低体温的发生,研究人员相继推出各种风险预测模型.文献根据专家文献分析选取了个危险因素来建立全麻手术患者的术中低体温评分方程,并使用外部数据对其进行验证,所得AU C(a r e au n d e r t h ec u r v e,记作AU C)值为 ,实验结果表明该方程具有良好的预测性能.文献提出一种针对腹腔镜手术的低体温风险预测模型,该模型通过单因素和多因素的逻辑回归选取个特征进行建模,实验结果AU C ,表明该模型的拟合度中等偏上.文献提出一

14、种低体温风险预测模型,首先通过双变量相关分析对特征进行分析,然后使用后向删除不显著的特征,最终选取个特征来建立逻辑回归模型;通过名手术患者测试集的测试,该模型所得AU C ,实验结果表明模型的拟合度较好.已有研究表明,特征选择会极大影响机器学习模型的预测精度.传统的特征选择方法主要有种:封装式、过滤式、嵌入式和混合式方法.为解决特征选择问题,文献提出一种基于信息增益与皮尔森相关系数的 D自适应特征选择算法,该方法以信息增益为特征辨识度,并以皮尔森相关系数作为特征的独立性,选出在 D坐标空间中对分类任务贡献大的特征作为特征子集;实验结果证明,与经典特征选择算法相比,所提方法能在高维小样本的基

15、因表达数据上选出有效的特征子集.文献根据最大信息系数理论提出一种基于特征排序和近似马尔科夫毯的两阶段混合式特征选择方法,从而得到特征相关性与冗余性的关系.文献通过众包学习将多种特征选择方法的结果根据可靠性集成在一起,实验结果表明该方法能够提高特征选择的有效性.为了避免特征选择陷入局部最优,研究人员使用进化算法去解决特征选择问题.文献提出一种融合遗传算法和乌燕鸥算法的封装式特征选择方法,该方法使用遗传乌燕鸥算法对特征和支持向量机两个参数进行同时优化,从而提高预测模型的分类精度.文献提出一种改进的多目标森林优化算法来解决多目标特征选择问题,实验结果表明,所提算法在特征数量和分类错误率方面都

16、优于其他多目标特征选择方法.文献提出一种基于特征属性的新型自学习封装式特征选择方法,该方法利用先前特征子集的S HA P值指导元启发算法的搜索过程,故具有较高的搜索效率.文献提出一种将高维特征选择任务转化成几个低维特征选择任务的多任务粒子群算法,通过低维特征选择任务之间的知识迁移找到最优特征子集.由于以上研究都尚未将特征选择当作是一个多模态多目标优化问题,故它们无法给出更多等效的特征子集.相比于普通的多目标优化问题,多模态多目标优化不仅需要在目标空间找到好的帕累托前沿逼近,还要在决策空间找到足够多的等价帕累托解.虽然特征选择的主要任务是找出特征子集以降低维度,但这些特征子集可能存在多组等效

17、的情况.为解决以上问题,K a m y a b等将多模态优化算法用于求解特征选择问题,结果表明多模态优化方法找到的解决方案比单模态方法更具多样性.Y u e等则使用一种多模态多目标优化算法来进行特征选择,实验表明多模态多目标优化算法可以降低特征提取成本.J h a等基于特征间互信息与冗余度等因素,使用一种基于环形拓扑结构的多模态多目标优化算法进行过滤式的特征选择,选择出具有最小冗余和最大相关的特征子集;实验结果显示,相比于其他特征选择方法,所提算法不仅能提供更多数量的等效特征子集,而且具有更好或相似的预测精度.第期王逸豪等:基于因果模型和多模态多目标优化的两阶段特征选择方法虽然以上研究

18、使用多模态多目标优化算法来进行特征选择,但是它们都没有考虑高维特征选择问题.为解决现有多模态多目标优化算法无法解决高维特征选择问题,本文提出一种基于因果模型和多模态多目标优化的两阶段特征选择方法(t w o s t a g ef e a t u r e s e l e c t i o nm e t h o db a s e do nc a u s a lm o d e l a n dm u l t i m o d a l m u l t i o b j e c t i v e o p t i m i z a t i o n,T S F S CMMMO).在所提算法中,首先通过因果模型删除高维数

19、据样本中的不相关特征进行降维,然后使用多模态多目标进化算法对降维后的数据特征再次进行特征选择,最后将T S F S CMMMO与深度森林算法进行结合,用于术中低体温风险预测.实验结果表明,相比于传统特征选择方法,所提算法不仅能够提供多种可行方案,还能克服实际应用中数据特征不易获取的问题.同时,相比于基于多模态多目标进化算法的特征选择方法,所提方法能够大大降低多模态多目标优化算法的求解难度,从而获得更多的等效解集.相关工作因果模型因果模型可以表示数据中的因果关系.真正快速因果推断(r e a l l yf a s tc a u s a li n f e r e n c e,R F C

20、 I)算法是由D i e g o等提出的一种因果模型.在因果充分性假设难以满足的条件下,满足因果马尔可夫和因果忠诚性假设就可以刻画高维数据中各变量的依赖关系.R F C I算法主要包含个步骤:)构造所有变量的完全图;)使用d分离法对三元组中的节点vi和vj进行vz节点下的独立性检测(如图所示),并删去多余边确定开放三元组vi,vj,vk 和分离集s e p s e t(记作SS);)根据开放三元组vi,vj,vk 中的vj是否为碰撞点来确定v型结构;)尽可能给更多的边定向.R F C I算法的具体流程如算法所示.图vivj|vk的种d分离示意图F i g T h r e ed s e p a

21、r a t i o nd i a g r a m so fvivj|vk算法R F C I算法输入:训练数据集D,可观察变量集Vv,v,vn输出:有向无环图G构造由变量集V中所有元素的非定向边组成的完全图 f o re a c hvi,vkVi fvivkt h e n移除vivk连接边,更新完全图 e n d i f e n df o r邻接子集M储存到分离集SS中i fvi和vk不相邻且vi和vk都与vj相邻t h e n确定为开放三元组Mvi,vj,vk,并放入集合Q e n d i f f o re a c hvi,vj,vkQ i fvi和vk以及vk和vj都满足数据集D

22、下条件依赖t h e n 将三元组添加到L e l s e删除错误边/确定v型结构和非v型结构 e n d i f 从集合Q中移除三元组vi,vj,vk e n df o r/用定向规则尽可能多地确定L中边的方向返回最大定向的框架图C和分离集SS 基于自组织的多目标粒子群算法基于自组织物种生成的多目标粒子群算法(s e l f o r g a n i z e d s p e c i a t i o n b a s e d m u l t i o b j e c t i v ep a r t i c l es w a r mo p t i m i z e r,S S MO P S O)是

23、一种结合了非支配排序算法和特殊拥挤距离的多模态进化算法.它根据相似性将种群分为多个子种群,在求解多模态多目标优化问题上有较好表现.在S S MO P S O算法中,首先,建立个体最优存档(p r i v a t eo p t i m a l a r c h i v e,P O A,记作PO A),PO A(i)代表当前第i个粒子的最优位置,并根据个体的非支配排序选择物种种子(记为nb e s t),预设半径R确定物种大小及包含的个体.然后,将多个子种群作为不同物种,同时向多个最优方向进化,Pi(t)代表第t代第i个粒子,每个粒子i的速度向量s和位置l根据()式和()式迭代更新:si(t)W

24、si(t)cr(lpb e s tli(t)cr(lnb e s tli(t),()li(t)li(t)si(t).()式中:W表示惯性权重;c和c为个加速因子;r和r为服从,均匀分布的个伪随机数;pb e s t代表个体最佳粒子.最后,各子种群并行搜索得出多个陕西师范大学学报(自然科学版)第卷帕累托等价解集.S S MO P S O的伪代码如算法所示.算法S S MO P S O算法输入:随机初始化种群P(),粒子数N,最大迭代次数Gm a x输出:PO A中的非支配粒子评估P()所有个体目标值初始化PO A f o riNPO AiPi()e n df o rG/初始迭代次数为 w h

25、 i l eGGm a xd o用非支配排序方法对P中所有个体进行排序将排名第一的个体确定为nb e s t 指定物种种子的生态半径R 将范围内粒子归为物种sp(j)f o riN pb e s ti排序后PO Ai 中的第一个粒子 nb e s tisp(j)中的物种种子根据()式和()式更新Pi(t)和Pi(t)评价Pi(t)GG 把Pi(t)放入PO Ai,并排序PO Ai/更新PO A e n df o r e n dw h i l e 深度森林深度森林是一种基于决策树集成的深度学习算法,它具有参数少和训练快等优点,在小规模数据集上表现优异.深度森林主要由多粒度扫描和级联森林两部分组

26、成.多粒度扫描机制对特征进行提取(如图所示),首先使用S个k维滑动窗口(kN、kN/、kN/)扫描输入的N维特征,然后将S个k维特征向量通过随机森林A(记作A)和完全随机森林B(记作B)获得S个C维概率向量,将得到的所有概率向量拼接成为个P维特征向量,并将它们作为级联森林的输入.级联森林如图所示,每一层有个随机森林(记作A)和个完全随机森林(记作B),每个随机森林和完全随机森林各有n个决策树和n个完全随机树.决策树每次随机选取n个特征来计算g i n i值,然后根据特征节点进行分割;完全随机树每次随机选择一个特征节点进行分割生长,直至每个叶节点只包含同类别的实例.每个森林会输出一个经交叉验证产

27、生的二维类向量,这个类向量会与原始输入拼接作为级联森林下一层的输入.当级联的最后一层完成处理时,前一层森林输出的信息将被平均化,从而生成最终的类向量.图多粒度扫描示意图F i g S c h e m a t i cd i a g r a mo fm u l t i g r a n u l a r i t y s c a n n i n g图级联森林示意图F i g S c h e m a t i cd i a g r a mo f c a s c a d e f o r e s t第期王逸豪等:基于因果模型和多模态多目标优化的两阶段特征选择方法基于因果模型和多模态多目标优化的两阶段特征选择

28、方法为了解决现有多模态多目标优化算法无法求解高维数据特征选择的问题,本文提出一种基于因果模型和多模态多目标优化算法的两阶段特征选择方法:首先使用因果模型对高维数据特征进行降维,然后使用S S MO S P O算法对降维后的数据特征进行多模态特征选择,从而克服多模态多目标进化算法对高维特征搜索能力不足的问题,最终获得多组等效的特征子集.图是特征选择中多模态特性的示意图,图中虚线代表多目标优化问题的帕累托前沿.假设x、x、x、x、x表示原始数据特征,填充黑点的方框表示被选择的特征,而空白方框是未选择的特征.在图中,x,x 和x,x 是选中的两组不同特征子集,它们的分类错误率和特征数量相同,因此它们

29、是一组具有多模态特性的等效特征子集.图特征选择中的多模态特性示意图F i g S c h e m a t i cd i a g r a mo fm u l t i m o d a lc h a r a c t e r i s t i c s i nf e a t u r e s e l e c t i o n基于T S F S CMMMO的深度森林算法主要包含两个部分,即数据特征两阶段选择和深度森林算法建模.在使用因果模型进行特征选择时,所提算法先对输入的原始特征使用证据权重(w e i g h to fe v i d e n c e,WO E,记作WE)进行编码处理.对于第h个类型,其正负样

30、本分布比值的对数计算公式为WEh l npypy l nBh/BTGh/GT.()式中:py表示该类型在负类样本分布;py表示该类型在正类样本的分布;Bh表示该类型中负类样本的数量;BT为总样本中负类样本的数量;Gh表示该类别中正类样本的数量;GT为总样本中正类样本的数量.在使用多模态多目标进化算法进行特征选择阶段时,因为所选多模态多目标进化算法不能直接求解特征选择问题,所以每个决策变量的取值范围设为,同时设置为选择阈值,即当某个决策变量的值大于等于代表这个位置对应的特征被选中;小于则代表这个位置对应的特征被剔除.为直观解释个体编码和解码过程,其过程如图所示.粒子维度等于特征数量(在本例

31、中特征数量假设为),从图中可以看出,x,x,x,x,x,x为选中特征组成的子集.对于原始数据特征F,选中的特征FS和未选中特征FN S满足()式和()式:FFSFN S,()FSFN S.()图粒子与特征选择的示意图F i g S h c e m a t i cd i a g r a mo fp a r t i c l ea n df e a t u r e s e l e c t i o n基于T S F S HMMMO的深度森林算法如图所示,整体实现步骤如下:步骤,输入原始数据;步骤,对手术类别特征进行WO E编码;步骤,使用因果模型对原始数据进行特征选择;步骤,基于步骤,使用S S M

32、O P S O算法对降维后的数据特征进行再次选择;步骤,根据步骤得到的数据特征,使用深度森林算法进行建模;步骤,判断是否满足搜索停止条件,满足则进行步骤,不满足则返回步骤;陕西师范大学学报(自然科学版)第卷步骤,输出所有满足条件的搜索结果,即具有多模态特性的特征子集.图基于T S F S HMMMO的深度森林算法框架图F i g F r a m e w o r ko fd e e pf o r e s t a l g o r i t h mb a s e do nT S F S HMMMO实验结果比较与分析数据集本文使用的数据集为实际术中低体温数据,共有个样本,特征数量为,包含发生术中低

33、体温和未发生术中低体温两类结果.其中术中低体温的总体发生率约为 .经过数据预处理,删除其中数据缺失过多的样本,最终使用其中个数据样本.表给出术中低体温数据集的详细情况.实验设置本文将数据集按比例随机分为训练集()和测试集(),并使用 AU C来对算法的分类能力进行评价.所有错误率均通过五折交叉验证法产生.在基于T S F S HMMMO的深度森林算法中,S S MO P S O算法的物种半径设置为自变量范围,的,即 ;种群规模和最大适应度评估次数分别设为和 .所有实验均使用相同参数的深度森林算法作为分类器,其中随机森林和完全随机森林均包含个决策树.

34、为确保实验的公平性,本文所有实验都在I n t e lC o r e i C P U GH z运行环境下,并使用MAT L A B a和P y t h o n 来进行计算.表术中低体温数据集的所有特征T a b A l l f e a t u r e so f i n t r a o p e r a t i v eh y p o t h e r m i ad a t as e t名称实际意义类型x术前是否发生低体温布尔型x术前体温连续型x性别布尔型x年龄离散型xA S A分级有序分类类型x身体质量指数连续型x手术类型无序分类类型x麻醉时间连续型x输液量连续型x 失血量连续型x 是否冲洗布尔型x

35、是否发生术中低体温布尔型实验结果对比分析算法结果比较为验证所提方法的特征选择能力,将其分别与种方法进行比较,即未进行特征选择的深度森林算法和基于因果模型的深度森林算法.所提算法首先使用因果模型(即R F C I算法)来对数据特征进行分析;其输出的特征因果关系如图所示,可以看出术前体温(x)、BM I(x)等能直接或者间接影响术中低体温情况的发生.根据因果模型,可以剔除与结果x 不相关的x、x和x等特征,即病患性别、病患年龄和A S A分级.因此,术中低体温可由x、x、x、x、x、x、x 和x 等个特征表示.根据以上个特征,本实验分别使用深度森林算法和基于因果模型的深度森林算法来对其进行建

36、模,实验结果见表.图术中低体温风险的因果模型F i g H a u s a lm o d e l o f i n t r a o p e r a t i v eh y p o t h e r m i ar i s k第期王逸豪等:基于因果模型和多模态多目标优化的两阶段特征选择方法表种方法的实验结果T a b E x p e r i m e n t a l r e s u l t so f t h e t h r e em e t h o d s方法特征数量错误率选择的特征子集个数未进行特征选择的深度森林算法 x,x,x,x,x,x,x,x,x,x,x 基于因果模型降维的深度森林算法 x,x

37、,x,x,x,x,x,x 基于T S F S HMMMO的深度森林算法 x x,xx,xx,xx,x x,x,x x,x,x x,x,x x,x,x,x x,x,x,x x,x,x,xx,x,x,x x,x,x,x,x x,x,x,x,x x,x,x,x,x x,x,x,x,x x,x,x,x,x x,x,x,x,x,x x,x,x,x,x,x x,x,x,x,x,x,x x,x,x,x,x,x,x 在因果模型得到的特征选择结果基础上,所提T S F S HMMMO算法利用多模态多目标进化算法对特征再次进行选择;并将特征数量和分类错误率作为个优化目标(结果见表).从表可知,使用深度森林算法对原

38、始数据(个特征)进行建模,不仅使用特征数量最多,而且错误率较高.对于基于因果模型的深度森林算法而言,其使用个特征来进行建模,相比于原始深度森林算法,其在特征数量和错误率两方面都有较好表现.另外,从表可知,在特征数量的情况下,所提算法在特征数量和错误率方面的表现均要优于未进行特征选择的深度森林算法和基于因果模型的深度森林算法.这说明T S F S HMMMO算法有较好的特征选择能力,主要原因是所提T S F S HMMMO算法不仅使用因果模型剔除了不相关的特征,而且还使用多模态多目标进化算法得到更多的等效特征子集.此外,相比于其他种方法,T S F S HMMMO算法可以通过多组等效的特征子集进

39、行建模.例如,当选择特征x,x,x,x,x,x 或特征x,x,x,x,x,x 进行建模时,它们的特征数量都为,分类错误率都是 .在术中低体温数据集中,x是术前是否发生低体温,x 是失血量.术前是否发生低体温可以直接通过测量体温获得,而失血量这一特征需要专家在术前根据病人手术类型估计得到.如果只选择个特征进行建模预测,显然术前是否发生低体温比失血量这一特征更容易获得,所以决策者可以选择特征获取成本低的x,x,x,x,x,x 而不是x,x,x,x,x,x 进行建模.同时,从表可以看出,T S F S HMMMO算法可以在高维空间找到多组具有多模态特性的特征子集,为决策者提供多种建模方案,从而降低了

40、术中低体温风险预测模型的建模成本.如上所述,特征数量和分类精度通常是个冲突的目标,所提算法得到的P a r e t o前沿逼近见图.从图可知选择特征数量与分类错误率呈现负相关,这表明决策者需要在特征数量和分类精度之间进行平衡.综上所述,所提算法不仅具有较强的数据特征选择能力,而且能够提供多种等效的特征子集来降陕西师范大学学报(自然科学版)第卷低建模成本.因此,T S F S HMMMO是一种提高术中低体温风险预测能力的有效方法.图结合T S F S HMMMO的深度森林算法所得P a r e t o前沿F i g P a r e t o f r o n t o b t a i n e db

41、 y t h ed e e pf o r e s t a l g o r i t h mc o m b i n e dw i t hT S F S HMMMO 算法分析为验证本文提出的T S F S HMMMO算法在高维数据上的特征选择能力,将去除因果模型的T S F S HMMMO算法用于术中低体温数据的特征选择,其结果如表所示.由表可知,当特征子集为x,x,x,x 时,基于T S F S HMMMO的深度森林算法的分类错误率为 ;而由表可知,当不使用因果模型和特征子集为x,x,x,x 时,基于S S MO P S O的深度森林算法的分类错误率为 .由上可知,在特征数量相同的情况下,基于T

42、S F S HMMMO的深度森林算法的分类错误率更低.这是由于因果模型剔除x等不具备良好分类能力的特征,避免了多模态多目标优化算法在高维决策空间上进行搜索.此外,从表可知,当特征子集为x,x,x,x 时,基于T S F S HMMMO的深度森林算法的分类错误率为 ;但表显示,当特征子集为x,x,x,x,x 时,基于S S MO P S O的深度森林算法的错误率也为 .这说明代表性别的特征无法提高分类器的性能,在分类错误率相同的情况下,使用基于因果模型和多模态多目标进化算法两阶段特征选择方法要好于只使用多模态多目标进化算法的特征选择方法.为进一步说明本文算法的有效性,对比T S F S HMMM

43、O和S S MO P S O种算法找到的等效特征子集数量(如图所示).从图可以看出,在特征数量较少时,相比于S S MO P S O算法,T S F S HMMMO方法能找到更多的等效特征子集.这是由于因果模型缩小特征空间,使得多模态多目标优化算法可以有效地进行搜索.但是,在高维情况下,S S MO P S O算法反而能找到更多的特征子集,其主要原因可能是降维后的搜索空间存在的等效解变少.比如,当从个特征中挑选个特征时,可能会存在更多的等效特征子集.因此,相比于S S MO P S O,T S F S HMMMO方法可以在缩小的搜索空间内找到更多的特征子集,这缓解了多模态多目标

44、进化算法求解高维数据特征能力弱的问题.表基于S S MO P S O算法的特征选择实验结果表T a b E x p e r i m e n t a l r e s u l t s o f f e a t u r e s e l e c t i o nb a s e do nS S M O P S O特征数量/个错误率选择的特征相似子集数量/个 x x,xx,x x,x,xx,x,x x,x,x x,x,x,xx,x,x,x x,x,x,x,xx,x,x,x,x x,x,x,x,x x,x,x,x,x,xx,x,x,x,x,x x,x,x,x,x,x x,x,x,x,x,x,x x,x,x,x,

45、x,x,x,x x,x,x,x,x,x,x,x 图多模态特征子集数量对比图F i g C o m p a r i s o no f t h en u m b e r o fm u l t i m o d a l f e a t u r e s u b s e t s 结语本文针对现有大多数多模态多目标进化算法在高维特征选择问题上存在搜索能力不足的问题,提出一种基于因果模型和多模态多目标优化的两阶段特征选择方法(T S F S HMMMO).在本文T S F S HMMMO算法中,首先使用因果模型分析特征变量之间的因果关系,剔除不相关特征以减小特征搜索空间的大小;然后使用多模态多目标进化算法搜第

46、期王逸豪等:基于因果模型和多模态多目标优化的两阶段特征选择方法索特征子集;最后使用深度森林算法对降维后的术中低体温数据进行建模.实验结果表明,该方法具有以下优点:)克服了多模态多目标算法在高维特征选择问题中搜索能力不足的问题;)提供多组等效的特征选择方案,降低了建模的特征获取成本;)可以为决策者提供有效决策支持.参考文献:张蕊,郑黎强,潘国伟疾病发病风险预测模型的应用与建立J中国卫生统计,():项海燕,黄立峰,朱锋杰,等基于人工神经网络技术构建围术期病人低体温风险预测模型 J护理研究,():X I AN G H Y,HUANGLF,Z HU FJ,e ta l

47、 C o n s t r u c t i o no fp r e d i c t i o n m o d e lo fp e r i o p e r a t i v eh y p o t h e r m i ar i s kb a s e do na r t i f i c i a ln e u r a ln e t w o r kt e c h n o l o g yJC h i n e s eN u r s i n gR e s e a r c h,():李丽,颜艳,房馨,等腹腔镜手术患者术中低体温风险预测模型的构建及验证 J中华护理杂志,():陈蓓,王晓军手术中低体温

48、的相关因素和护理干预研究进展J护士进修杂志,():CHE NB,WANGXJ R e s e a r c hp r o g r e s so nr e l a t e df a c t o r sa n dn u r s i n g i n t e r v e n t i o no fh y p o t h e r m i ad u r i n go p e r a t i o nJ J o u r n a lo fN u r s e sT r a i n i n g,():刘小颖,吴新民围术期低体温J中华麻醉学杂志,():L I UXY,WU X M P e r i o p e r a t

49、i v eh y p o t h e r m i aJ C h i n e s eJ o u r n a l o fA n e s t h e s i o l o g y,():曹立源,范勤勤,黄敬英基于特征选择和X G B o o s t优化的术中低体温预测 J数据采集与处理,():C A OLY,F AN Q Q,HUANGJY I n t r a o p e r a t i v eh y p o t h e r m i ap r e d i c t i o n m o d e lb a s e do nf e a t u r es e l e c t i o na n

50、 dX G b o o s to p t i m i z a t i o nJ J o u r n a lo fD a t aA c q u i s i t i o n&P r o c e s s i n g,():Y I J,Z HANLJ,L E IYJ,e ta l E s t a b l i s h m e n ta n dv a l i d a t i o no f ap r e d i c t i o ne q u a t i o nt oe s t i m a t e r i s ko f i n t r a o p e r a t i v eh y p o t h e r m

展开阅读全文