1、,单击以编辑母版标题样式,单击以编辑母版文本样式,第二级,第三级,第四级,第五级,医学信息学论文spss分类树应用,医学信息学论文spss分类树应用,第1页,内容,基础概念,快速入门,知识拓展,医学信息学论文spss分类树应用,第2页,一、基础概念,什么是分类树?,对资料要求,用途,怎样确定变量主要性、相互关系、交互作用,分类树优缺点,分类树运算法则,医学信息学论文spss分类树应用,第3页,1.,什么是分类树?,分类树产生一个基于树状分类模型;它将研究对象分组,能够依据自变量预测因变量;是探索性和证实性分类分析有效工具。,医学信息学论文spss分类树应用,第4页,2.,对资料要求:任何类型,
2、不要求解释变量,X,i,和结果变量,Y,含有某种特定分布。,允许不一样数据类型解释变量一起进入模型,能够使用不一样数据类型结果变量。,传统方法对资料类型和分布有相对严格要求(如多元线性回归);不易处理共线性问题和多水平变量之间复杂交互作用(如,logistic,回归)。,医学信息学论文spss分类树应用,第5页,依据解释变量对结果变量进行分类和预测。,识别影响原因间交互作用,3.,用途,医学信息学论文spss分类树应用,第6页,1352,名少年儿童肥胖症危险原因,儿童肥胖症高危人群和低危人群,医学信息学论文spss分类树应用,第7页,4.,变量主要性及变量间相互关系怎样确定?,解释变量主要性表
3、现为该解释变量,出现在树干起始部位,或离起始部位很靠近,;另首先,主要性还表现为同一解释变量,屡次在模型中出现,。,利用解释变量之间上下关系分析解释变量间是否有可能存在交互作用。假如一些解释变量在单原因分析时与结果变量之间无显著关联,而在模型中一些局部有显著效应,提醒这些解释变量之间可能存在交互作用。,医学信息学论文spss分类树应用,第8页,5.,分类树优缺点,是一个新多原因分析方法,其结果直观、明了、易于解释,能有效处理缺失数据及变量之间共线性,对资料分布无任何要求。,只适合大样本资料。假如结果变量是连续性资料,样本含量能够小一些。假如结果变量是分类资料,样本含量要大。,医学信息学论文sp
4、ss分类树应用,第9页,6.,运算法则,CHAID,结果变量:分类资料(最常见)、计量或等级资料,Exhaustive CHAID:,结果变量:分类资料(最常见)、计量或等级资料,CRT,结果变量:计量资料(最常见)、分类或等级资料,QUEST,结果变量:仅用于分类资料,医学信息学论文spss分类树应用,第10页,二、快速入门,Quick Start,1352,名少年儿童肥胖症危险原因,银行对客户信贷风险评定,学生压力影响原因分析,医学信息学论文spss分类树应用,第11页,(一)结果变量是分类资料,例,1 1352,名少年儿童肥胖症危险原因,性别:男、女,年纪组:,7-9,岁,,10-12,
5、岁,,13-15,岁,,16,岁,胆固醇:,5.18(mmol/L),,,5.18(mmol/L),甘油三脂:,0.50(mmol/L),,,0.50(mmol/L),医学信息学论文spss分类树应用,第12页,1.,数据文件,医学信息学论文spss分类树应用,第13页,2.SPSS,过程,医学信息学论文spss分类树应用,第14页,单击,OK,(无须在此定义变量属性),医学信息学论文spss分类树应用,第15页,右键单击变量,定义变量类型,医学信息学论文spss分类树应用,第16页,定义数据测量类型,Measure,计数资料:,Nominal,等级资料:,Ordinal,计量资料:,Scal
6、e,医学信息学论文spss分类树应用,第17页,定义变量“性别”,Nominal,医学信息学论文spss分类树应用,第18页,定义变量“年纪组”,Ordinal,医学信息学论文spss分类树应用,第19页,定义变量“胆固醇”,Nominal,定义变量“甘油三脂”,Nominal,定义变量“肥胖症”,Nominal,医学信息学论文spss分类树应用,第20页,肥胖症,Dependent Variable,性别、年纪组、胆固醇、甘油三脂,Independent Variable,Growing Method,Exhaustive CHAID,医学信息学论文spss分类树应用,第21页,单击,OK,
7、医学信息学论文spss分类树应用,第22页,3.,主要结果,医学信息学论文spss分类树应用,第23页,例,2,银行对客户信贷风险评定,A bank wants to categorize credit applicants according to whether or not they represent a reasonable credit risk.,Based on various factors,including the known credit ratings of past customers,you can build a model to predict if futu
8、re customers are likely to default on their loans.,医学信息学论文spss分类树应用,第24页,数据文件,医学信息学论文spss分类树应用,第25页,2.,To Obtain Classification Trees,Analyze,Classify,Tree.,医学信息学论文spss分类树应用,第26页,3.,Define Variable Properties,医学信息学论文spss分类树应用,第27页,定义数据测量类型,Measure,计数资料:,Nominal,等级资料:,Ordinal,计量资料:,Scale,医学信息学论文spss分
9、类树应用,第28页,Classification Tree dialog box,Define Variable Properties,医学信息学论文spss分类树应用,第29页,可对变量设置变量值标签,医学信息学论文spss分类树应用,第30页,可更改变量类型和设置变量值标签,医学信息学论文spss分类树应用,第31页,单击,OK,医学信息学论文spss分类树应用,第32页,4.,分类树,主,对话框,医学信息学论文spss分类树应用,第33页,(,1,),Selecting Categories,医学信息学论文spss分类树应用,第34页,医学信息学论文spss分类树应用,第35页,Grow
10、ing Method,:,CHAID,医学信息学论文spss分类树应用,第36页,(,2,),Force the first variable Influence variable,普通不选择这,2,项,医学信息学论文spss分类树应用,第37页,(,3,),Validation,是否需要交叉核实和分开,2,样本核实?默认:不需要,医学信息学论文spss分类树应用,第38页,(,4,),Criteria,Growth Limits,、,CHAID,、,Intervals,医学信息学论文spss分类树应用,第39页,Tree Depth:AutomaticParent Node:400;Chil
11、d Node:200,医学信息学论文spss分类树应用,第40页,Criteria,CHAID,,默认,拆分及合并检验水准均定位,0.05,医学信息学论文spss分类树应用,第41页,Criteria,Intervals,,对连续性变量,默认分为,10,个区间,医学信息学论文spss分类树应用,第42页,(,5,),Output,tree,Tree in table format,:,非默认,可不选,医学信息学论文spss分类树应用,第43页,Output,Statistics,医学信息学论文spss分类树应用,第44页,Output,Plots,医学信息学论文spss分类树应用,第45页,5
12、.,主要结果,CHAID,Exhaustive CHAID,医学信息学论文spss分类树应用,第46页,Model Summary,:统计了主要操作,医学信息学论文spss分类树应用,第47页,医学信息学论文spss分类树应用,第48页,Tree Editor,医学信息学论文spss分类树应用,第49页,改变图形方向,医学信息学论文spss分类树应用,第50页,增大图形,医学信息学论文spss分类树应用,第51页,单击“”或右键,隐蔽子结,Hide Children,医学信息学论文spss分类树应用,第52页,Tree Table,(非默认,可不选),医学信息学论文spss分类树应用,第53页
13、,Target Category:Bad,子结,1,、,8,对区分,Bad,区分作用大,Bad,百分比,41.4,(,1020/2464,),Index=Response/41.4*100%,医学信息学论文spss分类树应用,第54页,246=2464*10%;493=2464*20%;,如累计,Gain Percent,快速靠近,100,,则分类和预测效果好,医学信息学论文spss分类树应用,第55页,横坐标为调查总例数百分比,纵坐标为目标分类如,bad,百分比。,医学信息学论文spss分类树应用,第56页,For a good model,the index value should st
14、art well above 100%,remain on a high plateau as you move along,(说明区分度高节点多),and then trail off sharply toward 100%.For a model that provides no information,the line will hover around 100%for the entire chart.,医学信息学论文spss分类树应用,第57页,从应答率或检出率角度,说明各节点作用。假如多数节点应答率靠近,41.4,(,1020/2464,,没有建立模型情况),则说明模型效果不好。,
15、医学信息学论文spss分类树应用,第58页,模型评价:总正确率是,79.5,,,Bad,正确率是,65.2,。,医学信息学论文spss分类树应用,第59页,小结:,Dependent,为分类变量操作,医学信息学论文spss分类树应用,第60页,单击,OK,医学信息学论文spss分类树应用,第61页,选择,CHAID,;单击,Categories,医学信息学论文spss分类树应用,第62页,Bad,Target,医学信息学论文spss分类树应用,第63页,Output,Tree,医学信息学论文spss分类树应用,第64页,Output,Statistics,医学信息学论文spss分类树应用,第6
16、5页,Output,Plots,医学信息学论文spss分类树应用,第66页,是否需要交叉核实和分开,2,样本核实?默认:不需要,医学信息学论文spss分类树应用,第67页,Criteria,Growth Limits,默认类别分,3,层;母结,100,,子结,50,;本例样本大,调整为,400,,,200,医学信息学论文spss分类树应用,第68页,如有过多,Missing data,:用,CRT or QUEST methods,取代,医学信息学论文spss分类树应用,第69页,(二)结果变量是连续资料,医学信息学论文spss分类树应用,第70页,学生压力影响原因分析(,61,例),性别:男
17、;女,专业:会计系;注册会计师系,专业满意:很满意;满意;普通;不满意,学业成绩:很好;好;普通;较差,压力总分:,0,18,医学信息学论文spss分类树应用,第71页,1.,数据文件,医学信息学论文spss分类树应用,第72页,2.SPSS,过程,医学信息学论文spss分类树应用,第73页,单击,OK,医学信息学论文spss分类树应用,第74页,定义变量“性别”、“系”,Nominal,定义变量“专业满意”、“学业成绩”,Ordinal,医学信息学论文spss分类树应用,第75页,Growing Method:CRT;,单击,Criteria,医学信息学论文spss分类树应用,第76页,Pa
18、rent Node:20;Child Node:10,医学信息学论文spss分类树应用,第77页,单击,OK,医学信息学论文spss分类树应用,第78页,3.,主要结果,Parent Node,Child Node,医学信息学论文spss分类树应用,第79页,模型构建主要参数以下,应变量为分类资料,选取,Exhaustive CHAID,或,CHAID,算法。,拆分及合并检验水准普通设置为,0.05,分类树最大生长深度定为几层(默认为,3,层,可最多设定,8,层)?,设定母结点和子结点中最少例数分别为多少(默认:母结点,100,;子结点,50,)?,医学信息学论文spss分类树应用,第80页,
19、知识拓展,对乳腺癌患者死亡相关原因进行分类树分析,医学信息学论文spss分类树应用,第81页,主要操作,医学信息学论文spss分类树应用,第82页,主要结果,医学信息学论文spss分类树应用,第83页,在,Word,中重新绘制图形,2,病理肿瘤大小(,cm,),2,Node 1,死亡率,0.9%,观察例数,326,Node 4,死亡率,19.1%,观察例数,89,Node 5,死亡率,7.0%,观察例数,86,Node 3,死亡率,6.0%,观察例数,439,Node 0,死亡率,6.0%,观察总例数,1207,Node 2,死亡率,=4.1%,观察例数,267,1.0,1.11.4,1.53
20、.0,3.0,未检测,Node 6,死亡率,6.5%,观察例数,370,Node 7,死亡率,15.9%,观察例数,69,腋下淋巴结转移个数,图,1,乳腺癌患者死亡相关原因分类树结果,医学信息学论文spss分类树应用,第84页,分类树方法及其结果文字描述,方法,结果,医学信息学论文spss分类树应用,第85页,分类树,方法,文字描述,采取分类树分析乳腺癌患者死亡相关原因。乳腺癌患者,1207,例,因乳腺癌死亡,72,例。应变量,Y,:乳腺癌死亡(,0,:生存;,1,:死亡);自变量,X,:病理肿瘤大小(,cm,)、腋下淋巴结转移个数、雌激素受体状态(阴性,阳性)、年纪(岁)和生存时间(月)。,
21、用,Exhaustive CHAID,法建立模型,用自动法选择分类树深度,母节(,Parent Node,)和子节(,Child Node,)最小例数分别为,100,和,50,。树节拆分及合并检验水准均为,0.05,。,医学信息学论文spss分类树应用,第86页,分类树深度有,2,层(图,1,),第,1,层为病理肿瘤大小,第,2,层为腋下淋巴结转移个数。终止节(,Terminal Node,)用方框表示,非终止节用椭圆表示。,病理肿瘤大小与死亡率关系最亲密:在,1cm,以内,乳腺癌患者死亡率最低(,0.9,),在,3cm,以上,死亡率最高(,19.1,)。,腋下淋巴结转移个数也与死亡率相关联,而且与病理肿瘤大小存在交互作用。病理肿瘤大小在,1.5cm,3.0cm,患者:腋下淋巴结转移个数在,2,个及以下,死亡率为,6.5,;腋下淋巴结转移个数在,2,以上,死亡率为,15.9,。,分类树,结果,文字描述,医学信息学论文spss分类树应用,第87页,