收藏 分销(赏)

Logistic回归分析.ppt

上传人:精**** 文档编号:10239942 上传时间:2025-04-29 格式:PPT 页数:25 大小:597KB
下载 相关 举报
Logistic回归分析.ppt_第1页
第1页 / 共25页
Logistic回归分析.ppt_第2页
第2页 / 共25页
Logistic回归分析.ppt_第3页
第3页 / 共25页
Logistic回归分析.ppt_第4页
第4页 / 共25页
Logistic回归分析.ppt_第5页
第5页 / 共25页
点击查看更多>>
资源描述

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,计算中心,*,单击此处编辑母版标题样式,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,Logistic,回归分析,对于用属性变量,Y,表示的特性,例如节目是否受欢迎,产品是否被接受,信用卡是否被欺诈等,描述这一特性发生与否的统计特征是它发生的可能性大小,即概率。这一可能性本身也受其他因素的影响。因而也希望用一些自变量来说

2、明和预测所关心的特性发生的可能性大小。,当,Y,是连续变量时,可用方差分析和回归分析处理;当,Y,时属性变量时,则用,Logistic,回归分析处理。,计算中心,1,Logistic,回归分析,拟合,Logistic,回归模型不采用通常的最小二乘法,而是采用最大似然法。对于拟合的结果,检验模型或参数的显著性,也不是使用线性模型中的方差分析方法,而是使用与最大似然估计法相联系的卡方,(,2,),统计量进行检验。原假设是模型无显著影响或回归系数全为零。,计算中心,2,Logistic,回归分析,描述属性变量,Y,所表示的某一特征发生的可能性大小,(,即概率,p,),,也希望用一些自变量,x,1,x

3、2,.,来说明和预测。特别是两值问题,(,Y,=0,表示某事件,A,不发生,,Y,=1,表示发生,):,记,P,Y,=1=,p,p,的取值在,0,与,1,之间变化,所以简单地将概率,p,表示为自变量,x,1,x,2,.,的线性函数是不合适的,。,计算中心,3,Logistic,回归分析,概率,p,作一变换,f,(,p),假设在自变量,x1,x2,xn,作用下,某事件发生的概率为,p,,则该事件不发生的概率为,1-p,,,p/(1-p),为发生概率和不发生概率之比,称为“优势比”,(odds),,若对,odds,取自然对数,得到:,计算中心,4,Logistic,回归模型:,Logit(p)=

4、ln(p/(1-p)=,0,+,1,x,1,+,2,x,2,+,n,x,n,Y=Logit(p),的图形如下,(,随,p,由,0,变到,1,Y,的值由,-,单调上升到,),Logistic,回归分析,计算中心,5,Logistic,回归分析,上,模型称为,Logistic,回归模型,.,其中最简单的情况是只含一个自变量:,logit(,p,)=,0,+,1,x,或,计算中心,6,Logistic,回归分析,一般地,拟合回归模型时,是要建立属性变量,(,因变量,),取某种状态的概率,p,i,关于自变量的关系式,.,自变量若也是属性的变量,应先把它数量化,.,比如自变量,x,取,k,种不同的状态,

5、引入,k,-1,个标识变量,z,i,(,i,=1,.,k,-1),作为自变量,.,其中,z,i,=1,当,x,取第,i,种状态,z,i,=0,其它,.,(,i,=1,k,-1).,计算中心,7,例,下表记录了某公司在过去,6,个月中的顾客信息,.,其中包括顾客的性别,(gender:0=,男和,1=,女,),,顾客的年龄,(AGE),顾客的年收入,(income,:,1=,低,2=,中和,3=,高,),和购买价值,(PURCHASE,:,0=,小于,100,元,1=,大于等于,100,元,),,共记录了,431,位顾客的资料,数据集为,sales1,。,计算中心,8,用分析家作,logisti

6、c,分析,统计,回归,Logistic.,。,purchase Dependent,sex Quantitative,在,Logistic,回归分析主窗口,Dependent,左边点击,Model Pr,右侧向下箭头,并且选,1;,在主窗口选,Statistics,键,Intervals,并选中,Profile Likelihood Limits(,使它左边方框打勾,).,计算中心,9,结果分析,数据集名称:,sales1,目标变量:,purchase,目标变量类别数:,2,映射函数:,logit,观测值:,431,计算中心,10,结果分析,收敛状态,(Model Convergence St

7、atus,指参数估计是否收敛,模型拟合统计量,(Model Fit Statistics),类似于线性回归中的总平方和、残差平方和等,在,logit,回归中较少关注,计算中心,11,结果分析,总体拟合测试,(Test Global Null Hypothesis),测试有预测变量和没有预测变量效果是否一样,原假设:效果一样,如果,P,很小,效果不一样,Likelihood Ratio,:似然比卡方值,4.6978=570.649-565.951,其对应的,P,值小,建模效果显著,计算中心,12,结果分析,参数估计值,(Analysis of Maxamum Likelihood Estimat

8、es),回归方程:,Logit(p)=-0.7566+0.4373*sex,由检验的显著性概率值,(,分别为,0.001,和,0.0312),可知在,0.05,的水平下回归式的两个系数均显著地不为,0.,计算中心,13,结果分析,优势比估计,(Odds Ratio Estimates),对于两值的,Logistic,回归,:logit(p)=0+1x,若自变量,x,也是只取两个值,0,1,当,x=1,时,Y=1,发生的优比,(Odds),为,当,x=0,时,Y=1,发生的优比,(Odds),为,:,计算中心,14,结果分析,优势比估计,(Odds Ratio Estimates),在这两种情况

9、下,Y=1,发生的优比率,(Odds Ratio),为,此例的优比率为,1.549,表示利用拟合的回归式预测女性购买,100,元以上商品的优比为男性的,1.549,倍,.,优比率的,95%,置信区间为,(1.040,2.305).,计算中心,15,结果分析,在,Logistic,回归分析中,衡量模型拟合好坏的指标除了各种与似然函数联系的综合指标外,一个常用的做法是计算预测的和实际的观测中的一致对与不一致对的比例,.,两值,Logistic,回归的因变量,Y,可取值为,0,或,1,,而拟合的,Logistic,回归式,logit(p)=b0+b1x,是用以预测,Y=1,的概率,p,的,.,对每个

10、实际观测,(Yi,xi),用拟合的回归式都可以计算得到,计算中心,16,结果分析,对于实际和预测的数据,考虑数据对,对于,YiYj,的数据对规定:,若,(Yi-Yj)(pi-pj),0,称数据对是一致的,若,(Yi-Yj)(pi-pj),0,称数据对是不一致的,若,(Yi-Yj)(pi-pj)=0,称数据对平分的,对所有,YiYj,的数据对,统计其一致对和不一致对的总数及所占的比例。这是衡量拟合的,Logistic,回归是否反映实际数据趋势的一种方法。,计算中心,17,结果分析,预测概率和观测响应关联统计,因为原始记录中有,162,个,PURCHASE=1,269,个为,0,。所以可配成,16

11、2269=43578,个对。其中,30.1%,用拟合的回归模型预测时其趋势是与实际结果一致的,.,而,19.5%,是不一致的,其余为平分的,.,SomersD,等,4,个统计量表示预测概率和观测值之间的关联度。,一般而言,,C,统计量的值,0.7,,关联度高,可以使用该模型,计算中心,18,例,饮酒与食道癌发病关系的分析,1977,年,Tuyns,等在法国,llle-et-Vilaine(Brittany),地区的一所医院收集了,200,例食道癌患者与,775,例对照进行病例,对照研究,探讨饮食与发病的关系,考虑到年龄这一混杂因素的干扰,按每,10,岁一组共分为,6,组。危险因素饮酒分为两个水

12、平:每天饮酒量少于,80,克者为非接触(,x=0,),,80,克为接触(,x=1,),年龄组范围为:,1,组:,25,,,2,组:,35,,,3,组:,45,,,4,组:,55,,,5,组:,65,,,6,组:,75,(数据集为,logit,),19,饮酒与食道癌发病关系资料,(,200,例食道癌与,775,例对照数据),20,Logistic,回归,进入分析家,并打开数据集,选择,统计,/,回归,/Logisti,Y,Dependent,,,x,Quantitative,/count,Frequency,点击,Model,右侧的箭头,并选,0,(,y=0,为发病),ok,21,例,50,例急

13、性淋巴细胞性白血病病人,在入院治疗时取得了外周血中的细胞数,x1,(千个,/mm,3,)、淋巴结浸润等级,x2,(分别为,0,,,1,,,2,,,3,四级),出院后巩固治疗,x3,(有巩固治疗为,1,,无巩固治疗为,0,),并随访取得病人的生存时间,T,(月),变量,Y,(生存时间,1,年以内为,0,,,1,年以上为,1,),(数据集为,logit2,),22,分析过程,进入分析家,并打开数据集,选择,统计,/,回归,/Logisti,Y,Dependent,,,x1,x2,x3,Quantitative,点击,Model,右侧的箭头,并选,0,(,y=0,),Ok,结果中有不显著的自变量,用

14、逐步法选择自变量,/selection/stepwise selection,X1,x2,移出模型。,23,结果,结果:,1.Ln(p/(1-p)=1.9924-2.7462x3,有巩固治疗,x3=1,Ln(p/(1-p)=-0.7538,p/(1-p)=0.471,p=0.471/1.471=0.32,有巩固治疗一年内死亡的概率是,0.32,2.,无巩固治疗,x3=0,Ln(p/(1-p)=1.9924,p/(1-p)=7.33,p=7.33/8.33=0.88,无巩固治疗一年内死亡的概率是,0.88,24,作业,关于食管癌与使用咸菜关系的病例,-,对照研究,不考虑年龄的因素,仅对“吃咸菜”一个变量作,Logistic,回归,25,

展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服