收藏 分销(赏)

线性回归计算方法及公式省名师优质课获奖课件市赛课一等奖课件.ppt

上传人:精**** 文档编号:10265783 上传时间:2025-05-07 格式:PPT 页数:35 大小:291.54KB
下载 相关 举报
线性回归计算方法及公式省名师优质课获奖课件市赛课一等奖课件.ppt_第1页
第1页 / 共35页
线性回归计算方法及公式省名师优质课获奖课件市赛课一等奖课件.ppt_第2页
第2页 / 共35页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,本幻灯片资料仅供参考,不能作为科学依据,如有不当之处,请参考专业资料。谢谢,多元线性回归,第1页,多元线性回归,多元线性回归是简单线性回归直接推广,其包含一个因变量和二个或二个以上自变量。,简单线性回归是研究一个因变量(Y)和一个自变量(X)之间数量上相互依存线性关系。而多元线性回归是研究一个因变量(Y)和多个自变量(X,i,)之间数量上相互依存线性关系。,简单线性回归大部分内容可用于多元回归,因其基本概念是一样。,第2页,内容安排,多元线性回归模型与参数预计,回归方程和偏回归系数假设检验,标准化偏回归系数和确定系数,多元回归分析中若干问题,回归分析中自变量选择,多元线性回归分析作用,第3页,多元线性回归模型与参数预计,设有自变量x,1,x,2,x,p,和因变量Y以及一份由n个个体组成随机样本(x,1i,x,2i,x,pi,,Y,i,),且有以下关系:,y=B,0,+B,1,x,1,+B,2,x,2,+B,p,x,p,+,(模型),B,0,、B,1,、B,2,和B,p,为待估参数,,为残差。,由一组样本数据,可求出等估参数预计值,b,0,、b,1,、b,2,和b,p,,得到以下回归方程:,i,=b,0,+b,1,x,1,+b,2,x,2,+b,p,x,p,由此可见,建立回归方程过程就是对回归模型中参数(常数项和偏回归系数)进行预计过程。,第4页,参数最小二乘预计,与简单回归类似,我们寻求参数B,0,、B,1,、B,2,和B,p,适宜预计数值b,0,、b,1,、b,2,和b,p,,使实际观察值和回归方程预计值之间残差平方和最小,,即,Q,(y,i,i,),2,=,(,y,i,b,0,b,1,x,1i,b,2,x,2i,b,p,x,p,i,),2,对b,0,、b,1,、b,p,分别求偏导数,今偏导数为零可取得P1个正规方程,求解正规方程可得待估参数值。,第5页,回归方程和偏回归系数假设检验,回归方程假设检验:,建立回归方程后,须分析应变量Y与这p个自变量之间是否确有线性回归关系,可用F分析。,H,0,:,B,1,B,2,.=B,p,=0,H,1,:H,0,不正确,0.05,F MS,回归,/MS,误差,MS,回归,SS,回归,p SS,回归,=,b,j,L,jy (j=1,2.,P),MS,误差,SS,误差,(n-p-1)SS,误差,为残差平方和,第6页,偏回归系数假设检验,回归方程假设检验若拒绝H,0,,则可分别对每一个偏回归系数bj作统计检验,,实质是考查在固定其它变量后,该变量对应变量 Y 影响有没有显著性。,H,0,:B,j,=0,H,1,:B,j,不为零,0.05,F (X,j,偏回归平方和1),/MS,误差,X,j,偏回归平方和:去Xj后回归平方和降低许,若,H,0,成立,可把Xj从回归方程中剔除,余下变量重新构建新方程。,第7页,标准化偏回归系数和确定系数,标准化偏回归系数:,在比较各自变量对应变量相对贡献大小时,因为各自变量单位不一样,不能直接用偏回归系数大小作比较,须用标准化偏回归系数。,b,j,=b,j,(s,j,/s,y,),第8页,确定系数,:,简记为R,2,,即回归平方和SS,回归,与总离均差平方和SS,总,百分比。,R,2,SS,回归,SS,总,可用来定量评价在Y总变异中,由P个X变量建立线性回归方程所能解释百分比。,第9页,回归分析中若干问题,资料要求,:总体服从多元正态分布。但实际工作中分类变量也做分析。,n足够大,最少应是自变量个数5倍,分类变量在回归分析中处理方法,有序分类:,治疗效果:x=0(无效)x=1(有效)x=2(控制),无序分类:,有k类,则用k1变量(伪变量),第10页,如职业,分四类可用三个伪变量:,y1 y2 y3,工人 1 0 0,农民 0 1 0,干部 0 0 1,学生 0 0 0,第11页,多元线性回归方程评价,评价回归方程优劣、好坏可用确定系数R,2,和剩下标准差S,y,x1,2.p 。,S,y,x1,2.p,SQRT(SS误差n-p-1),如用于预测,主要是组外回代结果。,第12页,回归方程中自变量选择,多元线性回归方程中并非自变量越多越好,,原因是自变量越多剩下标准差可能变大;同时也增加搜集资料难度。故需寻求“最正确”回归方程,逐步回归分析是寻求“较佳”回归方程一个方法。,第13页,选择变量统计学标准,R,2,最大,R,2,SS,回归,SS,总,adjR,2,最大:,adjR,2,1MS,误差,/MS,总,Cp值最小,Cp(n-p-1)(MS,误差.p,/MS,误差.全部,1)(p+1),第14页,选择变量方法,最优子集回归分析法,:,p个变量有2,p,1个方程,逐步回归分析,向前引入法,(forward selection),向后剔除法,(backward selection),逐步引入剔除法,(stepwise selection),H0:K个自变 量为好 H1:K1个自变量为好,第15页,向前引入法,(forward selection),自变量由少到多一个一个引入回归方程。将 corr(y ,x,j,)最大而又能拒绝H,0,者,最先引入方程,余这类推。至不能再拒绝H,0,为止。,第16页,向后剔除法,(backward selection),自变量先全部选入方程,每次剔除一个使上述检验最不能拒绝H,0,者,直到不能剔除为止。,第17页,逐步引入剔除法,(,stepwise selection),先要求两个阀值F,引入,和F,剔除,,当候选变量中最大F值F,引入,时,引入对应变量;已进入方程变量最小FF,剔除,时,剔除对应变量。如此交替进行直到无引入和无剔除为止。(计算复杂),第18页,多元线性回归方程作用,原因分析,调整混杂原因作用,统计预测,第19页,例:测量16名四岁男孩心脏纵径X1(CM)、心脏横径X2(CM)和心象面积Y(CM2)三项指标,得以下数据。试作象面积Y对心脏纵径X1、心脏横径X2多元线性回归分析。,例:某科研协作组调查山西某煤矿2期高血压病患者40例,资料以下表,试进行影响煤矿工人2期高血压病病人收缩压多元线性回归分析。,第20页,Logistic回归,第21页,多元回归分析可用来分析多个自变量与一个因变量关系,模型中因变量Y是边连续性随机变量,并要求呈正态分布。但在医学研究中,常碰到因变量取值仅有两个,如药品试验中,动物出现死亡或生存,死亡概率与药品剂量相关。设P表示死亡概率,X表示药品剂量,P和X关系显然不能用普通线性回归模型PB,0,B,1,X来表示。这时可用Logistic回归分析。,第22页,内容安排,Logistic回归模型,模型参数意义,Logistic回归模型参数预计,Logistic回归方程假设检验,Logistic回归模型中自变量,筛选,Logistic回归应用,第23页,Logistic回归模型,先引入Logistic分布函数,表示式为:,F(x)=e,x,/(1+e,x,),X取值在正负无穷大之间;F(x)则在01之间取值,并呈单调上升S型曲线。人们正是利用Logistic分布函数这一特征,将其应用到临床医学和流行病学中来描述事件发生概率。,第24页,以因变量D1表示死亡,D0表示生存,以P(D1X)表示暴露于药品剂量X动物死亡概率,设,P(D1X)e,Bo+BX,/(1+e,Bo+BX,),记,Logit(P)=lnp/(1-p),则上式可表示为:,Logit(P)Bo+BX,这里X取值仍是任意,Logit(P)值亦在正负无穷大之间,概率P数值则必定在01之间。,p/(1-p),为事件优势,,Logit(P),为对数优势,故logistic回归又称对数优势线性回归,第25页,普通地,设某事件D发生(D1)概率P依赖于多个自变量(x,1,x,2,x,p,),且,P(D1)e,Bo+B1X1+BpXp,/(1+e,Bo+B1X1+BpXp,),或,Logit(P)Bo+B,1,X,1,+B,p,X,p,则称该事件发生概率与变量间关系符合多元Logistic回归或对数优势线性回归。,第26页,logistic回归模型参数意义,优势比(odds ratio,OR):暴露人群发病优势与非暴露人群发病优势之比。,P(1)/1-p(1),OR=,P(0)/1-p(0),Ln(oR)=logitp(1)-logitp(0)=(B,0,+B1)(B,0,+B0)=B,可见B是暴露剂量增加一个单位所引发对数优势增量,或单位暴露剂量与零剂量死亡优势比对数。e,B,就是两剂量死亡优势比。常数项B,0,是全部变量X等于零时事件发生优势对数。,第27页,Logistic回归参数预计,Logistic回归模型参数预计惯用最大似然法,最大似然法基本思想是先建立似然函数或对数似然函数,似然函数或对数似然函数到达极大时参数取值,即为参数最大似然预计值。其步骤为对对数似然函数中待估参数分别求一阶偏导数,令其为0得一方程组,然后求解。因为似然函数偏导数为非线性函数,参数预计需用非线性方程组数值法求解。惯用数值法为Newton-Raphson法。不一样研究设计方案不一样,其似然函数结构略有差异,故Logistic回归有非条件Logistic回归与条件Logistic回归两种。,第28页,Logistic回归假设检验,1、拟合优度检验:目标是检验模型预计值与实际观察值符合程度。SAS程序提供了以下统计量。,A、AIC和SC:对同一份资料,在模型比较中,这两个越小,表明模型越适当。,B、2LogL:用于检验全部自变量(协变量)联合作用。如显著,表明全部协变量联合作用显著;如不显著,表明全部协变量联合作用不大,可予忽略。,C、Score:用于检验全部协变量联合作用显著性,但不包截距项。,第29页,2、偏回归系数显著性检验:目标是检验回归模型中自变量系数是否为零,等价于总体优势比OR是否为零。,H0:B等于零 H1:B不等于零,A、wald检验:,B、Score test:,C、likelihood ratio test(wald chi-square test):,第30页,回归模型中自变量筛选,和多元线性回归分析一样,在Logistic回归分析中也须对自变量进行筛选。方法和多元线性回归中采取方法一样,有向后剔除法、向前引入法及逐步筛选法三种。筛选自变量方法有wald检验、Score test、likelihood ratio test(wald chi-square test)三种。,第31页,Logistic 回归应用,筛选危险原因,校正混杂原因,预测与判别,第32页,例1:在饮酒与食道癌成组病例对照研究中,共有200例食道癌患者和774例非食道癌对照,年纪是混杂原因,按年纪分层后资料以下:,age 对象(1=病例 0=对照)饮酒 不饮酒 累计 OR,2534 1 1 0 1,0 9 106 115,35-44 1 4 5 9 5.05,0 26 164 190,45-54 1 25 21 46 5.67,0 29 138 167,55-64 1 42 34 76 6.36,0 27 138 165,65-74 1 19 36 55 2.58,0 18 88 106,75-1 5 8 13,0 0 31 31,第33页,例2:研究女生月经初潮与体质关系调查中,某地调查了23名1115岁女生月经和体质情况,脉搏X1为30秒脉搏数,体重X2单位为千克,年纪X3单位为岁。月经Y为0表示未来月经,1表示已来月经。试用非条件Logistic 回归进行分析。,(X1=40 X2=40 X3=13 p=0.92;,X1=39 X2=35 X3=11 p=0.23),第34页,例3:在研究新生儿出生时体重、妊娠周数与支气管肺发育不良病(BPD)关系时,得下表资料。,出生时体重(组中值)妊娠周数 观察人数 患BPD人数,birth weight age n BPD,750 27 41 33,750 29.5 21 15,750 32 6 1,1150 27 17 7,1150 29.5 36 7,1150 32 27 4,1550 27 0 0,1550 29.5 16 4,1550 32 59 5,第35页,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服