ImageVerifierCode 换一换
格式:PPT , 页数:62 ,大小:672KB ,
资源ID:14008622      下载积分:10 金币
快捷注册下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/14008622.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请

   平台协调中心        【在线客服】        免费申请共赢上传

权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:0574-28810668;投诉电话:18658249818。

注意事项

本文(多重线性回归分析.ppt)为本站上传会员【s4****5z】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

多重线性回归分析.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第十一章,多重线性回归分析,2,内 容,基本原理,方法简介,分析步骤,几点补充,3,一、方法简介,1.1,分析目的与方法选择,研究一个因变量与一个自变量间的线性关系时,简单线性回归分析,研究一个因变量与多个自变量间的线性关系时,多重线性回归分析,4,一、方法简介,1.2,概念,用回归方程,定量地刻画一个因变量与多个自变量之间的线性依存关系,,称为多重线性回归分析(,multiple linear regression analysis,)。,自变量是相互独立的连续型变量或分类变量。,一、方法简介,1.3,

2、数据结构,表,1,进行多重线性回归分析资料的数据结构,5,编号,X,1,X,2,X,k,Y,1,X,11,X,12,X,1,k,Y,1,2,X,21,X,22,X,2,k,Y,2,:,:,:,:,:,n,X,n,1,X,n,2,X,nk,Y,n,6,二、基本原理,2.1,原理简介,多重线性回归模型:,Y,=,b,0,+,b,1,X,1,+,b,2,X,2,+,+,b,k,X,k,+,e,=,b,X,+,e,其中,,b,j,(,j,=0,1,2,k,),为未知参数,,e,为随机误差项。,7,二、基本原理,多重线性回归模型中包含多个自变量,它们同时对因变量,Y,发生作用。,若要考察一个自变量对,Y

3、的影响,就必须假设其他自变量保持不变。,因此,多重线性回归模型中的回归系数为,偏回归系数,。,它反映的是当模型中的,其他自变量不变时,,其中,一个自变量对因变量,Y,的均值的影响,。,8,二、基本原理,2.2,前提条件,多重线性回归分析要求资料满足线性,(Linear),、独立性,(Independence),、正态性,(Normality),和方差齐性,(Equal variance),,即,LINE,条件,。,除此之外,还要求多个自变量之间相关性不要太强。,9,二、基本原理,2.2,前提条件,线性,指自变量与因变量之间的关系是线性的,独立性,指各观测值之间是相互独立的,正态性,指自变量取

4、不同值时,因变量服从正,态分布,方差齐性,指自变量取不同值时,因变量的方,差相等,10,三、分析步骤,1.,基本任务,求出模型中参数的估计值,对模型和参数进行假设检验;,对自变量进行共线性诊断,对观测值进行异常值诊断;,结合统计学知识和专业知识,对回归方程进行合理的解释,并加以应用。,11,三、分析步骤,2.,具体步骤,2.1,回归参数估计,多重线性回归分析的参数估计,常采用最小二乘法,(OLS),进行。,参数估计值为:,12,三、分析步骤,2.,具体步骤,2.2,模型检验,根据方差分析的思想,将总的离均差平方和,SS,总,分解为回归平方和,SS,回,和残差平方和,SS,残,两部分。,SS,总

5、的自由度为,n,-1,,,SS,回,的自由度为,k,,,SS,残,的自由度为,n,-,k,-1,。,SS,总,=,SS,回归,+,SS,残差,SS,总,(,总平方和,),v,总,=,n,-1,SS,回归,(,回归平方和,),v,回归,=1,SS,残差,(,残差平方和,),v,残差,=,n,-,p,-1,v,总,=,v,回归,+,v,残差,自变量的个数,14,三、分析步骤,2.,具体步骤,2.2,模型检验,模型的显著性检验步骤为:,第一步,建立检验假设。,H,0,:,b,1,=,b,2,=,b,k,=0,H,1,:,b,1,b,2,b,k,不同时为,0,15,三、分析步骤,第二步,计算统计量,

6、F,的值。,第三步,确定,P,值,下统计学结论。,根据检验统计量,F,的值和自由度,确定其对应的,P,值。若,P,a,,则接受,H,0,,认为回归模型的系数全部为,0,;若,P,t,a,/2,(,n,-,k,-1),或,t,-,t,a,/2,(,n,-,k,-1),,则,P,a,。此时,拒绝,H,0,,接受,H,1,,认为该回归系数不等于,0,。反之,则接受,H,0,,认为该回归系数为,0,。,19,三、分析步骤,2.,具体步骤,2.4,变量筛选,不是所有的自变量都对因变量的作用都有统计学意义。,故需要找到一个较好的回归方程,使之满足:方程内的自变量对回归都有统计学意义,方程外的自变量对回归都

7、无统计学意义。,20,三、分析步骤,这就是自变量的选择问题,或称为变量筛选。选择时,,一要尽可能地,不漏掉,重要的自变量;,二要,尽可能地减少,自变量的个数,保持模型的精简。,就回归方程而言,每个变量均有两种可能性,即被选择或被踢除。所以,所有可能的模型有,2,k,个,(,k,为自变量个数,),。,自变量个数较多时,计算量过大。此时,需要一定的变量筛选方法。,全局择优法,变量筛选,逐步选择法,校正决定系数,R,2,选择法,C,p,选择法,前进法,后退法,逐步回归法,c,22,三、分析步骤,2.4.1,前进法,(FORWARD),回归方程中变量,从无到有,依次选择一个自变量进入回归方程,并根据该

8、变量在回归方程中的型离差平方和,(,SS,2,),计算,F,统计量及,P,值。,当,P,小于,sle,(,规定的选变量进入方程的临界水平,),则该变量入选,否则不能入选。,23,三、分析步骤,当回归方程中变量少时某变量不符合入选标准,但随着回归方程中变量逐次增多时,该变量就可能符合入选标准;这样直到没有变量可入选为止。,具体而言,是从仅含常数项,(,即截距项,),的最简单模型开始,逐步在模型中添加自变量。,24,三、分析步骤,局限性:,sle,取值小时,可能没有一个变量能入选;,sle,取值大时,开始选入的变量后来在新条件下不再进行检验,因而不能剔除后来变得无统计学意义的变量。,25,三、分析

9、步骤,2.4.2,后退法,(BACKWARD),从模型中包含全部自变量开始,计算留在回归方程中的各个自变量所产生的,F,统计量和,P,值,当,P,值小于,sls,(,规定的从方程中踢除变量的临界水准,),则将此变量保留在方程中。,否则,从最大的,P,值所对应的自变量开始逐一踢除,直到回归方程中没有变量可以被踢除时为止。,26,三、分析步骤,局限性:,sls,大时,任何一个自变量都不能被踢除;,sls,小时,开始被踢除的自变量后来在新条件下即使变得对因变量有较大的贡献了,也不能再次被选入回归方程并参与检验。,27,三、分析步骤,2.4.3,逐步回归法,(STEPWISE),此法是前进法和后退法的

10、结合。,回归方程中的变量从无到有像前进法那样,根据,F,统计量和,P,值大小按,sle,水平决定该自变量是否入选。,28,三、分析步骤,当回归方程选入自变量后,又像后退法那样,根据,F,统计量和,P,值按,sls,水平踢除无统计学意义的各自变量,依次类推。,这样直到没有自变量可入选,也没有自变量可被踢除或入选的自变量就是刚被剔除的自变量时,则停止逐步筛选过程。,29,三、分析步骤,2.4.3,逐步回归法,逐步回归法,有无符合纳入标准的新变量,纳入新变量,有无符合排除标准的变量,踢除,完成,无,有,无,有,30,三、分析步骤,逐步回归法比前进法和后退法都能更好地选出变量构造模型,但它也有局限性:

11、其一,当有,m,个变量入选后,选第,m,1,个变量时,对它来说,前,m,个变量不一定是最佳组合;,其二,选入或踢除自变量仅以,F,值和,P,值作标准,完全没考虑其它标准。,31,三、分析步骤,2.4.4,变量筛选方法的选择,究竟哪一种筛选变量的方法最好?这个问题没有绝对的定论。,一般来说,逐步回归法和最优回归子集法较好。对于一个给定的资料,可,试用多种变量筛选的方法,,结合以下几条判断原则,从中选择最佳者。,32,三、分析步骤,其一,拟合的回归方程在整体上有统计学意义;,其二,回归方程中各回归参数的估计值的假设检验结果都有统计学意义;,其三,回归方程中各回归参数的估计值的正负号与其后的变量在

12、专业上的含义相吻合;,其四,根据回归方程计算出因变量的所有预测值在专业上都有意义。,其五,若有多个较好的多重线性回归方程时,残差平方和较小且多重线性回归方程中所含的自变量的个数又较少者为最佳。,33,三、分析步骤,2.5,模型拟合效果评价,2.5.1,决定系数,(,R,2,),即复,(,全,),相关系数的平方,其值等于因变量观测值与预测值之间简单相关系数的平方。计算公式为:,34,三、分析步骤,2.5,模型拟合效果评价,2.5.1,决定系数,(,R,2,),R,2,取值介于,0,到,1,之间,其含义为自变量能够解释因变量,y,变异的百分比。,R,2,越接近于,1,,说明线性回归对实际数据的拟合

13、程度越好。,35,三、分析步骤,2.5,模型拟合效果评价,2.5.2,校正决定系数,(,Rc,2,),随着模型中自变量个数的增加,决定系数,R,2,将不断增大,这不符合回归模型中自变量个数尽可能少的原则。,36,三、分析步骤,2.5,模型拟合效果评价,2.5.2,校正决定系数,(,Rc,2,),故在评价两个包含不同个数自变量的回归模型的拟合效果时,不能简单地用决定系数作为评价标准。,此时,必须考虑回归模型中自变量个数的影响。,37,三、分析步骤,2.5,模型拟合效果评价,2.5.2,校正决定系数,(,Rc,2,),构造校正决定系数,其公式为:,其中,,n,为样本含量,,p,为模型中自变量个数。

14、决定系数相同时,自变量个数越多,,Rc,2,越小。,38,三、分析步骤,2.5,模型拟合效果评价,2.5.3 AIC,信息准则,该准则由日本学者赤池于,1973,年提出,广泛应用于时间序列分析中自回归阶数的确定,多重回归、广义线性回归中自变量的筛选以及非线性回归模型的比较和选优。该统计量取值越小,反映模型拟合效果越好。,在进行多重线性回归分析时,除了要满足,LINE,外,还要求各变量之间不能存在共线性,即各变量之间要相互独立。为此,需要进行共线性诊断;,当自变量均为随机变量时,若它们之间高度相关,则称变量间存在多重共线性,(,multicollinearity,),;,自变量之间不存在多重共线

15、性,即称其互相独立。,三、分析步骤,2.6,共线性诊断,40,三、分析步骤,多重线性回归分析中,可能会出现以下问题:,回归方程的检验有统计学意义,而各偏回归系数的检验均无统计学意义。,偏回归系数的估计值大小或其符号与实际情况和专业知识相违背,难以解释。,某个(些)与因变量关系密切的自变量,因为参数标准误的估计值较大,相应,t,值就会变得较小,造成其偏回归系数无统计学意义。,41,三、分析步骤,导致这些问题的原因可能有:,(1),研究设计不够合理;,(2),资料收集存在问题;,(3),自变量间近似线性;,(4),数据中存在异常点;,(5),样本少而自变量多。,42,三、分析步骤,何谓多重共线性?

16、自变量间的近似线性关系,即是多重共线性。,由于数据自身的特征,回归模型中的自变量之间或多或少地存在一些相关性,这违反了自变量间相互独立的假设条件,称为多重共线性。,43,三、分析步骤,多重共线性的分类:,(1),严重的多重共线性,此时,自变量之间存在着较高甚至完全的线性相关关系,虽然最小二乘法仍可应用,但由于观测误差的稳定性变差,所得的估计值可能面目全非。这类情况较为少见。,(2),某种程度的多重共线性,此时,最小二乘法仍可获得参数的无偏估计值,但参数的方差估计值将变得很大,导致估计精度下降,且无法判断自变量对因变量的影响程度。,例,研究胎儿受精龄,Y,/,周与胎儿身长,X,1,/cm,、头

17、围,X,2,/cm,,体重,X,3,/g,之间的依存关系。,显然,此处的,3,个解释变量,X,1,、,X,2,、,X,3,之间存在着高度的共线性,,X,1,、,X,2,、,X,3,两项对,Y,的过分贡献只能用,X,2,项的负系数抵消,造成其专业意义无法解释而出现悖论。,三、分析步骤,相关系数,Correlation,容忍度,Torelance,方差膨胀因子,VIF,条件数,Condition index,方差比例,Variance proportions,VP,方差相关矩阵,Variance Matrix,可用来判断变量之间的独立性、,或说多重共线性,三、分析步骤,如果两个自变量之间的相关系数

18、超过,0.9,,则会带来共线性问题,如果在,0.8,以下,一般不会出现多大问题。,共线性诊断,1.,两个自变量之间的相关系数,2.,容忍度,Tolerance/,方差膨胀因子,VIF,经验表明:,VIF,大于,5,或,10,时,存在严重的共线性;一般要求,Tolerance,必须大于,0.1,,或,VIF,必须小于,10,。,容忍度,=1/VIF,48,3.,条件数,最大特征根与其余每个特征根比值的平方根,称为条件指数,(conditional number),,公式为:,而最大条件指数,简称为条件数,其值为最大特征根与最小特征根之比值的平方根。即:,49,条件数越大,说明设计矩阵,X,具有越

19、强的共线性。,经验上,若,0,CN,k,30,,则认为自变量间存在严重的多重共线性。,50,三、分析步骤,2.6.3,共线性的解决方法,(1),变量筛选,采用自变量筛选的方法一般可选出对因变量有统计学影响且相互之间独立或相关性较低的一组自变量。,(2),有偏估计,自变量间存在多重共线性且专业上认为需要保留在模型中时,不宜使用最小二乘法估计模型。此时,可采用有偏估计。,此类方法包括岭回归分析、主成分回归分析等。,(3),增大样本含量,通过增加样本含量,减少估计量的方差,提高估计精度,可在一定程度上克服多重共线性。,51,三、分析步骤,2.7,异常点诊断,2.7.1,异常点,对因变量的预测值影响特

20、别大,甚至容易导致相反结论的观测点,称为异常点。,异常点的诊断,可采用学生化残差统计量、,Cooks D,统计量。,52,三、分析步骤,2.7.2,学生化残差统计量,Studentized,residual,,计算公式为:,该统计量的,绝对值大于,2,时,所对应的观测点可能是异常点。,53,三、分析步骤,2.7.3 Cooks D,统计量,库克距离统计量。,一般认为,,Cooks D0.5,时,可认为此观测点对回归模型的拟合有强影响,即可认为是异常点。,54,三、分析步骤,2.7.4,异常点的处置,认真核对原始数据。若属抄写或输入等人为错误,应予以纠正;若非人为错误,可删除异常点,重新拟合回归

21、模型。,如有可能,最好在此实验点上补做实验,进一步确定此可疑异常点是否属实。,55,三、分析步骤,2.8,自变量作用大小评价,由于自变量,量纲不同,,不能直接根据原始数据计算得来的偏回归系数来评价各自变量对因变量的影响大小。,也不能依据,P,值来判断自变量对因变量的影响大小。因为,P,值的大小,不表示自变量的影响强弱,仅表示认为它有影响的可能性有多大。,56,三、分析步骤,先对原始数据进行标准化变换,然后再计算偏回归系数,此时的偏回归系数称为标准化偏回归系数。,标准化偏回归系数值越大,说明该自变量对因变量的影响越大,。,57,四、几点补充,4.1,哑变量,多重线性回归分析中,自变量为多值名义变

22、量时,需对其进行哑变量变换。,每个哑变量都是一个二值变量,所需哑变量的数目为多值名义变量的类别数减,1,。如“血型”是一个多值名义变量,有,A,、,B,、,AB,、,O,四种,若以,O,型血为基准,需引入,3,个(,4-1=3,)哑变量来描述。,58,四、几点补充,4.1,哑变量,令:,59,四、几点补充,4.1,哑变量,则可得到下面的对应关系:,表,3,用,3,个哑变量描述血型变量,血型,哑变量,X,1,X,2,X,3,A,1,0,0,B,0,1,0,AB,0,0,1,O,0,0,0,60,四、几点补充,4.2,常见应用错误,4.2.1,建立模型时,不筛选自变量,在建立多重线性回归模型时,不考虑各自变量对因变量的影响是否有统计学意义,不采用任何变量筛选方法,直接将所有变量都保存在模型中。,61,四、几点补充,4.2.2,以单因素分析方法取代多因素分析方法,先以各自变量分别与因变量做简单相关分析或简单回归分析。然后对简单相关系数或简单回归系数进行假设检验,,P,0.05,的自变量予以保留,其他予以踢除。,最后,将保留下来的自变量与因变量一起进行多重线性回归分析。,谢谢!,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服