收藏 分销(赏)

第十二讲多重线性回归-PPT.pptx

上传人:a199****6536 文档编号:1681343 上传时间:2024-05-07 格式:PPTX 页数:27 大小:794.98KB
下载 相关 举报
第十二讲多重线性回归-PPT.pptx_第1页
第1页 / 共27页
第十二讲多重线性回归-PPT.pptx_第2页
第2页 / 共27页
第十二讲多重线性回归-PPT.pptx_第3页
第3页 / 共27页
第十二讲多重线性回归-PPT.pptx_第4页
第4页 / 共27页
第十二讲多重线性回归-PPT.pptx_第5页
第5页 / 共27页
点击查看更多>>
资源描述

1、o第十二讲多重线性回归第十二讲多重线性回归第第11讲讲 多重线性回归多重线性回归引言引言o在医药研究中,应变量得变化往往受到多个因素得影响,此时就需要用多重线性回归(Multiple Linear Regression),多重线性回归就是直线回归得扩展。例如,人得体重与身高、胸围有关;人得心率与年龄、体重、肺活量有关。因此,采用两个或多个影响因素作为自变量(Xi)来解释应变量(Y)得变化,建立最优组合模型来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。第一节第一节 多重线性回归多重线性回归 一、一、多重线性回归模型多重线性回归模型 Y01X12X2mXme 二、多二、多重

2、重线性回归得基本条件线性回归得基本条件 o多重线性回归模型得应用条件同直线回归多重线性回归模型得应用条件同直线回归,即线性即线性(linearitylinearity)、独立性、独立性(indepen-dencyindepen-dency)、正态性与方差齐性、正态性与方差齐性(normal distribution and equal variancenormal distribution and equal variance)等条件等条件,简记简记LINELINE。还要注意个自变量间不能存在多重共线性。还要注意个自变量间不能存在多重共线性。三、多重线性回归分析得步骤四、多重共线性问题四、多重

3、共线性问题 如果一些自变量之间存在较强得线性关系如果一些自变量之间存在较强得线性关系,称多称多重共线性。判断多重共线有相关系数、容忍度、方重共线性。判断多重共线有相关系数、容忍度、方差膨胀因子等指标。差膨胀因子等指标。一般来说一般来说,相关系数相关系数r0、8得变量可能存在共线得变量可能存在共线问题问题,r0、9得变量存在共线。得变量存在共线。容忍度容忍度=1R2,愈小说明共线问题愈严重愈小说明共线问题愈严重,如果如果某个自变量得容忍度某个自变量得容忍度0、1,共线问题严重。共线问题严重。方差膨胀因子方差膨胀因子=容忍度得倒数容忍度得倒数,愈大说明共线愈大说明共线问题愈严重。问题愈严重。消除多

4、重共线性得方法有多种消除多重共线性得方法有多种,如岭回归、主成如岭回归、主成分回归等。分回归等。五、多重回归得样本含量五、多重回归得样本含量 只要例数只要例数n多于自变量个数多于自变量个数m即可即可,一般要求一般要求n为为m得得5倍以上。倍以上。六、多重回归得检验六、多重回归得检验 多元线性回归方程得假设检验多元线性回归方程得假设检验:对整个方程得对整个方程得综合检验综合检验,即对回归方程得线性假设检验即对回归方程得线性假设检验;对每一对每一个自变量得检验个自变量得检验,即对每个偏回归系数得假设检验。即对每个偏回归系数得假设检验。回归方程得方差分析回归方程得方差分析剩余标准差剩余标准差 剩余标

5、准差得平方就是残差得方差剩余标准差得平方就是残差得方差,又称均方误又称均方误差差,记为记为MSE,其值越小越好其值越小越好(2)偏回归系数得假设检验偏回归系数得假设检验 分别考察每一个自变量分别考察每一个自变量 xi 与应变量与应变量 Y 就是否都就是否都有直线回归关系有直线回归关系 R2SS回回/SS总总 校正决定系数就是衡量校正决定系数就是衡量方程好坏得常用指标之方程好坏得常用指标之一一 七、决定系数七、决定系数八、标准化偏回归系数八、标准化偏回归系数 九、残差分析九、残差分析 o资料不满足其条件时,常用得处理方法有:修改模型或者采用曲线拟合;变量变换,常用得变量变换有对数变换、平方根变换

6、、倒数变换等。变量变换对自变量或(与)应变量均适宜;如果方差不齐,可采用加权最小二乘法估计偏回归系数。12o大家应该也有点累了,稍作休息大家应该也有点累了,稍作休息oo大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流 (1)分析因素得相对重要性分析因素得相对重要性,找出对因变量最大得找出对因变量最大得关键因素。关键因素。(2)同时调整多个混杂因素得作用同时调整多个混杂因素得作用(类似多元协方类似多元协方差分析调整多个混杂因素得作用差分析调整多个混杂因素得作用)。(3)估计与预测估计与预测,用较易测量得多个自变量来估计用较易测量得多

7、个自变量来估计难以测得应变量总体均数难以测得应变量总体均数Y或预测个体或预测个体Y值。值。(4)多重回归分析就是进一步学习多重回归分析就是进一步学习logistic回归、回归、判别分析、判别分析、主成分分析、主成分分析、因子分析等多元统计分析因子分析等多元统计分析方法得基础。方法得基础。十一、十一、筛筛选自变量方法选自变量方法十、多元回归分析得应用十、多元回归分析得应用 (1)全局择优法全局择优法:m 个自变量得不同组合共有个自变量得不同组合共有 2m-1 种种,分别建立回归方程进行比较后择优。择优得准则分别建立回归方程进行比较后择优。择优得准则有多种有多种,准则不同准则不同,筛筛选得结果可能

8、不同。如果用最选得结果可能不同。如果用最大校正决定系数准则大校正决定系数准则,则挑选校正决定系数则挑选校正决定系数R2a最大最大者来获得者来获得“最优子集最优子集”得回归方程。得回归方程。SPSS为为Enter法。法。(2)逐步逐步选择选择法法:备选自变量较多时备选自变量较多时,全局择优得全局择优得计算量非常大计算量非常大,用用逐步逐步回归回归法法选择可减少计算量。常选择可减少计算量。常用逐步用逐步(Stepwise)、向前、向前(Forward)、向后、向后(Backward)法。向后法考虑了自变量得组合作用法。向后法考虑了自变量得组合作用,但但变量数不能太多。变量数不能太多。3种逐步回归方

9、法选中得自变量不种逐步回归方法选中得自变量不一定相同。一定相同。逐步回归得到只就是局部最优逐步回归得到只就是局部最优,不一定就不一定就是全局最优回归方程。是全局最优回归方程。将自变量得交互项引入方程进行检验分析。将自变量得交互项引入方程进行检验分析。十二、自变量间交互作用得分析十二、自变量间交互作用得分析 【例例17-1】大白鼠作受试对象大白鼠作受试对象,分析乌头碱不同分析乌头碱不同注射速度注射速度x1、常咯啉得不同剂量、常咯啉得不同剂量x2,大鼠体重大鼠体重 x3与应与应变量延缓心律失常发生得时间变量延缓心律失常发生得时间Y得关系。得关系。编号号123456789101112131415X1

10、4、85、67、14、92、66、65、25、54、76、85、42、94、03、13、1X20、080、070、010、070、110、110、070、110、030、010、020、210、010、110、10X3230260252229220247233222206244222226234212212Y19、115、714、919、020、917、519、221、820、514、518、623、216、822、721、9 【SPSS操作操作】以以X1、X2、X3、Y为变量名建立数据文件为变量名建立数据文件L17-1、SAV。Data ViewVariable ViewAnalyzeReg

11、ressionLinear、Y选选Dependent框、框、X1、X2、X3选选Independent框。框。Method框选框选Stepwise。校正决校正决定系数定系数R2a=0、968,拟合拟合效果好。效果好。第第2步回归得步回归得F=209、539,P=0、000,故线性回故线性回归模型有统归模型有统计学意义。计学意义。共线性诊断大鼠体重与常咯啉剂量得容忍度都为共线性诊断大鼠体重与常咯啉剂量得容忍度都为0、940,方差膨胀因子都为方差膨胀因子都为1、064,可认为不存在共可认为不存在共线问题。建立线性回归方程为线问题。建立线性回归方程为 Y=45、110+28、844常咯啉剂量常咯啉剂

12、量0、123大鼠体大鼠体重重 大鼠体重、常咯啉剂量得标准回归系数分别为大鼠体重、常咯啉剂量得标准回归系数分别为-0、682、0、564。可见对延缓心律失常时间影响得。可见对延缓心律失常时间影响得重要性大鼠体重大于常咯啉剂量。重要性大鼠体重大于常咯啉剂量。因主要考察因素因主要考察因素x1未进入方程未进入方程,分析分析自变量间得交互作自变量间得交互作用用,Transform pute,计算计算X12、X13、X23。将将X1,*,X2送送Numeric Expression,X12送送Target VariableTransform pute,计算计算X12、X13、X23。用原变量连用原变量连同

13、交互作用同交互作用变量建立回变量建立回归方程归方程:X12、X13、X23送送IndependentMethod选选EnterOK3个变量个变量3个交互作用变量共个交互作用变量共6个自变量个自变量,不同组合有不同组合有26-1=63种种,Method框选框选Ente,建立得建立得63个回归方程中个回归方程中,R2a=0、980最大最大方差分析方差分析F值值63、724,方程有统计学意义方程有统计学意义最优方程最优方程:Y=28、793+1、795x1+130、891x2-0、048x3+3、188 x12-0、009 x13-0、502x23。x2标化系标化系数数=2、561 最大最大,常咯啉

14、剂量对延缓心律失常发生时常咯啉剂量对延缓心律失常发生时间作用最大。间作用最大。x23标化偏回归系数标化偏回归系数=-2、213绝对值第绝对值第二大二大,常咯啉剂量与大鼠体重得交互效应对延缓心律常咯啉剂量与大鼠体重得交互效应对延缓心律失常发生时间产生负面影响不可勿视。失常发生时间产生负面影响不可勿视。(1)二分类自变量二分类自变量常采用常采用0、1赋值赋值方法。如方法。如,用用X代表性别代表性别:X=0为女为女,X=1为男为男,或者用或者用X=1为女为女,X=0为为男。男。十三、分类变量赋值方法十三、分类变量赋值方法 (2)指标为无序指标为无序 k类类,定义定义k-1个二分类哑变量个二分类哑变量

15、。例如。例如,中医治崩漏中医治崩漏,分肾虚、肝虚、分肾虚、肝虚、肝郁、血虚肝郁、血虚4型型,只要用只要用 3 个个二分类变量二分类变量X1,X2,X3就能标就能标记这记这4个类别。个类别。崩漏分型崩漏分型X1X2X3肾虚型虚型100肝虚型肝虚型010肝郁型肝郁型001血虚型血虚型000,(3)有序分类变量数量化方法有序分类变量数量化方法:对等级根据级别对等级根据级别大大小进行量化小进行量化后按连续变量处理后按连续变量处理。例如。例如,用用X1,2,3分分别为表示病情别为表示病情轻轻,中中,重重。用无序多分类变量设置用无序多分类变量设置哑哑变量得方法变量得方法。采用哪种方法更好要视具体情况而。采用哪种方法更好要视具体情况而定。定。第二节第二节 多元相关分析多元相关分析 一、多元相关分析得统计量一、多元相关分析得统计量 1、简单相关系数简单相关系数 rij,简记为简记为r 2、偏相关系数偏相关系数偏相关系数偏相关系数rij表示其她变量固定不变条件下表示其她变量固定不变条件下,变量变量Xi与与Xj之间相关程度与方向得真实情况之间相关程度与方向得真实情况 3、复相关系数复相关系数复相关系数复相关系数R就是多个自变量共同对因变量直线相就是多个自变量共同对因变量直线相关程度得统计指标关程度得统计指标,就是相关与回归联系起来得统计就是相关与回归联系起来得统计量量

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服