收藏 分销(赏)

第6章多元线性回归分析.pptx

上传人:精**** 文档编号:4204587 上传时间:2024-08-23 格式:PPTX 页数:95 大小:6.28MB
下载 相关 举报
第6章多元线性回归分析.pptx_第1页
第1页 / 共95页
第6章多元线性回归分析.pptx_第2页
第2页 / 共95页
第6章多元线性回归分析.pptx_第3页
第3页 / 共95页
第6章多元线性回归分析.pptx_第4页
第4页 / 共95页
第6章多元线性回归分析.pptx_第5页
第5页 / 共95页
点击查看更多>>
资源描述

1、1回 归 分 析多元线性回归回归分析是研究变量间回归分析是研究变量间的依赖关系一种方法的依赖关系一种方法 本章目录本章目录2回 归 分 析多元线性回归提提 纲纲 REG过程回归分析的基本内容回归分析实例本章目录本章目录3回 归 分 析 多元线性回归REG过程的调用格式:PROC REG DATA=SAS数据集 选项1;MODEL 因变量=自变量名表/选项2;PLOT Y变量*X变量/选项3;OUTPUT OUT=数据集名 关键字=变量名.;RUN;必选项1 REG过程本章目录本章目录4回 归 分 析 多元线性回归1 REG过程选项1中常用选择项有:GRAPHICS 高分辩率的图形方式OUTES

2、T=SAS数据集 保存回归分析的结果 COVOUT=SAS数据集 存入估计的协方差阵OUTSSCP=SAS数据集 保存离差阵RIDGE=值 给出岭回归中的K值,其方式有M、M TO N、M TO N BY I、M1,M2 TO M3NOPRINT 不打印输出本章目录本章目录5回 归 分 析 多元线性回归1 REG过程选项2中常用选择项有:CLI 每个个体预测值的95%上、下限CLM 每个观测因变量期望值的95%上、下限R 每个个体的预测值、残差及标准误P 每个个体的观测值、预测值、残差等 (若选择CLI CLM R,则无需选择它)I 计算(XX)-1 XPX 计算XX XY 本章目录本章目录6

3、回 归 分 析 多元线性回归1 REG过程选项2中常用选择项有:VIF 方差膨胀因子,它表示由于共线性的存在而使参数 估计值的方差增大的情况.STB 标准化偏回归系数CORRB 参数估计的相关阵COVB 参数估计的协方差阵COLLIN 要求进行共线性分析INFLUENCE 要求分析观测值对参数估计和预测值的影响 本章目录本章目录7回 归 分 析 多元线性回归1 REG过程选项2中常用选择项有:SELECTION=BACKWARD 后退法 SLSTAY=值(缺省值为0.1)FORWARD 向前法 SLENTRY=值(缺省值为0.5)STEPWISE 逐步回归法 SLSTAY=值 SLENTRY=

4、值(缺省值均为0.15)RSQUARE R2选择法ADJRSQ 修正.R2选择法CP Mallous Cp统计量MAXR R2最大增量法MINR R2最小增量法本章目录本章目录8回 归 分 析 多元线性回归1 REG过程选项3中常用选择项有:OVERLAY 多个图在一个图上表示SYMBOL=用某一符号表示图形HPLOTS=N 在同一页水平方向作N幅图VPLOTS=N 在同一页垂直方向作N幅图本章目录本章目录9回 归 分 析 多元线性回归1 REG过程常用的统计关键词有:P(PRIDICTED)预测值R(RESIDUAL)残差L95M 期望值的95%下限U95M 期望值的95%上限L95 个体预

5、测值的95%下限U95 个体预测值的95%上限STDP 期望值的标准误本章目录本章目录10回 归 分 析 多元线性回归1 REG过程常用的统计关键词有:STDI 预测值的标准误STUDENT 学生化残差RSTUDENT 去掉某观测后的学生化残差COOKD COOK D值H 杠杆值PRESS 当去掉第I个观测值后拟合模型的第I个观测的残差除以1-H;DFFITS 预测值的标准影响力.本章目录本章目录11回 归 分 析 多元线性回归2 线性回归2.1 线性回归的数学表示因变量自变量为满足线性关系(I)次观测,对 进行所得的组数据为它们均满足(I)式本章目录本章目录12回 归 分 析 多元线性回归2

6、 线性回归2.1 线性回归的数学表示因变量自变量为满足线性关系(I)次观测,对 进行所得的组数据为它们均满足(I)式本章目录本章目录13回 归 分 析 多元线性回归2 线性回归2.1 线性回归的数学表示本章目录本章目录14因此(I)式可写成如下矩阵形式:(II)此为多元线性回归方程。回 归 分 析 多元线性回归2 线性回归2.1 线性回归的数学表示本章目录本章目录15最小二乘法解回 归 分 析 多元线性回归2 线性回归2.2 回归参数的估计本章目录本章目录16回 归 分 析 多元线性回归2 线性回归2.2 回归参数的估计若对 进行标准化,即 ,其中 ,则得到的回归系数即标准化回归系数。标准化回

7、归系数 表示当其他自变量固定时,每变化一个单位,因变量 平均变化 个单位。因此 反映了自变量 对因变量 的影响大小。另外 的正号反映了 与 间是正相关关系,负号则为负相关关系 本章目录本章目录17回 归 分 析 多元线性回归2 线性回归2.3 回归方程的假设检验模型的检验对于任一组观测数据,我们都可按上述方法建立回归方程,那么它们是否具备建立线性回归方程的条件呢?这就需要进行回归方程的显著性检验。即检验假设 ,也就是所有回归系数都等于零。如果检验的结果是拒绝 ,即接受其备择假设,说明至少有一个回归系数 ,从而说明变量 线性依赖于某个变量 ;若检验的结果是接受 ,则说明所有变量 对变量的线性关系

8、是不重要的。本章目录本章目录18回 归 分 析 多元线性回归2 线性回归2.3 回归方程的假设检验模型的检验对回归方程的显著性检验是通过方差分析得到。首先将因变量的离均差平方和分解为由回归和误差引起两部分,然后构造F统计量来进行统计推断的 本章目录本章目录19其中复决定系数回 归 分 析 多元线性回归2 线性回归2.3 回归方程的假设检验模型的检验其中:本章目录本章目录20回 归 分 析 多元线性回归2 线性回归2.3 回归方程的假设检验回归系数的检验 回归方程显著性检验是从总体上对自变量与因变量之间是否存在线性关系进行了考察,若检验的结果是拒绝原假设,则接受其对立假设,也就是说至少存在某个变

9、量的回归系数不为零,因此还需对每个变量的回归系数进行逐个检验,即对某个固定的 检验:本章目录本章目录21回 归 分 析 多元线性回归2 线性回归2.3 回归方程的假设检验回归系数的检验考虑统计量 ,则 服从自由度为的T-分布。其中 ,的标准误为 ,其估计为 。通过计算 和 ,若 或 中任一个不比 大,则拒绝 ,认为该变量的回归系数显著地不为零。反之则认为该变量与因变量之间没有显著的线性关系。本章目录本章目录22回 归 分 析 多元线性回归2 线性回归2.3 回归方程的假设检验预测与置信区间 将变量 的一组观测值代入回归方程,即得到变量 的预测值。因此预测是一件很简单的事,只要确定了一个非常有效

10、的回归方程即可。有时我们还需要对预测值进行区间估计,下面给出因变量的期望值 和预测值 的区间估计。本章目录本章目录23例回 归 分 析 多元线性回归2 线性回归2.3 回归方程的假设检验预测与置信区间预测值的 置信区间为:的 置信区间为:本章目录本章目录241.熟悉SAS中的REG过程2.掌握回归分析的过程回 归 分 析 多元线性回归2 线性回归小结与作业SAS中的REG过程回归分析的基本内容小 结作 业本章目录本章目录25自变量的选择回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录26选择自变量的准则 选择自变量进入回归模型的方法(SAS实例)提提 纲纲 提提 纲

11、纲 回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录27选择选择自变自变量的量的准则准则选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.引言因变量自变量为满足线性关系(I)次观测,对 进行所得的组数据为它们均满足(I)式回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录28选择选择自变自变量的量的准则准则选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录29选择选择自变自变量的量的准则

12、准则选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法因此(I)式可写成如下矩阵形式:(II)此为多元线性回归方程。全模型全模型回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录30选择选择自变自变量的量的准则准则选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法其中复决定系数最小二乘法解回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录31选择选择自变自变量的量的准则准则选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法选模型选

13、模型现在从 个变量中选出 个 变量,同样考虑上述过程:回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录32选择选择自变自变量的量的准则准则选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法2.从拟合的角度考虑的准则:-观测个数-模型中参数个数其中:修正决定系数准则:(最大最大)回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录33选择选择自变自变量的量的准则准则选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法2.从拟合的角度考虑的准则:均方误差准则:(最小最小)回

14、 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录34选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法3.从极大似然估计法考虑的准则:选择选择自变自变量的量的准则准则AIC或BIC信息量准则:(最小最小)日本统计学家赤池(Akaike)1974年提出的。应用到我们的选模型,有:回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录35选择选择自变自变量的量的准则准则选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法4.从预测的角度考虑的准则:准则:(最小最小)1964年由

15、马勒斯(Mallows)提出,其思想是:使得(均方预测误差)愈小愈好是全模型下误差方差的估计。即:回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录36选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法向前引入法(FORWARD)向后剔除法(BACKWARD)逐步筛选法(STEPWISE)回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录37选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1

16、.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法引言引言:(偏F检验)-全模型-选模型记:表示全模型的复决定系数表示减模型的复决定系数回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录38选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法引言引言:(偏F检验)定义:显然若几乎为零,说明增加 对 的解释能力没有明显提高;否则,若显著不为零,则 就可以为回归模型提供显著的解释信息。回 归 分 析 多元线性回归2 线性回归2.4 自变量

17、的选择本章目录本章目录39选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法引言引言:(偏F检验)统计假设:统计检验量为:回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录40选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法引言引言:(偏F检验)检验:(对给定的检验水平 )从全模型中删除 ,对Y的解释能力无明显的减弱变化。若时,则接受 ,显著

18、为零,所以,若时,拒绝引入 会明显提高对 的解释能力;,说明显著不为零,这说明在变量已进入模型后,回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录41选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法向前引入法向前引入法:(FORWARD)其做法是:令:(1)对 个自变量,分别同因变量建立一元回归方程计算变量 相应的 值,记为回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录42选择选择自变自变量的量的准则准则选择选择自变自变量

19、进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法向前引入法向前引入法:(FORWARD)(2)建立因变量与自变量子集的二元回归方程,并计算相应的 ,记为:若:,则将引入回归方程.否则,算法终止。回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录43选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法向前引入法向前引入法:(FORWARD)若:,则将引入回归方程否则终止。(3)重复上述过程,直到

20、没有变量可引入为止。回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录44选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法向后删除向后删除:(BACKWARD)其做法是:选其中最小者的全模型,然后计算各自变量 相应选模型的 值,记为:(1)建立 个自变量与因变量回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录45选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择

21、自变自变量进量进入回入回归模归模型的型的方法方法向后删除向后删除:(BACKWARD)(2)对剩下的 个变量重复(1),直到没有变量可剔除为止。若:,则将从回归方程中剔除否则算法终止。回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录46选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法逐步筛选法逐步筛选法:(STEPWISE)逐步筛选法是人们最常用的的变量筛选方法。它是向前选择变量法和向后删除变量法的一种结合。向前选择变量法中,一旦某个自变量被选入模型,

22、它就永远留在模型之中。然而,随着其他变量的引入,由于变量之间互相传递的相关关系,一些先进入模型的变量的解释作用可能会变得不再显著。向后删除变量法中,一旦某个自变量被删除后它就永远被排斥在模型之外。但是,随着其他变量的被删除,它对Y的解释作用也可能会显著起来。回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录47选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法逐步筛选法逐步筛选法:(STEPWISE)其做法是:(1)(模型的起始与向前选择变量法一样)首先,

23、求Y与每一个Xj的一元线性回归方程,选择F值最大的变量进入模型。然后,对剩下的(p-1)个模型外的变量进行偏F检验,在若干通过偏F检验的变量中,选择Fj值最大者进入模型。回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录48选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法1.常用的简便方法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法逐步筛选法逐步筛选法:(STEPWISE)(2)对模型外的(p-2)个自变量做偏F检验。在通过偏F检验的变量中选择Fj值最大者进入模型。接着对模型中的三个自变量分别进行偏F检验,如果三个

24、自变量都通过了偏F检验,则接着选择第四个变量。但如果有某一个变量没有通过偏F检验,则将其从模型中删除。(3)重复上述步骤,直到所有模型外的变量都不能通过偏F检验,则算法终止。其做法是:回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录49选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法2.全子集法:选择选择自变自变量进量进入回入回归模归模型的型的方法方法其做法是:先计算所有可能变量子集的回归方程(共 个),然后按修正R2选择法(ADJRSQ)、选择法(CP)、均方误差法(MSE)以及AIC或BIC等准则进行选择。回 归 分 析

25、多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录50选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法例子例子 考虑Hald水泥数据数据。其中:X13CaOAl2O3的含量(%)X23CaOSiO2的含量(%)X34CaOAl2O3Fe2O3的含量(%)X42CaOSiO2的含量(%)Y表示水泥凝固时释放的热量(卡/克)。回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录51选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法小 结R2adj最大均方误差最小Cp最小AIC或BIC最小

26、选择自变量进入回归模型的方法:向前引入法向后删除法逐步筛选法利用选择自变量的准则,计算所 有可能变量子集的回归方程选择自变量的准则:回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录52选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法进一步阅读的文献:1 王松桂,陈敏,陈立萍。线性统计模型-线性回归 与方差分析。北京:高等教育出版社,19992 何晓群。回归分析与经济数据建模。北京:中国人 民大学出版社,19973 胡良平。现代统计学与SAS应用。北京:军事医学 科学出版社,2000。回 归 分 析 多元线性回归2 线性回归2.

27、4 自变量的选择本章目录本章目录53选择选择自变自变量的量的准则准则选择选择自变自变量进量进入回入回归模归模型的型的方法方法回 归 分 析 多元线性回归2 线性回归2.4 自变量的选择本章目录本章目录54回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理多重共线性的识别及处理本章目录本章目录55回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理提提 纲纲 背景多重共线性的识别多重共线性的处理本章目录本章目录56回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理在多元线性回归中,有时会出现一些奇怪的现象,有时在某一显著性水平下,回归方程

28、通过了显著性水平检验,而回归系数则不能通过相应的显著性检验;有时某个自变量与因变量有很强的相关性,然而在回归方程中该变量的回归系数却没有通过显著性检验;有时回归系数的符号与相关专业相矛盾等,这些现象的出现,是由于所选的自变量间存在着线性相关。这种现象称为多重共线性。背景背景背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理背景背景本章目录本章目录57回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理多重共多重共线性的线性的识别识别共线性的识别方法是基于信息矩阵 进行的,常用的统计量

29、有方差膨胀因子VIF(或容限TOL)、条件指数和方差比例等。本章目录本章目录58回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理方差膨胀因子 背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理设变量为 ,若它们之间存在或近似存在多重共线性,表明其中某个变量能表示或近似表示为其它变量的线性组合,因此,若分别以 为因变量,以 自变量()建立线性回归方程,看这 个回归方程的决定系数 ()有没有较大者,若有,则表明它们之间有多重共线性关系。多重共多重共线性的线性的识别识别多重共多重共线性的线性的识别识别本章目录本章目录59回 归 分 析 多元线性回归2 线性

30、回归2.5 多重共线性的识别及处理方差膨胀因子 背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理方差膨胀因子表示由于共线性的存在而使参数估计值的方差增大的情况 与 的关系 多重共多重共线性的线性的识别识别多重共多重共线性的线性的识别识别本章目录本章目录60回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理方差膨胀因子 背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理 当 =0,=1,此时表示 与其它变量间不存在线性关系;当0 1,此时表示 与其它变量间存在不同程度的 线性关系;当 =1时,此时表示 与其它变量间存在完全的线性关

31、系。在实际应用中若某个 10,则表明模型中存在很强的共线性问题。多重共多重共线性的线性的识别识别多重共多重共线性的线性的识别识别本章目录本章目录61回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理条件指数和方差比例 背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理若矩阵 的特征值为 ,则比值 ()反映了矩阵 奇异的程度,故称此比值为条件指数。在具体实践中在具体实践中设计矩阵不包含常数项:若条件指数值在1030为弱共线性;在30100为中等共线性;大于100为强共线性。设计矩阵中包括常数项:条件指数值小于100为弱共线性;在1001000为中等共线性

32、;大于1000为强共线性。多重共多重共线性的线性的识别识别多重共多重共线性的线性的识别识别本章目录本章目录62回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理条件指数和方差比例 背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理 每个条件指数,都对应着一个特征值。对于较大的条件指数,则对应着一个较小的特征值,此时可求得其对应的特征向量,故构成这一特征向量的变量间有近似的线性关系,由此即可找出存在强线性关系的变量组。此外统计中用方差比例来量化各个变量在构成这个特征向量中的贡献,一般认为在大的条件指数中由方差比例超过0.5的变量间存在共线性。多重共多重共

33、线性的线性的识别识别多重共多重共线性的线性的识别识别本章目录本章目录63回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理对变量进行筛选(具体内容见上一节的描述)背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理多重共多重共线性的线性的处理处理本章目录本章目录64回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理岭回归 当变量间存在共线性关系时,我们用下式来估计线性回归方程参数,此式称为回归系数的岭估计。其中 是可选择的参数,岭回归就是要选择合适的 值,选择的原

34、则是使得回归模型的均方误差最小,即使得 达到最小时的 值;或选取使得 中每个分量的变化大体上稳定的 值。多重共多重共线性的线性的处理处理本章目录本章目录65回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理主成分回归 多重共多重共线性的线性的处理处理本章目录本章目录 步骤如下:首先提取主成分 ,其中 是矩阵 的特征根 所对应的单位正交化的特征向量,中第 个分量就称为第 个主成分;其次根据方差累计贡献率确定主成分的个数r,(即根据 的值来确定r的值,通常取 时最小的r值即可)并利用这r个主成分进行回归建模

35、;最后再还原到原变量即得主成分回归模型。66小 结方差膨胀因子VIF(或容限TOL)条件指数方差比例多重共线性的处理:对变量进行筛选岭回归主成分回归多重共线性的识别:回 归 分 析 多元线性回归2 线性回归2.5 多重共线性的识别及处理背景背景多重共多重共线性的线性的识别识别多重共多重共线性的线性的处理处理多重共多重共线性的线性的处理处理本章目录本章目录67回 归 分 析 多元线性回归2 线性回归2.5 回归诊断回归模型的建立是有一定条件的,在检验时通常还假定 ,那么在建立模型时这样的条件是否能得到满足?关于这方面的内容又称之为残差分析;同时我们还要考察观测值对模型影响,当然我们不希望所建模型

36、仅受一组或少数几组数据的强烈影响,那样会使模型不稳定,如何判断观测数据的影响,这也是回归诊断的内容,关于这方面的分析又称之为影响分析。本章目录本章目录68残差分析残差分析残差分析残差分析影响分析。影响分析。影响分析。影响分析。回 归 分 析 多元线性回归2 线性回归2.5 回归诊断提提 纲纲 本章目录本章目录69回 归 分 析 多元线性回归2 线性回归2.5 回归诊断残差图残差图 因变量实测值与模型预测值之差称之为残差。即 ,它是模型中误差项 的估计。再将 标准化即得到学生化残差,即 ,其中 为帽子矩阵第 行第 列的元素。以 为纵轴,以 ,任一个量作为横轴所得到的图称为残差图残差图 影响影响分

37、析分析残差残差分析分析残差残差分析分析本章目录本章目录70回 归 分 析 多元线性回归2 线性回归2.5 回归诊断残差图残差图 若模型关于误差正态性的条件得到满足,则有95.4%的 落在-2,2范围内,在残差图上则表现为有95.4%的 落在 和 的带子里,且不呈现任何趋势。这就告诉我们,可从残差图来判断模型的条件是否满足。只要给出的残差图中其点大致落在宽度为4的水平带 内,且不呈现任何趋势,则表明误差的正态性得到满足。影响影响分析分析残差残差分析分析残差残差分析分析本章目录本章目录71回 归 分 析 多元线性回归2 线性回归2.5 回归诊断影响影响分析分析方差齐性的方差齐性的检测检测检测检测及

38、修正及修正 残差残差分析分析残差残差分析分析本章目录本章目录72回 归 分 析 多元线性回归2 线性回归2.5 回归诊断影响影响分析分析方差齐性的方差齐性的检测检测检测检测及修正及修正 残差残差分析分析残差残差分析分析(a)表示正常的残差图,(b)表示回归函数可能是非线性的,应改为曲线模型。(c)表示残差的绝对值随着预测值的增加 而增加的趋势(或有减少的趋势,或先增后减 的趋势),表明关于方差齐性的假定不成立。(d)则表示观测值间的独立性不成立。本章目录本章目录73回 归 分 析 多元线性回归2 线性回归2.5 回归诊断影响影响分析分析方差齐性的检测及方差齐性的检测及修正修正修正修正 残差残差

39、分析分析残差残差分析分析对于误差方差非齐性时,可通过适当的变换,使得变换后的变量在回归中误差的方差接近齐性即可,否则通过改变变换函数重新计算,直到方差齐性为止。常用的变换为平方根变换、对数变换和倒数变换等,即 、和 本章目录本章目录74回 归 分 析 多元线性回归2 线性回归2.5 回归诊断影响影响分析分析Cook DCook D统计量统计量 残差残差分析分析影响影响分析分析其中 表示剔除第个数据点后得到的回归系数估计值,其余变量定义同前 本章目录本章目录75回 归 分 析 多元线性回归2 线性回归2.5 回归诊断影响影响分析分析Cook DCook D统计量统计量 残差残差分析分析影响影响分

40、析分析这是一种从参数估计的角度提出的统计量,一般认为当 时,为强影响点 本章目录本章目录76回 归 分 析 多元线性回归2 线性回归2.6 综合实例数据:数据:数据:数据:X1X2X3X4Y7 26 6 60 78.5 1 29 15 52 74.3 11 56 8 20 104.3 11 31 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.2 3 71 17 6 102.7 1 31 22 44 72.5 2 54 18 22 93.1 21 47 4 26 115.9 1 40 23 34 83.8 11 66 9 12 113.3 10 68 8 12

41、109.4本章目录本章目录77回 归 分 析 多元线性回归2 线性回归2.6 综合实例建立数据集及一般线性方程建立数据集及一般线性方程建立数据集及一般线性方程建立数据集及一般线性方程Data hald;Input x1-x4 y;Cards;7 26 6 60 78.5 1 29 15 52 74.3 11 56 8 20 104.3 11 31 8 47 87.6 7 52 6 33 95.9 11 55 9 22 109.2 3 71 17 6 102.7 1 31 22 44 72.5 2 54 18 22 93.1 21 47 4 26 115.9 1 40 23 34 83.8 11

42、 66 9 12 113.3 10 68 8 12 109.4Run;proc reg data=hald;model y=x1-x4;run;本章目录本章目录78回 归 分 析 多元线性回归2 线性回归2.6 综合实例建立数据集及一般线性方程建立数据集及一般线性方程建立数据集及一般线性方程建立数据集及一般线性方程模型检验:ProbF 0.0001表明y与x1,x2,x3,x4之间的线性关系成立参数检验:(结果表明每个参数均不显著)Variable Prob|T|INTERCEP 0.891X1 2.083X2 0.705X3 0.135X4 -0.203结论:可能存在多重共线性本章目录本章目

43、录79回 归 分 析 多元线性回归2 线性回归2.6 综合实例识别多重共线性识别多重共线性识别多重共线性识别多重共线性proc reg data=hald;model y=x1-x4/vif collin;run;本章目录本章目录80回 归 分 析 多元线性回归2 线性回归2.6 综合实例识别多重共线性识别多重共线性识别多重共线性识别多重共线性 VarianceVariable InflationINTERCEP 0.00000000X1 38.49621149X2 254.42316585X3 46.86838633X4 282.51286479 X4的方差膨胀因子达282.51286479

44、,可认为这四个变量间存在严重的多重共线性关系 本章目录本章目录81回 归 分 析 多元线性回归2 线性回归2.6 综合实例识别多重共线性识别多重共线性识别多重共线性识别多重共线性 Collinearity Diagnostics Condition Var Prop Var Prop Var Prop Var Prop Var PropNumber Eigenvalue Index INTERCEP X1 X2 X3 X41 4.11970 1.00000 0.0000 0.0004 0.0000 0.0002 0.00002 0.55389 2.72721 0.0000 0.0100 0.0

45、000 0.0027 0.00013 0.28870 3.77753 0.0000 0.0006 0.0003 0.0016 0.00174 0.03764 10.46207 0.0001 0.0574 0.0028 0.0457 0.00095 0.0000661 249.57825 0.9999 0.9316 0.9969 0.9498 0.9973最大的条件指数为249.57825,介于100到1000之间,表明这些变量间存在中等程度的多重共线性关系。从方差比例来看,对应最大条件指数的那一行,其方差比例最小的是变量X1,其值为0.9316,比0.5大,表明这四个变量就是一个共线性组。本章

46、目录本章目录82回 归 分 析 多元线性回归2 线性回归2.6 综合实例多重共线性的处理多重共线性的处理多重共线性的处理多重共线性的处理选择变量法选择变量法 逐步回归法逐步回归法proc reg data=hald;model y=x1-x4/selection=stepwise;run;本章目录本章目录83回 归 分 析 多元线性回归2 线性回归2.6 综合实例多重共线性的处理多重共线性的处理多重共线性的处理多重共线性的处理选择变量法选择变量法 逐步回归法逐步回归法All variables left in the model are significant at the 0.1500 le

47、vel.No other variable met the 0.1500 significance level for entry into the model.Summary of Stepwise Procedure for Dependent Variable Y Variable Number Partial ModelStep Entered Removed In R*2 R*2 C(p)F ProbF 1 X4 1 0.6745 0.6745 138.7308 22.7985 0.0006 2 X1 2 0.2979 0.9725 5.4959 108.2239 0.0001 3

48、X2 3 0.0099 0.9823 3.0182 5.0259 0.0517 4 X4 2 0.0037 0.9787 2.6782 1.8633 0.2054可以看出,逐步回归法第一步是选进变量X4,在第二、三两步选入变量X1和X2后,变量X4的作用变得不明显,故第四步将X4从模型中删除掉。故用此法所选的变量为X1和X2 本章目录本章目录84回 归 分 析 多元线性回归2 线性回归2.6 综合实例多重共线性的处理多重共线性的处理多重共线性的处理多重共线性的处理选择变量法选择变量法 全子集法全子集法proc reg data=hald;model y=x1-x4/selection=adjr

49、sq cp bic;run;本章目录本章目录85回 归 分 析 多元线性回归2 线性回归2.6 综合实例多重共线性的处理多重共线性的处理多重共线性的处理多重共线性的处理选择变量法选择变量法 全子集法全子集法In AdjRsq C(p)BIC Variables in Model 1 0.6450 138.7 55.54 X4 1 0.6359 142.5 55.85 X2 1 0.4916 202.5 60.00 X1 1 0.2210 315.2 65.39 X3-2 0.9744 2.678 29.24 X1 X2 2 0.9670 5.496 30.98 X1 X4 2 0.9223 2

50、2.37 37.89 X3 X4 2 0.8164 62.44 46.84 X2 X3 2 0.6161 138.2 55.51 X2 X4 2 0.4578 198.1 59.74 X1 X3-3 0.9764 3.018 31.17 X1 X2 X4 3 0.9764 3.041 31.18 X1 X2 X3 3 0.9750 3.497 31.41 X1 X3 X4 3 0.9638 7.337 33.00 X2 X3 X4-4 0.9736 5.000 34.41 X1 X2 X3 X4-Cp原则比较准确得到相应的回归方程为:y=52.577349+1.468306X1+0.66225

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服