收藏 分销(赏)

第十章:多元线性回归.ppt

上传人:精**** 文档编号:12440486 上传时间:2025-10-12 格式:PPT 页数:37 大小:798KB 下载积分:12 金币
下载 相关 举报
第十章:多元线性回归.ppt_第1页
第1页 / 共37页
第十章:多元线性回归.ppt_第2页
第2页 / 共37页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,多元线性回归模型,多元线性回归方程:,y=,0,+,1,x,1,+,2,x,2,+.+,k,x,k,1,、,2,、,k,为偏回归系数。,1,表示在其他自变量保持不变的情况下,自变量x,1,变动一个单位所引起的因变量y的平均变动。,线性回归方程的统计检验,回归方程的拟合优度,回归直线与各观测点的接近程度称为回归方程的拟合优度,,也就是,样本观测值聚集在回归线周围的紧密程度,。,1,、,离差平方和的分解:,建立直线回归方程可知:,y,的观测值的总变动,可由 来反映,称为总变差。引起总变差的,原因有两个:,由于,x,的取值不同,使得与,x,有线性关系的,y,值不同;,随机因素的影响。,总离差平方和可分解为,即:总离差平方和(SST)=剩余离差平方和(SSE)+回归离差平方和(SSR),其中;SSR是由x和y的直线回归关系引起的,可以由回归直线做出解释;SSE是除了x对y的线性影响之外的随机因素所引起的Y的变动,是回归直线所不能解释的。,回归方程的显著性检验(方差分析F检验),回归方程的显著性检验是要检验被解释变量与所有的解释变量之间的线性关系是否显著。,对于一元线性回归方程,检验统计量为:,对于多元线性回归方程,检验统计量为:,回归系数的显著性检验(t检验),回归系数的显著性检验是要检验回归方程中被解释变量与每一个解释变量之间的线性关系是否显著。,对于一元线性回归方程,检验统计量为:,对于多元线性回归方程,检验统计量为:,残差分析,残差是指由回归方程计算得到的预测值与实际样本值之间的差距,定义为:,对于线性回归分析来讲,如果方程能够较好的反映被解释变量的特征和规律性,那么残差序列中应不包含明显的规律性。残差分析包括以下内容:残差服从正态分布,其平均值等于0;残差取值与X的取值无关;残差不存在自相关;残差方差相等。,1、对于残差均值和方差齐性检验可以利用残差图进行分析。如果残差均值为零,残差图的点应该在纵坐标为0的中心的带状区域中随机散落。如果残差的方差随着解释变量值(或被解释变量值)的增加呈有规律的变化趋势,则出现了异方差现象。,2、DW检验。DW检验用来检验残差的自相关。检验统计量为:,DW=2表示无自相关,在0-2之间说明存在正自相关,在2-4之间说明存在负的自相关。一般情况下,DW值在1.5-2.5之间即可说明无自相关现象。,多重共线性分析,多重共线性是指解释变量之间存在线性相关关系的现象。测度多重共线性一般有以下方式:,1、容忍度:,其中,是第i个解释变量与方程中其他解释变量间的复相关系数的平方,表示解释变量之间的线性相关程度。容忍度的取值范围在0-1之间,越接近0表示多重共线性越强,越接近1表示多重共线性越弱。,2、方差膨胀因子VIF。方差膨胀因子是容忍度的倒数。VIF越大多重共线性越强,当VIF大于等于10时,说明存在严重的多重共线性。,例:多元线性回归方程的建立,27名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表1中,试建立血糖与其它几项指标关系的多元线性回归方程。,表,1,27名糖尿病人的血糖及有关变量的测量结果,求偏导数,原 理,最小二乘法,假设检验及其评价,1.方差分析法:,(一),对回归方程,表,3,例,15-1,的方差分析表,表,2,多元线性回归方差分析表,2.决定系数,R,2,:,3.复相关系数,2.,t,检验法,是一种与偏回归平方和检验完全等价的一种方法。计算公式为,结 果,结 论,3,标准化回归系数,变量标准化是,将原始数据减去相应变量的均数,然后再除以该变量的标准差。,计算得到的回归方程称作标准化回归方程,相应的回归系数即为标准化回归系数,。,结,论,自变量选择方法,目的,:,使得预报和(或)解释效果好,一、全局择优法,目的,:预报效果好,意义,:对自变量各种不同的组合所建立,的回归方程进行比较,择优,。,选择方法:,用全局择优法对例,15-1,数据的自变量进行选择。,二、,逐步选择法,1.,1.前进法,,,回归方程中的自变量从无到有、从少到多逐个引入回归方程。,此法已基本淘汰,。,2.,后退法,,,先将全部自变量选入方程,然后逐步剔除无统计学意义的自变量。,剔除自变量的方法是在方程中选一个偏回归平方和最小的变量,作,F,检验决定它是否剔除,若无统计学意义则将其剔除,然后对剩余的自变量建立新的回归方程。重复这一过程,直至方程中所有的自变量都不能剔除为止。理论上最好,建议使用采用此法。,3.逐步回归法,,,逐步回归法是在前述两种方法的基础上,进行,双向筛选,的一种方法。该方法本质上是前进法。,表 逐步回归过程,方差分析表,“最优”回归方程为,结果表明:血糖的变化与甘油三脂、胰岛素和糖化血红蛋白有线性回归关系,其中与胰岛素负相关。由标准化回归系数看出,糖化血红蛋白对空腹血糖的影响最大。,回归系数的估计及检验结果,曲线估计,10.4.1 曲线估计概述,变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。,常见的本质线性模型有:,1、,二次曲线,(Quadratic),,,方程为,,变量变换后的方程为,2、,复合曲线,(Compound),,,方程为,,变量变换后的方程为,3、,增长曲线,(Growth),,,方程为,,变量变换后的方程为,4、,对数曲线,(Logarithmic),,方程为,,变量变换后的线性方程为,5、,三次曲线,(Cubic),,方程为,,变量变换后的方程为,6、,S曲线,(S),,方程为 ,变量变换后的方程为,7、,指数曲线,(Exponential),,方程为,,变量变换后的线性方程为,SPSS曲线估计中,首先,在不能明确究竟哪种模型更接近样本数据时,可在多种可选择的模型中选择几种模型;然后SPSS自动完成模型的参数估计,并输出回归方程显著性检验的F值和概率p值、判定系数R,2,等统计量;最后,以判定系数为主要依据选择其中的最优模型,并进行预测分析等。另外,SPSS曲线估计还可以以时间为解释变量实现时间序列的简单回归分析和趋势外推分析。,曲线估计的基本操作,可通过绘制并观察样本数据的散点图粗略确定被解释变量和解释变量之间的相关关系,为曲线拟合中的模型选择提供依据。SPSS曲线估计的基本操作步骤是:,(1)选择菜单,AnalyzeRegressionCurve Estimation,,出现窗口如下页所示。,(2)把被解释变量选到,Dependent,框中。,非线性相关指数的性质,或R的值越接近于1,表明变量间的非线性相关程度越高;,反之,或R的值越接近于0,表明变量间的非线性相关程度越弱。,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服