收藏 分销(赏)

重庆交通大学研究生数理统计期末考试答案第四章回归分析.ppt

上传人:精**** 文档编号:12292324 上传时间:2025-10-06 格式:PPT 页数:79 大小:1.06MB 下载积分:16 金币
下载 相关 举报
重庆交通大学研究生数理统计期末考试答案第四章回归分析.ppt_第1页
第1页 / 共79页
重庆交通大学研究生数理统计期末考试答案第四章回归分析.ppt_第2页
第2页 / 共79页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,回归分析的基本概念,问题的提出,确定性关系一个变量由另一个或一组变量完全确定,如,非确定关系一个变量同另一个或一组变量存在密切关系,但不存在确定关系(称为相关关系),如人的身高和体重,施肥量与粮食产量,回归分析的定义,回归分析(Regression Analysis),就是研究变量之间的统计相关关系的一种方法,它从自变量和因变量的一组观测数据出发,寻找一个函数式,将变量之间的统计相关关系近似地表达出来。这个能够近似表达自变量与因变量之间关系的函数式,称为回归方程或回归函数,回归分析的内容,它是处理变量之间相关关系的一种数学方法,主要是研究如何建立回归模型,如何对回归模型进行统计分析和统计推断,研究的目的通常是预测,即用一个变量或一组变量预测或估计另一个变量,回归分析的基本思想,通过对自变量x与因变量y的均值之间的确定性关系y=f(x)研究x与y之间的不确定性关系,回归的来源见书p104,一元线性回归的数学模型,设自变量x与因变量Y之间,有下列关系:,对x,y进行n次观测,得到一组观测值:,(x,i,y,i,),i=1,2,.,n,即,其中,相互独立,是来自总体,的随机误差,有,y,1,y,2,y,n,相互独立,,此即为一元线性回归的数学模型,问题:已知(x,i,y,i,),i=1,2,.,n,求常数,的估计,使得当,时,由最小二乘法得正规方程,或,最小,系数的估计(LS估计),故正规方程有唯一解,这样得到的估计称为最小二乘估计(Least Squares Estimator)简称LSE或LS估计,这里,残差平方和Q的讨论,定义样本相关系数,最小二乘估计的性质,性质1.残差和为零,即,性质2.,在样本回归直线上,即,性质3.,性质4.,从而,是,的无偏估计量,性质5.,平方和分解公式,其中,总偏差平方和,回归平方和,残差平方和,性质6.,分别与,相互独立,性质7.,与,相互独立,3)当,成立时,有,一元线性回归中的假设检验,问题:已知,其中,相互独立,要检验,F检验法,当H,0,成立时,取统计量,拒绝域为,T检验法,当H,0,成立时,取统计量,拒绝域为,R检验法,H,0,:Y与X线性无关,H,1,:Y与X线性相关,取统计量,拒绝域为,例2,某工厂在分析产量与成本关系时,选取10个生产小组作样本,收得数据如表(,excel4.2,),试求其回归方程,并分别用F、R、T检验法检验其线性回归效果是否显著?(a=0.05),注意,计算的时候请用下式进行,以减小误差,预测与控制,若线性回归方程经检验回归效果显著,则我们可利用回归方程,进行预测和控制,预测,1)点预测,对给定的x,0,要预测y,0,的取值,将x,0,代入回归方程得,用,作为y,0,的预测值,即,是,的无偏估计,可作为其点估计,2)预测区间,所谓预测区间,就是对给定的x,0,求y,0,的1-a置信区间,由性质3,又由性质7,得,置信区间为,其中,几何意义见p112,及预测的简化,例2的预测,1)越小,预测区间越窄,精度越高;,2),预测区间越窄,精度越高;因此内插预测比外推预测可靠.,预测区间的简化方案,:,当样本容量很大,且,附近时,有,注意:,例4.2.1 家庭收入和食品支出的关系,1)散点图,大致显示两者存在线性关系,2)求样本回归曲线,家庭收入和食品支出的回归计算表,家庭,收入xi,支出yi,xi2,yi2,xi*yi,1,20,7,400,49,140,2,30,9,900,81,270,3,33,8,1089,64,264,4,40,11,1600,121,440,5,15,5,225,25,75,6,13,4,169,16,52,7,26,8,676,64,208,8,38,10,1444,100,380,9,35,9,1225,81,315,10,43,10,1849,100,430,总计,293,81,9577,701,2574,由表可知:,T检验法,控制,是预测的反问题.,一元非线性回归,在实际问题中,Y与X常存在非线性关系,不能直接使用线性回归,但其中许多问题可转化为线性回归处理,1-6可用一元线性回归处理,7可用后面的多元线性回归方法处理。先用散点图看它更接近什么曲线,然后用相应方法处理。,例4.3.1 1)根据散点图,选择双曲线,2)取倒数后得到新的数据表,令,u,0.5000,0.3333,0.2500,0.2000,0.1667,0.1429,0.1250,0.1111,v,0.1558,0.1220,0.1044,0.1053,0.1031,0.1000,0.1007,0.1001,u,0.1000,0.0909,0.0833,0.0769,0.0714,0.0667,0.0625,v,0.0953,0.0944,0.0943,0.0926,0.0943,0.0917,0.0929,3)用相关系数检验法,取,=,0.01,查表,r,0.01,(13)=0.641,计算得,以上曲线并不一定是最佳的拟合曲线.,例4.3.2 2)根据散点图,选择倒指数曲线,2)取对数后得到新的数据表,u,0.5000,0.3333,0.2500,0.2000,0.1667,0.1429,0.1250,0.1111,v,1.8594,2.1041,2.2597,2.2513,2.2721,2.3026,2.2956,2.3016,u,0.1000,0.0909,0.0833,0.0769,0.0714,0.0667,0.0625,v,2.3504,2.3599,2.3609,2.3795,2.3609,2.3888,2.3758,计算得,用残差平方和表4.3.4作比较,后者拟合效果更好.,习题四p150,1.,3.,4.,7.,多元线性回归的数学模型,一元线性回归只有一个自变量,很多实际问题影响因素不止一个,有必要讨论多元线性回归.,多元线性回归模型及参数的LS估计,称为多元线性回归模型,协方差矩阵的有关性质复习P255,称为多元线性回归函数,对x,1,x,2,x,m,y进行n次观测,得到一组观测值:,即有方程组,记,则上述方程组可简写为,问题,已知数据矩阵,则有下列求导公式,得正规方程,LS估计量的性质,证(略),证(略),独立,多元线性回归的显著性检验,和一元线性回归一样,多元线性回归模型也需要进行显著性检验。多元线性回归显著性检验分为两步。一是模型的显著性检验;二是对每个变量,X,i,对,Y,影响的显著性检验。对那些影响不显著的变量应逐个剔除,重新建立新的统计模型。,线性回归模型的显著性检验,单个回归系数的显著性检验,剔除不显著自变量时,每次只宜剔除一个。先剔除,F,i,值最小的自变量,再重新作回归,重新检验,直到剩下的自变量对,Y,都有显著作用为止。,剔除不显著自变量的原则,例4.4.1 去碳量和三个因素的关系.,回归分析的进一步讨论,非线性回归问题,最优回归方程的选择,回归诊断问题,非线性回归问题,原问题 设自变量x与因变量y之间,有下列关系,广义线性回归中的加权处理,不能化为线性的非线性回归,问题,需用到非线性最优化方法求解,最优回归方程的选择,偏F检验法,在决定一个新的变量是否有必要进入模型,或判断某个变量是否可以从模型中删除时,可使用以下偏F检验,设其复相关系数为R,设其复相关系数为R,i,检验假设,有统计量,变量的选择法,向后法,建立全模型,对每一个,x,i,求检验值,F,i,取,F,i,中最小的那个值,比如是,F,k,如果,F,k,F,出,,则计算结束,如果,F,k,F,出,,则从模型中剔除,x,k,缺点:变量一旦被剔除就再也不会回到方程中去,1.对m个变量分别与y建立回归模型,向前法,对它们进行偏F检验,得F,i,中最大值,比如是,i)如果F,L1,F,进,,则计算结束,ii)如果F,L1,F,进,,则引入x,L1,建立回归方程,对它们进行偏F检验,得F,i,中最大值,比如是,i)如果F,L,F,进,,则计算结束,ii)如果F,L2,F,进,,则引入x,L2,建立回归方程,如此重复直到没有变量可以引入为止,缺点:变量一旦被引入就再也不会被剔除(终身制),逐步回归法,基本思想是:将变量一个个引入,同时每引入一个新变量后又要对老变量逐个检验,将变得不显著的变量从回归模型中剔除,stepwise(x,y,inmodel,alpha),其中x是自变量数据,y是因变量数据,分别为,n*m和n*1矩阵,inmodel是矩阵x的,列数的指标,给出初始模型中包括的子集(缺省时设定为全部自变量),alpha为显著性水平。,Matlab中逐步回归函数介绍,例3 水泥凝固时放出的热量,y,与水泥中4种化学成分,x1,x2,x3,x4,有关,,,今测得一组数据如下,试用逐步回归来确定一个线性模型,序号,x 1 x2 x3 x4 y,1 7 26 6 60 78.5,2 1 29 15 52 74.3,3 11 56 8 20 104.3,4 11 31 8 47 87.6,5 7 52 6 33 95.9,6 11 55 9 22 109.2,7 3 71 17 6 102.7,8 1 31 22 44 72.5,9 2 54 18 22 93.1,10 21 47 4 26 115.9,11 1 40 23 34 83.8,12 11 66 9 12 113.3,13 10 68 8 12 109.4,回归诊断问题,残差图,异常点,作业,P152,8,9,12,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服