收藏 分销(赏)

商务数据分析与统计建模:chap2.2 多元回归分析R实现.ppt

上传人:可**** 文档编号:10289872 上传时间:2025-05-16 格式:PPT 页数:35 大小:870KB
下载 相关 举报
商务数据分析与统计建模:chap2.2 多元回归分析R实现.ppt_第1页
第1页 / 共35页
商务数据分析与统计建模:chap2.2 多元回归分析R实现.ppt_第2页
第2页 / 共35页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2.1,多元线性模型,2.2,变量选择,2.3,回归诊断,2.4,回归预测,第,2,章多元线性模型,1,2.1,多元线性模型,1.,模型定义,其中,x,1,x,k,是非随机的自变量,y,是随机的因变量,0,是常数项,1,k,是回归系数,是随机误差项,.,2,1.,模型定义,模型,(2.1),的样本形式,其中,i=,1,n,表示有,n,组观测值,.,3,1.,模型定义,模型,(2.2),的矩阵形式,其中,4,例,2.1(,数据文件为,eg2.1),5,主编:费宇,表,2.1,抽样调查得到的,36,个人的数据资料,2025/5/16 周五,y,x,1,x,2,x,3,x,4,x,5,y,x,1,x,2,x,3,x,4,x,5,79220,14010,98,115,15,女,71120,11460,83,75,8,女,79670,13260,98,26,8,男,91520,22260,81,3,16,男,186320,81240,96,199,19,男,76220,12510,81,0,12,女,161945,46260,96,120,19,男,74420,12510,81,13,12,女,68420,11460,85,72,12,女,121320,23010,65,19,16,男,75320,14010,85,59,15,女,77570,17010,64,69,12,男,模型(,2.3,)的参数 的最小二乘估计,的,最小二乘估计,2.,模型的参数估计和检验,6,回归方程的显著性检验,其中 是回归平方和,而,是残差平方和,拒绝域为,2.,模型的参数估计和检验,7,2.,模型的参数估计和检验,8,例,2.1,续,(,数据文件为,eg2.1),9,主编:费宇,建立,y,关于,x,1,、,x,2,、,x,3,和,x,4,的线性回归方程,并对方程和回归系数进行显著性检验,.,2025/5/16 周五,y,x,1,x,2,x,3,x,4,x,5,y,x,1,x,2,x,3,x,4,x,5,79220,14010,98,115,15,女,71120,11460,83,75,8,女,79670,13260,98,26,8,男,91520,22260,81,3,16,男,186320,81240,96,199,19,男,76220,12510,81,0,12,女,161945,46260,96,120,19,男,74420,12510,81,13,12,女,68420,11460,85,72,12,女,121320,23010,65,19,16,男,75320,14010,85,59,15,女,77570,17010,64,69,12,男,#eg2.1,回归分析,#,打开数据文件,eg2.1.xls,选取,A1:F37,区域,然后复制,data2.1-read.table(clipboard,header=T)#,将,eg2.1.xls,数据读入到,data2.1,中,lm.salary|t|),(Intercept)48386.0620 11237.2882 4.306 0.000155*,x1 1.6831 0.1302 12.929 5.01e-14*,x2 -34.5520 130.2602 -0.265 0.792570,x3 -13.0004 13.7882 -0.943 0.353043,x4 808.3223 547.8017 1.476 0.150144,例,2.1,续,(,数据文件为,eg2.1),2025/5/16 周五,11,回归分析结果为,-,Signif.codes:0,*,0.001,*,0.01,*,0.05,.,0.1,1,Residual,standard error:7858 on 31 degrees of freedom,Multiple R-squared:0.919,Adjusted R-squared:0.9086,F-statistic:87.95 on 4 and 31 DF,p-value:2.2e-16,例,2.1,续,(,数据文件为,eg2.1),2025/5/16 周五,12,回归方程的,F,值为,87.95,相应的,p,值为,2.2,10,-16,说明回归方程是显著的,;,但,t,检验对应的,p,值则显示,:,常数项和,x,1,是显著的,而,x,2,、,x,3,和,x,4,不显著,.,最优模型一般满足,2,个条件,(,1,)模型反映了变量间的真实关系,(,2,)模型包含的变量尽量,少,例,2.1,(续),建立,y,关于,x,1,、,x,2,、,x,3,和,x,4,的线性回归方程,并对方程和回归系数进行,显著性检验,(逐步回归建立“最优方程”),.,2.2,变量选择,2025/5/16 周五,13,#,假设,eg2.1.xls,中的数据已经读入到,data2.1,中,lm.salary-lm(yx1+x2+x3+x4,data=data2.1)#,建立全变量回归方程,lm.step-step(lm.salary,direction=both)#,用“一切子集回归法”来进行逐步回归,direction,是确定逐步搜索的方向,:both,是,“,一切子集回归法,”,forward,是,“,向前法,”,backward,是,“,向后法,”,默认值是,both.,所以这个回归过程可以简写为,lm.step|t|),(Intercept)42097.165 5265.218 7.995,3.18e-09*,x1,1.631,0.117 13.934 2.22e-15*,x4,1039.260 467.671,2.222,0.0332*,-,Signif.codes:0*0.001*0.01*0.05.0.1 1,Residual standard error:7747 on 33 degrees of freedom,Multiple R-squared:0.9162,Adjusted R-squared:0.9111,F-statistic:180.4 on 2 and 33 DF,p-value:2.2e-16,回归模型汇总信息,:,summary(lm.step),2025/5/16 周五,17,1.,残差分析和异常点探测,残差向量,e,是模型中随机误差项,的估计,残差分析可以诊断模型的基本假定是否成立。,2.3,模型诊断,2025/5/16 周五,18,例,2.2,计算,例,2.1,得到的逐步回归模型,lm.step,的普通残差和标准化残差,判断可能存在的异常点,画出相应的残差散点图,并直观判断模型的基本假定是否成立,.,2.3,模型诊断,2025/5/16 周五,19,#,假设由例,2.1,已经得到逐步回归模型,lm.step,y.res-residuals(lm.salary)#,计算回归模型,lm.salary,的普通残差,y.rst-rstandard(lm.step)#,计算回归模型,lm.step,的标准化残差,print(y.rst)#,输出回归模型,lm.step,的标准化残差,y.rst,y.fit-predict(lm.step)#,计算回归模型,lm.step,的预测值,plot(y.res y.fit)#,绘制以普通残差为纵坐标,预测值为横坐标的残差散点图,plot(y.rst y.fit)#,绘制以标准化残差为纵坐标,预测值为横坐标的残差散点图,2.3,模型诊断,2025/5/16 周五,20,采用,residuals(),rstandard(),和,rstudent(),来分别计算普通残差,标准化残差和学生化残差,.,1 2 3 4 5 6,-0.17481171 1.03650457 -1.64144064,3.43509088,-0.69388898 0.21730074,7 8 9 10 11 12,-0.28221956-0.57391074 -1.13860082 0.14942833 -0.08074416 -0.70313518,13 14 15 16 17 18,-0.08074416-1.90879266 0.86519102 -0.04532806 -0.63719129 -0.69529295,19 20 21 22 23 24,0.27405524-0.46453524 0.16499595 -0.07189545 0.22203402 0.41883966,25 26 27 28 29 30,0.25844627-0.12669958 -0.01045782 -0.29460957 -0.15151718-0.89674431,31 32 33 34 35 36,0.47424184 0.64162319 -0.84880014 0.18495911,3.32423970,-0.62075537,2.3,模型诊断,2025/5/16 周五,21,回归模型,lm.step,的标准化残差,y.rst,如下,第,4,号和,35,号是异常点,2025/5/16 周五,22,图,2.1,例,2.2,中的普通残差图,(,左,),和标准化残差图,(,右,),例,2.3,通过,方差稳定变换来更新例,2.1,得到的逐步回归模型,lm.step,并计算更新后模型的标准化残差,画出相应的残差散点图,并直观判断模型的基本假定是否成立,.,2.3,模型诊断,2025/5/16 周五,23,#,假设由例,2.1,已经得到逐步回归模型,lm.step,lm.step_new-update(lm.step,log(.).)#,对模型进行对数变换,y.rst-rstandard(lm.step_new)#,计算新回归模型,lm.step_new,的标准化残差,y.fit-predict(lm.step_new)#,计算回归模型,lm.step_new,的预测值,plot(y.rst y.fit)#,绘制以标准化残差为纵坐标,预测值为横坐标的残差散点图,(,见图,2-2),采用对数变换来解决方差非齐问题,2025/5/16 周五,24,对数变换后:只有第,35,号是异常点,2025/5/16 周五,25,图,2.2,例,2.3,中的标准化残差图,lm.salary-lm(log(y)x1+x2+x3+x4,data=data2.1-c(4,35),)#,去掉第,4,号和,35,号观测值再建立全变量回归方程,lm.step-step(lm.salary,direction=both)#,用“一切子集回归法”来进行逐步回归,y.rst-rstandard(lm.step)#,计算回归模型,lm.step,的标准化残差,y.fit-predict(lm.step)#,计算回归模型,lm.step,的预测值,plot(y.rst y.fit)#,绘制以标准化残差为纵坐标,预测值为横坐标的残差散点图,去掉,4,和,35,号观测值,再回归,2025/5/16 周五,26,残差全部落在,-2,,,2,区域内,2025/5/16 周五,27,图,2.3,例,2.3,中的标准化残差图,:,去掉,4,和,35,号观测值,2.,回归诊断:一般的方法,残差分析无法分析模型的影响点,即探测哪些点对模型的推断有重要影响,本节给出,的,回归诊断方法,可以诊断模型的基本假定是否成立,哪些值是异常点,哪些点是强影响点,.,在,R,中,函数,plot(),和,influence.measures(),可以用来绘制诊断图和计算诊断统计量,2.3,模型诊断,2025/5/16 周五,28,例,2.4,对例,2.3,得到的逐步回归模型,lm.step_new,进行回归诊断分析,.,2.3,模型诊断,2025/5/16 周五,29,#,假定由例,2.3,已经获得模型,lm.step_new,par(mfrow=c(2,2)#,在一个,22,网格中创建,4,个绘图区,plot(lm.step_new)#,绘制模型诊断图,influence.measures(lm.step_new)#,计算各个观测值的诊断统计量,运行上述程,进行,序可得回归诊断图,(,图,2.4),和如下,36,个观测值对应的诊断统计量的值,.,2025/5/16 周五,30,Influence measures of,lm(formula=log(y)x1+x4,data=data2.1):,dfb.1_,dfb.x1,dfb.x4,dffit,cov.r,cook.d,hat inf,1 0.027388 0.05593 -0.057229 -0.08411 1.161 2.42e-03 0.0646,2 0.333715 0.07828 -0.277049 0.35202 1.088 4.11e-02 0.0953,3 0.348810 -3.49426 0.912364 -3.86083 1.255 3.93e+00 0.6054*,4 -0.580142 0.53947 0.390696 1.14942 0.649 3.63e-01 0.1404*,5 -0.070573 0.03314 0.018032 -0.15068 1.064 7.64e-03 0.0324,.,34-0.085786 0.13422 0.042539 0.22772 1.218 1.76e-02 0.1287,35-0.437405 -0.28259 0.631117 0.93919 0.341 2.02e-01 0.0520*,36-0.053140 0.01007 0.020734 -0.10486 1.096 3.74e-03 0.0312,第,3,4,和,35,号观测值可能是异常点和强影响点,.,2025/5/16 周五,31,图,2.4,例,2.4,的回归诊断图,Influence measures of,lm(formula=log(y)x1+x4,data=data2.1):,dfb.1_ dfb.x1 dfb.x4 dffit cov.r cook.d hat inf,1 0.027388 0.05593 -0.057229 -0.08411 1.161 2.42e-03 0.0646,2 0.333715 0.07828 -0.277049 0.35202 1.088 4.11e-02 0.0953,3 0.348810 -3.49426 0.912364 -3.86083 1.255 3.93e+00 0.6054*,4 -0.580142 0.53947 0.390696 1.14942 0.649 3.63e-01 0.1404*,5 -0.070573 0.03314 0.018032 -0.15068 1.064 7.64e-03 0.0324,.,34-0.085786 0.13422 0.042539 0.22772 1.218 1.76e-02 0.1287,35-0.437405 -0.28259 0.631117 0.93919 0.341 2.02e-01 0.0520*,36-0.053140 0.01007 0.020734 -0.10486 1.096 3.74e-03 0.0312,2.3,模型诊断,2025/5/16 周五,32,36,个观测值对应的诊断统计量的值,输出结果:,回归预测分为点预测和区间预测两种,可以采用函数,predict(),来实现,.,例,2.5,给定解释变量,x,1,=20000,x,4,=20,利用例,2.1,得到的回归模型对,y,进行点预测和区间预测,(,置信度为,95%).,2.4,回归预测,2025/5/16 周五,33,#,假定由例,2.1,已经获得模型,lm.step,predspredict(lm.step,newdata=preds,interval=prediction,level=0.95)#,区间预测,fit lwr upr,1 95493.09 78187.28 112798.9,2.4,回归预测,2025/5/16 周五,35,运行上述程序可得,y,的点预测和区间预测的结果如下,:,程序中选项,interval=prediction,表示要给出预测区间,选项,level=0.95,表示置信水平是,95%.,计算结果,y,的点预测为,95493.09,预测区间为,78187.28,112798.9.,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服