收藏 分销(赏)

回归分析方法.doc

上传人:pc****0 文档编号:9009942 上传时间:2025-03-11 格式:DOC 页数:8 大小:357KB
下载 相关 举报
回归分析方法.doc_第1页
第1页 / 共8页
回归分析方法.doc_第2页
第2页 / 共8页
点击查看更多>>
资源描述
回归分析方法 回归分析方法是统计分析的重要组成部分,用回归分析方法来研究建模问题是一种常用的有效方法.什么是回归分析呢?大家知道:数学分析(或高等数学)是研究连续变量之间的关系,泛函分析是研究函数集之间的关系,而回归分析是研究随机变量之间的关系. 回归分析方法一般与实际联系比较密切,因为随机变量的取值是随机的,大多数是通过试验得到的,这种来自于实际中与随机变量相关的数学模型的准确度(可信度)如何,需通过进一步的统计试验来判断其模型中随机变量(回归变量)的显著性,而且,往往需要经过反复地进行检验和修改模型,直到得到最佳的结果,最后应用于实际中去。 回归分析的主要内容是: (1) 从一组数据出发,确定这些变量(参数)间的定量关系(回归模型); (2) 对模型的可信度进行统计检验; (3) 从有关的许多变量中,判断变量的显著性(即哪些是显著的,哪些不是,显著的保留,不显著的忽略); (4) 应用结果是对实际问题作出的判断. 多元线性回归模型的一般形式为 (1) 其中为随机误差,且均为实际问题的解释变量,是已知函数. 实证分析 例1 模型与假设 我们将以某地区消费者对当地某品牌电子手表的销售量随价格与平均收入变动的资料进行回归分析,并对估计模型进行检验。解释变量:商品价格x1(单位:元/件),人均月收入x2 (单位:元),被解释变量:商品销售量y(单位:件)。我们仅利用x1 和x2来建立y的预测模型。数据如下表: 年份 1996 1997 1998 1999 2000 2001 2002 商品价格 76 78 65 71 60 52 45 人月均收入 560 530 600 680 750 830 880 销售量 5800 4890 6200 7300 8350 8760 9100 年份 2003 2004 2005 2006 2007 2008 2009 2010 商品价格 56 32 45 52 45 38 39 35 人月均收入 830 980 1100 1230 1270 1350 1450 1480 销售量 9020 9840 9210 9700 8750 9350 8770 8320 基本模型 为了大致分析y与x1 和x2的关系,先作出y对x1 和x2的散点图(见图1和图2中的圆点)。 图1 y对x1的散点图 图2 y对x2的散点图 从图1可以看出,随着x1 的增加,y的值有比较明显的线性减少趋势,因此考虑如下线性模型: (1) 来拟合,是随机误差,而在图2中,当x2增大时,y有向下弯曲减少的趋势,故考虑如下模型来拟合: (2) 综合上述的分析,结合模型(1)和(2)简历如下回归模型 (3) (3)式右端的x1和x2称为回归变量,是给定商品价格 x1,人均月收入x2时,手表销售量y的平均值,其中称为回归系数,运用SPSS计算得他们的估计值如表1,影响y的其他因素作用都包含在随机误差中,如果模型选择得合适,应大致服从均值为零的正态分布。 表1 系数a 模型 非标准化系数 标准系数 t Sig. B 标准 误差 试用版 1 (常量) -3687.120 2443.293 -1.509 .159 x1 -18.481 15.181 -.183 -1.217 .249 x2 25.766 3.365 5.621 7.657 .000 X3 -.012 .001 -5.139 -7.881 .000 a. 因变量: y 表2 模型汇总 模型 R R 方 调整 R 方 标准 估计的误差 1 .977a .955 .942 358.688 a. 预测变量: (常量), X3, x1, x2。 表3 Anovab 模型 平方和 df 均方 F Sig. 1 回归 2.984E7 3 9948244.061 77.324 .000a 残差 1415227.818 11 128657.074 总计 3.126E7 14 a. 预测变量: (常量), X3, x1, x2。 b. 因变量: y 注:表中的x3=。 结果分析:表2显示:指因变量y的95.5%可由模型,表3中F值远远超过F检验的临界值,p远远小于,因而从整体来说模型是可用的。 销售量的预测 将回归系数的估计值代入模型(3),即可预测未来某个时期手表的销售量,将预测值记作,得到模型(3)的预测方程为 (4) 只需要知道该年份手表的销售价格x1和人均收入x2,就可以计算预测值。例如:若某年手表销售价格x1=50,人均收入x2=1500,则销售量的估计值 =7037.83 例2 模型与假设 初中升入高中的升学率,不仅受个人特征的制约,而且要受家庭特征和学校以及一些外部力量(如国家政策等)通过一定的中介因素对学生的升学产生影响。 学校是学生学习的主要场所,老师的期望和学校的一些特征(如毕业生数、招生目标、学校历年升学率等)都可能是影响学生升学率的一些重要因素。总体来看,影响初中升入高中人数的因素有很多方面,假定有人口特征、国家教育投入、教育资源以及教育背景等几类因素。因此选取如下变量作为解释变量,参与回归模型分析。选取的7个主要自变量如下: X1:6岁及6岁以上人口数,X2:国家教育总经费,X3:初中毕业人数,X4:高中学校数,X5:高中师生比,X6:每10万人口高中在校生数,X7:居民受教育程度为大专及以上的人数。其中以6岁及6岁以上人口数代表人口特征,国家教育经费代表政府教育投入,初中毕业人数、高中生师比、高中学校数以及每10外人口高中在校生数作为教育规模代表指标,最后以居民受教育程度为大专及以上的人数作为教育背景代表指标。 原始统计数据表   升入高中数 6岁及6岁以上人口数 教育总经费 初中毕业人数 高中学校数 普通高中师生比 每10万人口高中在校生数 居民受教育程度为大专及以上的人数 北 京 65983 14406 4690166 101811 305 10.27 2475 4433 天 津 60871 10068 2060843 96873 218 12.51 3040 1713 河 北 447232 57559 5584914 990746 661 16.01 3698 3233 山 西 277882 28680 3328404 615374 544 15.66 4444 2198 内蒙古 174338 20356 2625527 288700 306 16.69 3644 1619 辽 宁 248271 36994 4792311 475495 426 16.49 2947 4371 吉 林 158820 23274 2714195 302619 262 16.96 3053 1913 黑龙江 207927 32556 3386551 436335 430 15.16 2898 2131 上 海 55842 16296 4823026 99884 273 10.51 1982 3855 江 苏 456062 64329 9964272 962848 710 14.42 3677 4995 浙 江 300208 43157 7972834 591487 582 14.14 3151 4335 安 徽 424743 50649 4383732 1E+06 769 20.44 3687 2360 福 建 238475 29789 3898541 477911 606 13.74 3725 2918 江 西 250953 35686 3333171 519065 476 16.26 3616 2447 山 东 500248 78686 7749148 995664 632 13.99 3330 4728 河 南 645015 77706 6561523 2E+06 868 19.19 4149 4006 湖 北 423786 47978 4519593 923759 622 18.18 4480 3662 湖 南 356521 53010 5066050 693293 684 15.28 3205 3254 广 东 717900 80247 11661554 1E+06 1020 16.23 3950 5512 广 西 262594 39345 3476223 644905 478 18.16 3081 1613 海 南 54829 7008 928981 152741 108 17.10 3611 482 重 庆 220899 23672 2662580 407488 267 19.67 4028 1300 四 川 515321 68373 6578338 1E+06 758 18.62 3442 3844 贵 州 219062 31262 2709138 615496 451 18.51 2647 1035 云 南 220325 37602 3422932 620762 457 15.39 2578 1152 西 藏 13884 2375 494122 42401 24 14.11 2082 40 陕 西 334887 31717 3806168 663225 586 17.79 4901 2885 甘 肃 216982 22002 2310200 463372 463 17.30 3969 1053 青 海 36571 4561 608034 65712 126 14.34 3763 403 宁 夏 48084 5083 702612 93231 82 16.44 4167 425 新 疆 148869 17442 2501661 354969 413 14.19 3208 1658 1 原始拟合模型 利用SPSS进行回归分析,首先采用变量强制进入模型法,建立模型1、原始模型如下: Y=-152385.188+2.427X1+0.009X2+0.207X3+45.259X4+3157.465X5+ 29.253X6+ 2.375X7。 2、拟合优度检验 分析:由上表可以看出,R及R方反映了回归方程与样本观测值的拟合优度,相关系数R为0.996,决定系数为0.990,接近于1,表明拟合优度很好。 3、自相关性检验 上表中给出了杜宾沃森检验值,DW=1.940表明无自相关性,即每个观测值之间不相关。 4、方程显著性检验 模型的方差分析表如下所示: Anovab 模型 平方和 df 均方 F Sig. 1 回归 9.718E11 7 1.388E11 408.342 .000a 残差 7.820E9 23 3.400E8 总计 9.797E11 30 a. 预测变量: (常量), V6岁及6岁以上人口数, 每10万人口高中在校生数, 普通高中师生比, 居民受教育程度为大专及以上的人数, 高中学校数, 教育总经费, 初中毕业人数。 b. 因变量: 初中升入高中数 方差分析表显示F值为408.342,P值为0.000,查表可知=4.17,而408.342>>4.17, 所以认为这个统计模型是有意义的。 5、参数显著性检验 根据spss计算结果,可得系数表如下: 已知显著性可由p<0.05来判定,由表中可看出高中学校数、普通高中师生比、居民受教育程度为大专及以上、教育总经费这几个变量均无法通过显著性检验。 6、多重共线性检验 由上面的系数表中的方差膨胀因子VIF可判断变量间是否存在多重共线性。VIF为容忍度的倒数,VIF的值愈大,表示解释变量的容忍度愈小,愈有共线性问题。一般认为VIF>10时该变量会在模型中产生共线性。 所以由上表可看出:①高中学校数、初中毕业人数、教育总经费、6岁及6岁以上人数几个变量均存在共线性;②高中学校数、高中师生比、教育总经费、居民受教育程度为大专及以上的人数几个变量均不显著,然而整体的方程显著性却很高,这说明可能部分解释变量对预测变量的显著性被变量间的共线性隐藏了。 下面看一下=变量间的共线性诊断表如下 共线性诊断a 模型 维数 特征值 条件索引 方差比例 (常量) 高中学校数 初中毕业人数 普通高中师生比 每10万人口高中在校生数 教育总经费 居民受教育程度为大专及以上的人数 V6岁及6岁以上人口数 1 dimension1 1 7.337 1.000 .00 .00 .00 .00 .00 .00 .00 .00 2 .442 4.075 .00 .00 .00 .00 .01 .01 .00 .00 3 .154 6.896 .00 .00 .02 .00 .00 .02 .09 .01 4 .025 17.246 .03 .18 .00 .02 .20 .09 .11 .10 5 .017 21.081 .00 .05 .00 .01 .04 .76 .61 .09 6 .015 22.161 .05 .59 .04 .00 .47 .04 .01 .01 7 .007 32.096 .00 .09 .52 .12 .29 .02 .17 .76 8 .003 46.414 .92 .08 .40 .84 .00 .06 .02 .03 a. 因变量: 初中升入高中数 由上表看出,最大的条件索引值为46.414>30,说明变量间有中等相关性,条件索引最大值对应的行中,6岁及6岁以上人口数和高中专任教师数的方差比例超过了0.5,因此认为二者构成了一个相关变量集,在修正模型时可删去二者之一。 一、 模型检验与修正 剔除不显著及共线性高的变量 由上面的分析,考虑剔除由上一节的分析,考虑剔除部分显著性不高或共线性高的变量。初步剔除高中学校数和居民受教育程度为大专及以上几个变量,得到模型2:. Y=-140083.79+2.488X1+0.011X2+0.226X3+2416.459X5+31.005X6。 模型汇总b 模型 R R 方 调整 R 方 标准 估计的误差 更改统计量 Durbin-Watson R 方更改 F 更改 df1 df2 Sig. F 更改 1 .996a .992 .990 1.81865E4 .992 587.390 5 25 .000 1.761 a. 预测变量: (常量), V6岁及6岁以上人口数, 每10万人口高中在校生数, 普通高中师生比, 教育总经费, 初中毕业人数。 由分析表得出如下检验值: 1、拟合优度R方=0.996,拟合良好; 2、DW值=1.761,自相关性较低; 3、F=587.390,方程显著性高; 变量检验及共线性检验如下表: 系数a 模型 非标准化系数 标准系数 t Sig. B 的 95.0% 置信区间 共线性统计量 B 标准 误差 试用版 下限 上限 容差 VIF 1 (常量) -1.401E5 3.694E4 -3.792 .001 -2.162E5 -6.400E4 初中毕业人数 .226 .035 .510 6.530 .000 .154 .297 .055 18.067 普通高中师生比 2416.459 2.326E3 .032 1.039 .309 -2374.261 7207.179 .348 2.870 每10万人口高中在校生数 31.005 6.175 .117 5.021 .000 18.286 43.723 .617 1.622 教育总经费 .011 .003 .154 3.298 .003 .004 .017 .155 6.470 V6岁及6岁以上人口数 2.488 .661 .310 3.765 .001 1.127 3.849 .050 20.085 a. 因变量: 初中升入高中数 可见变量显著性和多重共线性都有比较明显的改善,但不够完善 二、 模型的评价分析 根据模型3,由多元线性回归分析、拟合优度检验、回归方程的显著性检验及回归系数的显著性检验,可以看出,2009年我国各地区初中升入高等中学人数与初中毕业人数、教育总经费、每10万人口在校生数等指标呈正相关,即教育规模越大,初中学生毕业生数量越多,初中升高中人数越多。而与受教育程度和人口特征无显著的统计关系,这与预期有所不同。即父母受教育程度并不必然的影响初中升学人数,这可能是由于父母受教育程度与升学率无直接关系造成的。此外,还应考虑政府政策,教育结构等因素,以完善模型。 基础教育与国民经济发展及精神文明建设等直接相关,提高基础教育水平至关重要。从模型可以看出,教育规模对初中升学人数有很大影响,因此,应扩大基础教育包括高中教育规模,不仅在学校数量、师生比等数量上增加,更要在师资力量、教学环境、学术研究等各方面完善提高。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服