1、2015-2016年第二学期研究生“应用数理统计”课程课外作业 研究生课程考核试卷 (适用于课程论文、提交报告) 科 目: 数理统计 教 师: 刘琼荪 姓 名: xxx 学 号: 20150702xxx 专 业: 机械工程 类 别: 学术 上课时间: 2016 年 3 月至 2016 年 4 月 考 生 成 绩: 卷面成绩 平时成绩 课程综
2、合成绩 阅卷评语: 阅卷教师 (签名) 我国上世纪70-90年代民航客运量回归分析 摘要:中国民航从上实际50年代发展至今已有60多年的历史,这期间中国民航经历了曲折的发展。随着改革开发以来,中国人民的生活水平日渐提高,出行坐乘飞机逐渐人们可选的交通方式。我国民航客运量逐年提高,为了研究其历史变化趋势及其成因,现以民航客
3、运量作为因变量y,假设以国民收入x1、消费额x2、铁路客运量x3、民航航线里程x4、来华旅游入境人数x5为影响民航客运量的主要因素。利用SPSS和excel软件通过建立回归模型分析我国民航客运量主要受到其中哪些因素的影响,并就回归模型分析具体可能的成因。 关键词:民航客运量 影响因素 回归模型 一、问题提出及问题分析 2004年,民航行业完成运输总周转量230亿吨公里、旅客运输量1.2亿人、货邮运输量273万吨、通用航空作业7.7万小时。截止2004年底,我国定期航班航线达到1200条,其中国内航线(包括香港、澳门航线)975条,国际航线225条,境内民航定期航班通航机场133个(不
4、含香港、澳门),形成了以北京、上海、广州机场为中心,以省会、旅游城市机场为枢纽,其它城市机场为支干,联结国内127个城市,联结38个国家80个城市的航空运输网络。民航机队规模不断扩大,截止至2004年底,中国民航拥有运输飞机754架,其中大中型飞机680架,均为世界上最先进的飞机。2004年中国民航运输总周转量达到230亿吨公里(不包括香港、澳门特别行政区以及台湾省),在国际民航组织188个缔约国中名列第3位。 从上述事实可以看出我国民航的发展所取得的成果显著。当前我国民航客运量相当巨大,而影响我国航运客运量的因素有很多,例如第三产业增加值(亿元),城市居民消费水平(绝对元),定期航班航线里
5、程(万千里)等[1]。为了研究过去的情况,从中国统计年鉴[2]得到1994年统计摘要,分析类似因素对我国航空客运量的影响。 二、数据描述 如下为所得统计数据: 表1 1978-1993年统计数据 年份 y 民航客运量(万人) x1 国民收入(亿元) x2 消费额(亿元) x3 铁路客运量(万人) x4 民航航线里程(万公里) x5 来华旅游入境人数(万人) 1978 231 3010 1888 81491 14.89 180.92 1979 298 3350 2195 86389 16 420.39 1980 3
6、43 3688 2531 92204 19.53 570.25 1981 401 3941 2799 95300 21.82 776.71 1982 445 4258 3054 99922 23.27 792.43 1983 391 4736 3358 106044 22.91 947.7 1984 554 5652 3905 110353 26.02 1285.22 1985 744 7020 4879 112110 27.72 1783.3 1986 997 7859 5552 108579 32.
7、43 2281.95 1987 1310 9313 6386 112429 38.91 2690.23 1988 1442 11738 8038 122645 37.38 3169.48 1989 1283 13176 9005 113807 47.19 2450.14 1990 1660 14384 9663 95712 50.68 2746.2 1991 2178 16557 10969 95081 55.91 3335.65 1992 2886 20223 12985 99693 83.66 3311.
8、5 1993 3383 24882 15949 105458 96.08 4152.7 三、模型建立: (1)提出假设条件,明确概念,引进参数; 参考相关书籍[3],设随机变量民航客运量为(万人),解释变量,,,,分别为国民收入(亿元),消费额(亿元),铁路客运量(万人),民航航线里程(万公里),来华旅游入境人数(万人),且回归函数,称 ,为多元线性回归模型,为回归系数,为随机误差。 为上述来自多元线性回归模型的样本值,满足: 为了便于对模型进行参数估计、模型检验、变量选择等,有必要对模型作如下一些基本假定。 1. 解释变量,,,,是可控制的、非随机变量,
9、互不相关。 2. 随机误差项具有零均值和同方差的性质,即,并且,则有。 3. 随机变量误差项服从正态分布,即 (2)模型构建: 由表1通过EXCEL绘制变量对因变量的关系散点图如下: 图1 民航客运量与国民收入关系图 图2 民航客运量与消费额关系图 图3 民航客运量与铁路客运量关系图 图4 民航客运量与民航航线里程关系图 图5 民航客运量与来华旅游入境人数关系图 由以上的散点图看出:与存在非线性关系,但与其它几个变量基本是线性相关的。所以首先考虑回归模型为多元线性模型。 四、模型求解。 采用最小二乘估计法求解模型参数,采用SPSS软件
10、计算,得到如下结果: 表2 拟合过程小结 表3 方差分析 表4 回归过程统计量 图6 残差图 则回归方程为 五、模型分析检验 (1)决定系数 由决定系数=0.998看出回归方程高度显著。 (2)方差分析表 (3)回归系数的显著性检验(t检验): 回归系数的显著性检验由显著性一列看出自变量的回归系数都通过了t检验(即收尾概率小于规定的显著性水平0.05),说明5个自变量对的影响显著。其中铁路客运量的显著性为0.006最大,但仍小于5%。 (4)检验残差序列的自相关性(D-W检验): D-W=1.993≈2,所以认为模型不存在序列的自相
11、关性。 (6)异方差检验 从残差图看出所有点落在±2之间,没有明显变化趋势,所以认为 综上,认为用最小二乘估计的方法估计的模型理论上是有效的。 (7) 模型进一步分析 虽然,模型通过了检验,但是由之前的图可知与正相关,但(国民消费额)的回归系数是负值,显然是矛盾的,同时和的VIF很大,,的VIF也大于10,其原因是自变量之间的共线性,因而回归模型还要就共线性问题进行谈论。如下表是各变量之间的相关系数: 表5 相关系数表 可以看出, 与,,,的相关系数都在0.9以上,说明所选自变量与高度线性相关,验证之前的散点图。用与自变量作多元线性回归是适合的。另一方面,与各变量的相关系数均
12、小于0.5,而,,,之间的相关系数均达到0.9以上,所以应尝试解决它们之间的共线性。 首先剔除VIF最大的,计算剩余变量参与的回归方程。结果如下: 表6 统计量表 可以看出,当前的VIF最大,同时也没通过t检验,其显著性0.233远大于0.05,故继续剔除。计算剩余参数的回归方程,结果如下: 表7 统计量表 表8 拟合过程小结 表9 方差分析表 可以看出三个变量的VIF均小于10,且均通过了t检验。说明此回归模型不存在强多重共线性,回归系数也有合理的经济解释。说明回归方程高度显著,方差分析的结果也说明回归方程显著性高。 图7
13、残差直方图 图8 残差正态P-P图 由P-P图和直方图可知残差服从正态分布,所以模型是有效的[4]。所以民航客运量的回归模型为:。 六、岭回归模型 除了上述方法,在处理自变量之间存在强线性相关的情况时,可以采用岭回归进行估计(虽然牺牲了一定的无偏性)[5]。采用SPSS编写程序运行可得到如下岭回归结果。 表10 K值表 图9 岭迹图 由上述结果,可知RSQ均大于0.98,取K=0.85,再进行岭回归,得岭回归模型: 表11 岭回归统计表 可以看出除了的回归系数为负,其余均为正
14、同时各变量的显著性检验均通过。方差分析显示回归模型高度显著。所以该方法所得的回归模型为: 七、主要的结论或发现。 比较两种方法的得到的回归模型: 可以看出两种模型均认为,,对的正面贡献度度小于,,或者认为可以忽略。这说明国民收入和消费额对于民航客运量的影响很小。查阅相关历史可知,我国民航的发展有多个阶段。第一阶段是50到70年代末,主要是军队管民航,经营上采取高度集中的计划经济体制,航空运输规模较小且发展缓慢。第二阶段是从1980-1992年,民航实施企业化改革,成立了新的地区管理局、国家骨干航空公司和一些区域性的航空公司。这个阶段正是数据来源时期。在该时期,民航的发展
15、仍处于起步阶段,同时该时期即使是经济相对发达的沿海地区也尚未达到小康阶段,出行乘坐飞机仍是绝大多数人所不能承受的。所以来自国内的客运量是相当小的。这也解释了为什么游客数量的回归系数大于,(事实上,两者的线性相关程度很高,国民收入提高,消费自然上升),而是与y的关系最直接的,航线里程数的增加,自然反映客运量的增加,所以该自变量的系数是最大的。的系数为负,很显然两种交通方式是竞争关系,但是正如前面所分析,人们出远门乘飞机很少,无论乘火车的人数如何增加,对飞机的客运量产生的影响很小,所以的系数依旧很小。 为了体现所有变量对y的影响,最终决定使用 作为回归模型。 参考资料 [1] 彭
16、立南,影响民航客运量因素的相关性分析及实证研究,中国市场,2014 ,35 (798 ):160-161 [2] 中国统计年鉴,1978—1993 [3] 杨虎、刘琼荪、钟波,《数理统计》,高等教育出版社,2004,103-118 [4] 卢文岱、朱红兵,《SPSS统计分析》(第五版),电子工业出版社,2015,270-300 [5] 何晓群、刘文卿,《应用回归分析》(第三版),中国人民大学出版社,2011,169-189 附录 Spss 岭回归代码 INCLUDE 'C:\Program Files (x86)\SPSSInc\PASWStatistics18\Samp
17、les\English\Ridge Regression.sps'. RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5 /start=0.0 /stop=0.2/inc=0.02. INCLUDE 'C:\Program Files (x86)\SPSSInc\PASWStatistics18\Samples\English\Ridge Regression.sps'. RIDGEREG DEP=y /ENTER x1 x2 x3 x4 x5 /k=0.085. Sps文件修改代码 *----------------------------------
18、 * Calculate raw coefficients from standardized ones, compute standard errors * of coefficients, and an intercept term with standard error. Then print * out similar to REGRESSION output. *------------------------------------------------------------------
19、从这里开始是给出系数估计) . compute beta={b;0}. . compute b= ( b &/ std ) * sy. . compute intercpt=ybar-t(b)*t(xmean). . compute b={b;intercpt}. . compute xpx=(sse/(sst*(n-nv-1)))*inv(xpx+(k &* ident(nv,nv)))*xpx* inv(xpx+(k &* ident(nv,nv))). . compute xpx=(sy*
20、sy)*(mdiag(1 &/ std)*xpx*mdiag(1 &/ std)). . compute seb=sqrt(diag(xpx)). . compute seb0=sqrt( (sse)/(n*(n-nv-1)) + xmean*xpx*t(xmean)). . compute seb={seb;seb0}. . compute rnms={varname,'Constant'}. . compute ratio=b &/ seb. . compute ppp=2*(1-tcdf(abs(ratio),n-nv-1)). . compute bvec={b,seb,
21、beta,ratio,ppp}. . print bvec/title='--------------Variables in the Equation----------------' /rnames=rnms /clabels='B' 'SE(B)' 'Beta' 'T' 'sig'. . print /space=newpage. end if. 教材错误 序号 错误所在页码和所在的行数 错误 修正结果 备注 1 212页第八题 第三问的数据65不合理 建议改为75 2 390页的参考答案2 β有误 β=9/16-9/8*ln(3/4). 3 281页第4行 18.657 19.4365 4 386页第21. N=258 N=666(左右) 第17页 共16页
©2010-2025 宁波自信网络信息技术有限公司 版权所有
客服电话:4009-655-100 投诉/维权电话:18658249818