实验二--一元线性回归.doc

资源描述

实验二一元线性回归一实验目的：掌握一元线性回归的估计与应用，熟悉EViews的基本操作。二实验要求：应用教材P61第12题做一元线性回归分析并做预测。三实验原理：普通最小二乘法。四预备知识：最小二乘法的原理、t检验、拟合优度检验、点预测和区间预测。五实验内容：第2章练习12 下表是中国2007年各地区税收和国内生产总值GDP的统计资料。单位：亿元地区 Y GDP 地区 Y GDP 北京 1435.7 9353.3 湖北 434.0 9230.7 天津 438.4 5050.4 湖南 410.7 9200.0 河北 618.3 13709.5 广东 2415.5 31084.4 山西 430.5 5733.4 广西 282.7 5955.7 内蒙古 347.9 6091.1 海南 88.0 1223.3 辽宁 815.7 11023.5 重庆 294.5 4122.5 吉林 237.4 5284.7 四川 629.0 10505.3 黑龙江 335.0 7065.0 贵州 211.9 2741.9 上海 1975.5 12188.9 云南 378.6 4741.3 江苏 1894.8 25741.2 西藏 11.7 342.2 浙江 1535.4 18780.4 陕西 355.5 5465.8 安徽 401.9 7364.2 甘肃 142.1 2702.4 福建 594.0 9249.1 青海 43.3 783.6 江西 281.9 5500.3 宁夏 58.8 889.2 山东 1308.4 25965.9 新疆 220.6 3523.2 河南 625.0 15012.5 要求，以手工和运用Eviews软件： (1)作出散点图，建立税收随国内生产总值GDP变化的一元线性回归方程，并解释斜率的经济意义； (2)对所建立的回归方程进行检验； (3)若2008年某地区国内生产总值为8500亿元，求该地区税收收入的预测值及预测区间。六实验步骤 1.建立工作文件并录入数据： (1)双击桌面快速启动图标，启动Microsoft Office Excel, 如图1，将题目的数据输入到excel表格中并保存。 (2)双击桌面快速启动图标，启动EViews6程序。 (3)点击File/New/ Workfile…，弹出Workfile Create对话框。在Workfile Create对话框左侧Workfile structure type栏中选择Unstructured/Undated选项，在右侧Data Range中填入样本个数31.在右下方输入Workfile的名称P61.如图2所示。图 1 图 2 (4)下面录入数据，点击File/Import/Read Text-Lotus-Excel...选中第(1)步保存的excel表格，弹出Excel Spreadsheet Import对话框，在Upper-left data cell栏输入数据的起始单元格B2，在Excel 5+sheet name栏中输入数据所在的工作表sheet1，在Names for series or Number if named in file栏中输入变量名Y GDP，如图3所示，点击OK，得到如图4所示界面。图 3 图 4 (5)按住Ctrl键同时选中Workfile界面的gdp表跟y表，点击鼠标右键选Open/as Group得到完整表格如图5，并点击Group表格上菜单命令Name，在弹出的对话框中命名为group01. 图 5 图 6 2.数据的描述性统计和图形统计：以上建立的序列GDP和Y之后，可对其做描述统计和统计以把握该数据的一些统计属性。 (1)描述属性：点View/Descriptive Stats\Common Sample，得描述统计结果，如图6所示，其中：Mean为均值，Std.Dev为标准差。 (2)图形统计：双击序列GDP，打开GDP的表格形式，点击表格左边View/Graph，可得图7。同样可查看序列Y的线形图。很多时候需要把两个序列放在一个图形中来查看两者的相互关系，用线图或散点图都可以。在命令栏键入：scat GDP Y，然后回车，就可以得到用散点图来查看GDP和Y的关系，如图8所示。图 7 图 8 3.设定模型，用最小二乘法估计参数：设定模型为。方法一：点击Quick/Estimate Equation…,出现方程估计对话框。方法二：按住Ctrl键，同时选中序列Y和序列GDP，点击右键，在所出现的右键菜单中，选择Open/as Equation…后弹出一对话框。在框中依次输入“y c gdp ”，（注意被解释变量在最前，变量间要空格，如图9）点击其下的确定，即可得到回归结果（如图10）。图 9 图 10 由图10数据结果，可得到回归分析模型为：，，其中，括号内的数为相应的t检验值。是可决系数，与是有关的两个检验统计量。 4.模型检验： (1)经济意义检验。斜率为边际可支国内生产总值GDP，表明2007年，中国内地各省区GDP每增加1亿元时，税收平均增加0.071047亿元。 (2)t检验和拟合优度检验。在显著性水平下，自由度为31-2=29的t分布的临界值。因此，从参数的t检验值看，斜率项显然不为零，但不拒绝截距项为零的假设。另外，拟合优度表明，税收的76%的变化也以由GDP的变化来解释，因此拟合情况较好。在Eqution界面点击菜单命令View/Actual,Fitted,Residual/Actual,Fitted.Residual Graph可得到图11，可直观看到实际观测站和拟合值非常接近。图 11 图 12 5.应用：回归预测： (1)被解释变量Y的个别值和平均值的点预测：由第二章第五节知道，个别值和平均值点预测的预测公式均为内插预测：在Equation框中，点击“Forecast”，在Forecast name框中可以为所预测的预测值序列命名，计算机默认为yf，点击“OK”，得到样本期内被解释变量的预测值序列yf（也称拟合值序列）的图形形式（图12）。同时在Workfile中出现一个新序列对象yf。外推预测： ① 录入2008年某地区国内生产总值GDP为8500亿元的数据。双击Workfile菜单下的Range所在行，出现将Workfile structured对话框，讲右侧Observation旁边的数值改为32，然后点击OK，即可用将Workfile的Range以及Sample的Range改为32；双击打开GDP序列表格形式，将编辑状态切换为“可编辑”，在GDP序列中补充输入GDP=8500（如图13所示）。图13 图 14 ② 进行预测在Equation框中，点击“Forecast”，弹出一对话框，在其中为预测的序列命名，如yf2。点击OK即可用得到预测结果的图形形式（如图14所示）。点击Workfile中新出现的序列yf2，可以看到预测值为593.2667（图15）（注意：因为没有对默认预测区间1-32做改变，这时候得到的是所有内插预测与外插预测的值，若将区间改为32 32，则只会得到外推预测结果）。图 15 图 16 ③ 结果查看按住Ctrl键，同时选中y、yf、resid，点击右键，在右键菜单中选Open/as Group可打开实际值、预测值、残差序列，在view菜单选择Graph...，画折线图（如图16所示）。 (2)区间预测原理：当2007年中国某省区GDP为8500亿元时，预测的税收为被解释变量Y的个别值区间预测公式为：，被解释变量Y的均值区间预测公式为：。具体地说，可以在前面点预测序列中找到；可以查t分布表得到；样本数n=31为已知；中的为已知，，可以在序列GDP的描述统计中找到，；，从而；由X总体方差的无偏估计式，可以计算 (可在序列X的描述统计中找到)。 (3)区间预测的Eviews操作： ①个别值置信区间的计算：在命令栏输入：（yfu为个别值的置信上界，yfl为个别值的置信下界） “scalar yfu=593.2667+2.045*@sqrt(95183.1*(1+1/31+152979.5/55957878.6))” “scalar yfl=593.2667-2.045*@sqrt(95183.1*(1+1/31+152979.5/55957878.6))” 得到： yfu=1235.12876632 yfl=-48.5953663235 于是95%的置信度下预测的2008年某省区税收入个值的置信区间为：（-48.5953663235,1235.12876632）。 ②均值的置信区间的计算：在命令栏输入：（eyfu为均值的置信上界，eyfl为均值的置信下界） “scalar eyfu=593.2667+2.045*@sqrt(95183.1*(1/31+152979.5/55957878.6))” “scalar eyfl=593.2667-2.045*@sqrt(95183.1*(1/31+152979.5/55957878.6))” 得到： eyfu=711.287072849 eyfl=475.246327151 于是在95%的置信度下，预测省区的2008年的税收收入均值的置信区间为：（475.246327151，711.287072849）。 6：补充应用生成一个新的序列yhat=-10.62963+0.071047*gdp；生成一个新的序列e0=y-yhat; 建立一个组对象“y yhat e0”，并画图，在Eqution界面点击菜单命令View/Actual,Fitted,Residual/Actual,Fitted.Residual Graph，对比这两个图形。在Equation界面点击菜单Proc/Forecast,生成yhat2序列，点击Proc/Make Residual Series，生成e1序列。建立组对象“y yhat yhat2 e0 e1”，对比这些数据。作业： 1．根据提供的数据集“caschool.xls”建立Eviews工作文件。讨论班级规模和测试成绩的关系。 (1)建立testscr（测试成绩）和str（师生比，衡量班级规模）的一元线性回归方程，并解释斜率的经济意义； (2)对所建立的回归方程进行检验； (3)若str为20，求该平均测试成绩的预测。 (4)根据以上补充应用的步骤，生成新序列并比较。附：回归结果界面解释表回归结果界面解释表英文名称中文名称常用计算公式常用相互关系和判断准则 Variable 变量 Coefficient 系数 Sta.Error 标准差一般是绝对值越小越好 t-statistic T检验统计量绝对值大于2时可粗略判断系数通过t检验 Prob T统计量的P值 P值小于给定显著水平时系数通过t检验 R－squared Ajusted R－squared S.E. of regression 扰动项标准差 Sum squared resid 残差平方和 Log likelihood 似然函数对数值 Durbin-Watson stat DW统计量 Mean dependent var 应变量样本均值 S.D. dependent var 因变量样本标准差 Akaike info criterion AIC准则一般是越小越好 Schwarz criterion SC准则一般是越小越好 F-statistic F统计量 Prob(F-statistic) F统计量的P值 P值小于给定显著水平时模型通过F检验

展开阅读全文