第7章_相关与回归分析.doc

资源描述

第六章相关与回归分析思考与练习一、判断题 1.产品的单位成本随着产量增加而下降，这种现象属于函数关系。答：错。应是相关关系。单位成本与产量间不存在确定的数值对应关系。 2.相关系数为0表明两个变量之间不存在任何关系。答：.错。相关系数为零，只表明两个变量之间不存在线性关系，并不意味着两者间不存在其他类型的关系。 3.单纯依靠相关与回归分析，无法判断事物之间存在的因果关系。答：对，因果关系的判断还有赖于实质性科学的理论分析。 4.圆的直径越大，其周长也越大，两者之间的关系属于正相关关系。答：错。两者是精确的函数关系。 5.总体回归函数中的回归系数是常数，样本回归函数中的回归系数的估计量是随机变量。答：对。 6.当抽取的样本不同时，对同一总体回归模型估计的结果也有所不同。答：对。因为，估计量属于随机变量，抽取的样本不同，具体的观察值也不同，尽管使用的公式相同，估计的结果仍然不一样。二、选择题 1.变量之间的关系按相关程度分可分为：b、c、d a.正相关； b. 不相关； c. 完全相关； d.不完全相关； 2.复相关系数的取值区间为：a a. ； b.； c.； d. 3.修正自由度的决定系数a、b、d a.； b.有时小于0 ； c. ； d.比更适合作为衡量回归方程拟合程度的指标 4.回归预测误差的大小与下列因素有关：a、b、c、d a 样本容量； b自变量预测值与自变量样本平均数的离差 c自变量预测误差； d 随机误差项的方差三、问答题 1．请举一实例说明什么是单相关和偏相关？以及它们之间的差别。答：例如夏季冷饮店冰激凌与汽水的消费量，简单地就两者之间的相关关系进行考察，就是一种单相关，考察的结果很可能存在正相关关系，即冰激凌消费越多，汽水消费也越多。然而，如果我们仔细观察，可以发现一般来说，消费者会在两者中选择一种消费，也就是两者之间事实上应该是负相关。两者之间的单相关关系出现正相关是因为背后还有天气等因素的影响，天气越热，两种冷饮的消费量都越多。如果设法将天气等因素固定不变，单纯考察冰激凌与汽水的消费量，则可能出现负相关关系。像这种假定其他影响因素不变专门考察其中两个因素之间的关系就成为偏相关。 2．讨论以下几种场合,回归方程中回归系数的经济意义和应取的符号。（1）Yt为商业利润率；X2t为人均销售额；X3t为流通费用率。　（2）Yt为粮食销售量；X2t为人口数；X3t为人均收入。　（3）Yt为工业总产值；X2t为占用的固定资产；X3t为职工人数。　（4）Yt为国内生产总值；X2t为工业总产值；X3t为农业总产值。答：（1），人均销售额越大，企业利润越高，故此商业利润率越高，从而商业利润率与人均销售额呈正相关关系；而流通费用率越高，反映商业企业的经营成本越高，其商业利润率就越低。（2），人口数量越多，对粮食的消费量就越大；人均收入越多，对粮食的购买力就越强，故此这两个变量皆与粮食销售量呈正相关关系。（3），固定资产和职工人数是两大生产要素，数量越多，说明生产要素越密集，工业总产值就越高，所以它们与工业总产值的关系为正相关。（4），，因为国内生产总值包括三次产业，所以工业总产值、农业总产值和全部的国内生产总值为正相关关系，同时即便某些特殊地区没有工业和农业，仍然有国内生产总值，所以，。四、计算题 1．设销售收入Ｘ为自变量，销售成本Ｙ为因变量。现根据某百货公司1２个月的有关资料计算出以下数据：（单位：万元）　= 425053.73 ； = 647.88; = 262855.25 ； = 549.8； = 334229.09 (1) 拟合简单线性回归方程，并对方程中回归系数的经济意义做出解释。 (2) 计算决定系数和回归估计的标准误差。 (3) 对β2进行显著水平为５％的显著性检验。 (4)假定明年１月销售收入为800万元，利用拟合的回归方程预测相应的销售成本，并给出置信度为９５％的预测区间。　　解：（1）（2）（3） t值远大于临界值2.228，故拒绝零假设，说明在5％的显著性水平下通过了显著性检验。（4）（万元）所以，Yf的置信度为95％的预测区间为：所以，区间预测为： 2. 对9位青少年的身高Y与体重X进行观测，并已得出以下数据: ,,,, 要求：（1）以身高为因变量，体重为自变量，建立线性回归方程; （2）计算残差平方和决定系数; （3）计算身高与体重的相关系数并进行显著性检验;（自由度为7，显著水平为0.05的t分布双侧检验临界值为2.365。）（4）对回归系数进行显著性检验。解：（1）（2）决定系数：残差平方和（3）身高与体重的相关系数：检验统计量 F值远大于临界值2.365，故拒绝零假设，说明回归方程在5％的显著性水平下通过了显著性检验。（4） t值远大于临界值2.365，故拒绝零假设，说明在5％的显著性水平下通过了显著性检验。 3．我国2004年部分副省级大中城市的有关资料如下表。城市人均消费支出 Y（元/人）人均可支配收入X1 （元/人）人均储蓄 X2 （元/人）沈阳 7213 8924 22470.93 大连 8672 10378 26185.59 哈尔滨 6896 8940 13402.76 南京 8350 11602 24994.58 武汉 7793 9564 19175.46 济南 8471 10798 15298.77 青岛 9002 11089 16495.77 杭州 11213 14565 29083.99 宁波 11283 15882 23257.83 武汉 7793 9564 19175.46 广州 13121 16884 59786.52 厦门 10739 14443 38261.19 资料来源：厦门市统计局网站，其中人均储蓄根据储蓄额与人口数推算。试根据该表的资料， (1) 拟合以下形式的消费函数：Yt＝β1＋β2X1t＋β3X2t＋Ut (2) 计算随机误差项的标准差估计值、修正自由度的决定系数，并对整个回归方程进行显著性检验。 (3) 假设某一居民家庭人均可支配收入为12，000元，人均储蓄为40000元，试预测其人均消费支出，并给出置信度为９５％的预测区间。解：（1）回归分析的EXCEL操作步骤为：步骤一：首先将数据粘贴导入EXCEL数据表中。步骤二：进行回归分析选择“工具” →“数据分析” →“回归”，在该窗口中选定自变量和因变量的数据区域，最后点击“确定”完成操作：得到回归分析的输出结果见下图。因此回归方程为：（2）随机误差项的标准差估计值为：S＝369.3716，修正的决定系数为：。 F=145.4606远大于F统计量的临界值4.10，说明回归方程在5％的显著性水平下通过检验。（3）预测点估计值为：使用EXCEL进行区间估计步骤如下：步骤一：构造工作表步骤二：为方便后续步骤书写公式，定义某些单元格区域的名称首先，定义F6、F7、F8的名称：选定E6：F8区域，然后执行菜单命令“插入”→“名称”→“指定”，在调出的对话框中选中“最左列”，单击“确定”：其次，定义B2：D13的名称：先选定该区域，然后执行然后执行菜单命令“插入”→“名称”→“定义”：调出“定义名称”对话框，输入名称“X”，单击“确定”。最后，采用同样方法，将B15：D15定义为“Xf”，将F2：F4定义为“B”。步骤三：计算点预测值在F6中输入公式“=MMULT(Xf,B)”，按回车键即可。步骤四：计算t临界值在F7中输入公式“=TINV(1-0.95,12-3)”，按回车键即可。步骤五：计算预测估计误差的估计值在F5中输入公式： “=MMULT(MMULT(Xf,MINVERSE(MMULT(TRANSPOSE(X),X))),TRANSPOSE(Xf))” 然后按“Ctrl+Shift+Enter”组合键即可。再计算，在F8中输入公式“=369.3716*SQRT(1+F5)”。369.3716为回归估计标准差。步骤六：计算置信区间上下限在F9、F10中分别输入公式“=Cf-t临界值*Sef”和“=Cf+t临界值*Sef”。结果为：最终得出的区间预测结果： 4.设有以下资料 (1) 试拟合以下总成本函数 (2) 根据总成本函数推导出平均成本函数，并描出平均成本函数的图形。 (3) 试根据以上结果推算总产量为1550时的单位产品平均成本。某企业近年来总成本与产量年份总成本 Y 产量 X 年份总成本 Y 产量 X 1997 32900 400 2003 86300 900 1998 52400 600 2004 139000 1200 1999 42400 500 2005 115700 1100 2000 62900 700 2006 154800 1300 2001 74100 800 2007 178700 1400 2002 100000 1000 2008 203100 1500 解：（1）构造EXCEL数据表，并与前面所述的同样步骤进行回归分析，得到相应的回归分析结果（见下页）。得到的回归方程为：（2）求平均成本函数：因为平均成本与总成本的关系为：，所以将产量从1到2，000取值，代入上式，获得2000个平均成本的数据点，描出平均成本函数的图形，见图7-15。图7-15 由图可知，平均成本随着产量的增加显示下降，达到一最低值之后，又会随着产量的增加而提高。（3）预测：当时，五、证明题 1．试证明斯皮尔曼等级相关系数是前面介绍的样本相关系数的特例。证明:X和Y序列排列后的等级记为和，斯皮尔曼等级表示为：显然，，记：等级差，则：对进行以上类似分解，容易得出，上式可转化为：解得：原命题得证。 2．试证明最小二乘估计量是标准一元线性回归模型中总体回归系数的最优线性无偏估计量。证明：（I）无偏性：证明略，参见教材P173页，公式7.29式的证明。（II）线性性：令，则由此可见，是的一个线性函数。它是以为权的的一个加权平均，从而是一个线性统计量。（III）最小方差性设为的任意线性无偏估计量，现讨论的取值情况。因为：也即，作为的任意线性无偏估计量，必须满足下列约束条件：；且又因为，所以：分析此式：由于第二项是常数，所以只能通过第一项的处理使之最小化。明显，若令，可以取最小值，即：所以，是标准一元线性回归模型中总体回归系数的最优线性无偏估计量。

展开阅读全文