资源描述
应用回归分析试题(一)
一、选择题.(每题3分,共15分)
题号
1
2
3
4
5
答案
1、对于一元线性回归,,,
,下列说法错误的是
(A),的最小二乘估计, 都是无偏估计;
(B),的最小二乘估计,对,,...,是线性的;
(C),的最小二乘估计,之间是相关的;
(D)若误差服从正态分布,,的最小二乘估计和极大似然估计是不一样的.
2、在回归分析中若诊断出异方差,常通过方差稳定化变化对因变量进行变换. 如果误差方差与因变量的期望成正比,则可通过下列哪种变换将方差常数化
(A) ;(B) ;(C) ;(D).
3、下列说法错误的是
(A)强影响点不一定是异常值;
(B)在多元回归中,回归系数显著性的t检验与回归方程显著性的F检验是等价的;
(C)一般情况下,一个定性变量有k类可能的取值时,需要引入k-1个0-1型自变量;
(D)异常值的识别与特定的模型有关.
4、下面给出了4个残差图,哪个图形表示误差序列是自相关的
(A) (B)
(C) (D)
5、下列哪个岭迹图表示在某一具体实例中最小二乘估计是适用的
(A) (B)
(C) (D)
二、填空题(每空2分,共20分)
1、考虑模型,,其中,秩为,不一定
已知,则__________________, ___________,若服从正态分布,则
___________,其中是的无偏估计.
2、下表给出了四变量模型的回归结果:
来源
平方和
自由度
均方
回归
残差
总的
65965
---
66042
---
---
14
---
---
则残差平方和=_________,总的观察值个数=_________,回归平方和的自由度=________.
3、已知因变量与自变量,,,,下表给出了所有可能回归模型的AIC值,则最优子集是_____________________.
模型中的变量
AIC
模型中的变量
AIC
,
,
,,
,
202.55
2.68
142.49
62.44
3.04
198.10
315.16
,,
,,,
,,
,
,,
,
3.50
5.00
7.34
138.23
2.12
5.50
138.73
4、在诊断自相关现象时,若,则误差序列的自相关系数的估计值=_____ ,若存在自相关现象,常用的处理方法有迭代法、_____________、科克伦-奥克特迭代法.
5、设因变量与自变量的观察值分别为和,则以为折点的折线模型可表示为_____________________.
三、(共45分)研究货运总量(万吨)与工业总产值(亿元)、农业总产值(亿元)、居民非商品支出(亿元)的线性回归关系.观察数据及残差值、学生化残差、删除学生化残差、库克距离、杠杆值见表一
表一
编号
1
160
70
35
1.0
-15.474
-0.894
-0.876
0.166
0.454
2
260
75
40
2.4
12.825
0.628
0.593
0.031
0.240
3
210
65
40
2.0
5.344
0.265
0.243
0.006
0.261
4
265
74
42
3.0
-0.091
-0.004
-0.004
1.168E-6
0.199
5
240
72
38
1.2
33.225
1.754
2.294
0.409
0.347
6
220
68
45
1.5
-25.198
-2.116
-3.832
3.216
0.742
7
275
78
42
4.0
-17.554
-1.173
-1.220
0.501
0.593
8
160
66
36
2.0
-20.007
-1.163
-1.206
0.289
0.461
9
275
70
44
3.2
8.234
0.409
0.379
0.015
0.264
10
250
65
42
3.0
18.695
1.065
1.079
0.222
0.439
表二 参数估计表
变量
系数
标准误
Intercept
-348.280
3.754
7.101
12.447
176.459
1.933
2.880
10.569
总平方和SST=16953 残差平方和SSE=3297
已知,,,,根据上述结果,解答如下问题:
1、 计算误差方差的无偏估计及判定系数.(8分)
2、 对,,的回归系数进行显著性检验.(显著性水平)(12分)
3、 对回归方程进行显著性检验.(显著性水平)(8分)
4、 诊断数据是否存在异常值,若存在,是关于自变量还是关于因变量的异常值?(10分)
5、 写出关于,,的回归方程,并结合实际对问题作一些基本分析(7分)
四、(共8分)某种合金中的主要成分为金属A与金属B,研究者经过13次试验,发现这两种金属成分之和与膨胀系数之间有一定的数量关系,但对这两种金属成分之和是否对膨胀系数有二次效应没有把握,经计算得与的回归的残差平方和为3.7,与、的回归的残差平方和为0.252,试在0.05的显著性水平下检验对是否有二次效应?
(参考数据)
五、(共12分)(1)简单描述一下自变量之间存在多重共线性的定义;(2分)
(2)多重共线性的诊断方法主要有哪两种?(4分)
(3)消除多重共线性的方法主要有哪几种?(6分)
应用回归分析试题(二)
一、选择题
1. 某同学由与之间的一组数据求得两个变量间的线性回归方程为,已知:数据 的平均值为2,数据的平均值为3,则 ( A )
A.回归直线必过点(2,3) B.回归直线一定不过点(2,3)
C.点(2,3)在回归直线上方 D.点(2,3)在回归直线下方
2. 在一次试验中,测得的四组值分别是,则Y与X之间的回归直线方程为( A )
A. B. C. D.
3. 在对两个变量,进行线性回归分析时,有下列步骤:
①对所求出的回归直线方程作出解释; ②收集数据、),,…,;
③求线性回归方程; ④求未知参数; ⑤根据所搜集的数据绘制散点图
如果根据可行性要求能够作出变量具有线性相关结论,则在下列操作中正确的是( D )
A.①②⑤③④ B.③②④⑤① C.②④③①⑤ D.②⑤④③①
4. 下列说法中正确的是(B )
A.任何两个变量都具有相关关系 B.人的知识与其年龄具有相关关系
C.散点图中的各点是分散的没有规律 D.根据散点图求得的回归直线方程都是有意义的
5. 给出下列结论:
(1)在回归分析中,可用指数系数的值判断模型的拟合效果,越大,模型的拟合效果越好;
(2)在回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;
(3)在回归分析中,可用相关系数的值判断模型的拟合效果,越小,模型的拟合效果越好;
(4)在回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合精度越高.
以上结论中,正确的有(B )个.
A.1 B.2 C.3 D.4
6. 已知直线回归方程为,则变量增加一个单位时(C )
A.平均增加个单位 B.平均增加个单位C.平均减少个单位 D.平均减少个单位
7. 下面的各图中,散点图与相关系数r不符合的是(B )
8. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为,据此可以预测这个孩子10岁时的身高,则正确的叙述是( D )
A.身高一定是145.83cm B.身高超过146.00cm
C.身高低于145.00cm D.身高在145.83cm左右
9. 在画两个变量的散点图时,下面哪个叙述是正确的( B )
(A)预报变量在轴上,解释变量在轴上
(B)解释变量在轴上,预报变量在轴上
(C)可以选择两个变量中任意一个变量在轴上
(D)可以选择两个变量中任意一个变量在轴上
10. 两个变量与的回归模型中,通常用来刻画回归的效果,则正确的叙述是( D )
A. 越小,残差平方和小 B. 越大,残差平方和大
C. 于残差平方和无关 D. 越小,残差平方和大
11. 两个变量与的回归模型中,分别选择了4个不同模型,它们的相关指数如下 ,其中拟合效果最好的模型是( A )
A.模型1的相关指数为0.98 B.模型2的相关指数为0.80
C.模型3的相关指数为0.50 D.模型4的相关指数为0.25
12. 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( B )
A.总偏差平方和 B.残差平方和
C.回归平方和 D.相关指数R2
13.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为,下列判断正确的是(C )
A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元
C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资为90元
14. 下列结论正确的是(C )
①函数关系是一种确定性关系;②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法;④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.
A.①② B.①②③ C.①②④ D.①②③④
15. 已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为( C )
A. B. C. D.
二、填空题
16. 在比较两个模型的拟合效果时,甲、乙两个模型的相关指数的值分别约为0.96和0.85,则拟合效果好的模型是 甲 .
17. 在回归分析中残差的计算公式为 列联表、三维柱形图、二维条形图 .
18. 线性回归模型(和为模型的未知参数)中,称为 随机误差 .
19. 若一组观测值(x1,y1)(x2,y2)…(xn,yn)之间满足yi=bxi+a+ei (i=1、2.…n)若ei恒为0,则R2为___ ei恒为0,说明随机误差对yi贡献为0.
三、解答题
20. 调查某市出租车使用年限和该年支出维修费用(万元),得到数据如下:
使用年限
2
3
4
5
6
维修费用
2.2
3.8
5.5
6.5
7.0
(1) 求线性回归方程;
(2)由(1)中结论预测第10年所支出的维修费用.()
20. 解析: (1)列表如下:
i
1
2
3
4
5
2
3
4
5
6
22
38
55
65
70
44
114
220
325
420
4
9
16
25
36
, , ,
于是,
∴线性回归方程为: (2)当x=10时,(万元)
即估计使用10年时维修费用是1238万元 回归方程为:
(2) 预计第10年需要支出维修费用12.38 万元.
21. 以下是某地搜集到的新房屋的销售价格和房屋的面积的数据:
(1)画出数据对应的散点图;
(2)求线性回归方程,并在散点图中加上回归直线;
(3)据(2)的结果估计当房屋面积为时的销售价格.
(4)求第2个点的残差。
21. 解析:(1)数据对应的散点图如图所示:
(2),,
设所求回归直线方程为,
则
故所求回归直线方程为
(3)据(2),当时,销售价格的估计值为:
(万元)
必看经典例题
1. 从20的样本中得到的有关回归结果是:SSR=60,SSE=40。要检验x与y之间的线性关系是否显著,即检验假设:。
(1)线性关系检验的统计量F值是多少?
(2)给定显著性水平a=0.05,Fa是多少?
(3)是拒绝原假设还是不拒绝原假设?
(4)假定x与y之间是负相关,计算相关系数r。
(5)检验x与y之间的线性关系是否显著?
解:(1)SSR的自由度为k=1;SSE的自由度为n-k-1=18;
因此:F===27
(2)==4.41
(3)拒绝原假设,线性关系显著。
(4)r===0.7746,由于是负相关,因此r=-0.7746
(5)从F检验看线性关系显著。
2. 某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。通过计算得到下面的有关结果:
方差分析表
变差来源
df
SS
MS
F
SignificanceF
回归
2.17E—09
残差
40158.07
—
—
总计
11
1642866.67
—
—
—
参数估计表
Coefficients
标准误差
tStat
P—value
Intercept
363.6891
62.45529
5.823191
0.000168
XVariable1
1.420211
0.071091
19.97749
2.17E—09
要求:
(1)完成上面的方差分析表。
(2)汽车销售量的变差中有多少是由于广告费用的变动引起的?
(3)销售量与广告费用之间的相关系数是多少?
(4)写出估计的回归方程并解释回归系数的实际意义。
(5)检验线性关系的显著性(a=0.05)。
解:
变差来源
df
SS
MS
F
SignificanceF
回归
1
1602708.6
1602708.6
399.1000065
2.17E—09
残差
10
40158.07
4015.807
—
—
总计
11
1642866.67
—
—
—
(2)R2=0.9756,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。
(3)r=0.9877。
(4)回归系数的意义:广告费用每增加一个单位,汽车销量就增加1.42个单位。
(5)回归系数的检验:p=2.17E—09<α,回归系数不等于0,显著。
回归直线的检验:p=2.17E—09<α,回归直线显著。
3. 根据两个自变量得到的多元回归方程为,并且已知n=10,SST=6 724.125,SSR=6 216.375,,=0.056 7。要求:
(1)在a=0.05的显著性水平下,与y的线性关系是否显著?
(2)在a=0.05的显著性水平下,是否显著?
(3)在a=0.05的显著性水平下,是否显著?
解(1)回归方程的显著性检验:
假设:H0:==0 H1:,不全等于0
SSE=SST-SSR=6 724.125-6 216.375=507.75
F===42.85
=4.74,F>,认为线性关系显著。
(2)回归系数的显著性检验:
假设:H0:=0 H1:≠0
t===24.72
=2.36,>,认为y与x1线性关系显著。
(3)回归系数的显著性检验:
假设:H0:=0 H1:≠0
t===83.6
=2.36,>,认为y与x2线性关系显著。
4. 根据下面Excel输出的回归结果,说明模型中涉及多少个自变量、少个观察值?写出回归方程,并根据F,se,R2及调整的的值对模型进行讨论。
SUMMARY OUTPUT
回归统计
Multiple R
R Square
Adjusted R Square
标准误差
观测值
0.842407
0.709650
0.630463
109.429596
15
方差分析
df
SS
MS
F
Significance F
回归
3
321946.8018
107315.6006
8.961759
0.002724
残差
11
131723.1982
11974.84
总计
14
453670
Coefficients
标准误差
t Stat
P-value
Intercept
X Variable 1
X Variable 2
X Variable 3
657.0534
5.710311
-0.416917
-3.471481
167.459539
1.791836
0.322193
1.442935
3.923655
3.186849
-1.293998
-2.405847
0.002378
0.008655
0.222174
0.034870
解:自变量3个,观察值15个。
回归方程:=657.0534+5.710311X1-0.416917X2-3.471481X3
拟合优度:判定系数R2=0.70965,调整的=0.630463,说明三个自变量对因变量的影响的比例占到63%。
回归方程的检验:F检验的P=0.002724,在显著性为5%的情况下,整个回归方程线性关系显著。
回归系数的检验:的t检验的P=0.008655,在显著性为5%的情况下,y与X1线性关系显著。的t检验的P=0.222174,在显著性为5%的情况下,y与X2线性关系不显著。
的t检验的P=0.034870,在显著性为5%的情况下,y与X3线性关系显著。
因此,可以考虑采用逐步回归去除X2,从新构建线性回归模型。
【本文档内容可以自由复制内容或自由编辑修改内容期待你的好评和关注,我们将会做得更好】
精选范本,供参考!
展开阅读全文