资源描述
个人收集整理 勿做商业用途
第二篇 回归分析与相关分析
1 证明题
⑴ 试证
① ;
② .
⑵ 假定的反函数为。对于观测数据,考虑模型残差,我们有
, 。
试证。这里R为相关系数。
⑶ 对于一元线性回归分析,试证明
.
⑷ 对于一元线性回归分析,试证明
。
⑸ 我们知道,一元线性方程的回归系数b和相关系数R可以表作
, ,
式中
,
分别为x和y的校正平方和。要求:
① 建立回归系数和相关系数的关系.
② 证明对于标准化的x和y值,必有。
提示:数据标准化的公式为
()
式中
为第j个变量的平均值,而
为基于抽样方差的标准差。
⑹ 以二元线性回归方程
,
为例,证明如下问题两个问题,并借助计算结果进行检验。
① 对于标准化的自变量,建立矩阵X*,则
为自变量x1和x2的简单相关系数矩阵。
② C的逆矩阵
的对角线的元素等于方程膨胀因子(VIF)值。
③ 借助第3题第(1)小题的问题和数据检验这种推导结果。
⑺ VIF计算公式的证明。考虑线性回归方程
,
以二元线性回归为例,证明如下问题。
① 对于标准化的自变量,建立矩阵X*,则
为自变量x1和x2的简单相关系数矩阵.
② C的逆矩阵
的对角线的元素等于方程膨胀因子(VIF)值。
2 计算题(一元回归分析)
为了估计山上积雪溶化后对河流下游灌溉的影响,在山上建立观测站,测得连续10年的观测数据如下表(见下表1-1)。
表1—1
年 份
最大积雪深度x(米)
灌溉面积y(千亩)
xi2
yi2
xiyi
预测值
残 差
1971
15。2
28.6
1972
10.4
19。3
1973
21。2
40.5
1974
18。6
35。6
1975
26.4
48。9
1976
23.4
45.0
1977
13。5
29.2
1978
16。7
34.1
1979
24.0
46。7
1980
19。1
37.4
∑
利用本节公式,借助Excel计算:
① 表中各项指标;
② 回归参数a、b,并给出回归模型;
③ 计算总平方和SSt即Syy、剩余平方和SSe及回归平方和SSr;
④ 验证如下关系
,,,.
⑤ 验证如下关系:SSt=SSr+SSe,即
.
⑥ 相关系数R和标准误差s;
⑦ 计算F值、t值和DW值;
⑧ 计算残差与自变量的相关系数,分析结果.
⑨ 假定1981的积雪深度为27.5米,估计当年的灌溉面积大约为多少?
3 计算题(多元回归分析)
⑴ 为了考察工业、农业和固定资产投资对交通运输业的影响,利用SPSS统计分析软件对某省1970-1987年18年的产值数据进行多元回归分析和逐步回归分析,指出多重共线性的问题实质所在(见下表1—2)。
表1-2
序号
年份
工业产值x1
农业产值x2
固定资产投资x3
运输业产值y
1
1970
57。82
27.05
14。54
3.09
2
1971
58.05
28。89
16。83
3。40
3
1972
59。15
33。02
12。26
3。88
4
1973
63.83
35.23
12.87
3.90
5
1974
65.36
24。94
11。65
3。22
6
1975
67。26
32.95
12.87
3.76
7
1976
66.92
30.35
10。80
3.59
8
1977
67。79
38.70
10.93
4.03
9
1978
75.65
47。99
14。71
4。34
10
1979
80.57
54.18
17.56
4。65
11
1980
79。02
58。73
20.32
4.78
12
1981
80。52
59。85
18。67
5.04
13
1982
86.88
64。57
25。34
5。59
14
1983
95.48
70.97
25.06
6。01
15
1984
109。71
81。54
29.69
7.03
16
1985
126。50
94.01
43。86
10。03
17
1986
138.89
103.23
48.90
10.83
18
1987
160。56
119。33
60.98
12。90
资料来源:李一智等,1991.
⑵ 以国内生产总值(GDP)为因变量,分别借助Excel和SPSS对我国1995年社会经济发展的8项指标进行多元回归分析和逐步回归分析(见下表1-3).
表1—3
地区
国内生
产总值
工业
总产值
固定资产
投资
全社会货
物周转量
职工平
均工资
居民消
费水平
消费价
格指数
商品零售
价格指数
北京
1394.89
1908。62
519。01
373。9
8144
2505
117。3
112.6
天津
920.11
2094.01
345。46
342。8
6501
2720
115.3
110。6
河北
2849.52
3995.72
704.87
2033。3
4839
1258
115。2
115.8
山西
1092.48
1753.58
290.90
717.3
4721
1250
116.9
115.6
内蒙
832.88
781.73
250.23
781.7
4134
1387
117。5
116.8
辽宁
2793.37
4974。90
887。99
1371。1
4911
2397
116。1
114.0
吉林
1129.20
1428.96
320。45
497.4
4430
1872
115。2
114。2
黑龙江
2014。53
2203.78
435.73
824.8
4145
2334
116。1
114.3
上海
2462.57
5128。97
996。48
207.4
9279
5343
118.7
113.0
江苏
5155。25
11812。86
1434.95
1025.5
5943
1926
115.8
114.3
浙江
3524。79
8087。75
1006.39
754。4
6619
2249
116。6
113.5
安徽
2003.58
3155。88
474.00
908。3
4609
1254
114.8
112。7
福建
2160。52
2800.68
553。97
609.3
5857
2320
115.2
114。4
江西
1205.11
1291.37
282.84
411。7
4211
1182
116。9
115.9
山东
5002。34
8456。32
1229.55
1196.6
5145
1527
117。6
114。2
河南
3002。74
4715。11
670。35
1574.4
4344
1034
116。5
114.9
湖北
2391。42
4102.58
571。68
849。0
4685
1527
120.0
116。6
湖南
2195.70
2451.47
422。61
1011.8
4797
1408
119.0
115。5
广东
5381。72
9535.42
1639.83
656.5
8250
2699
114。0
111.6
广西
1606.15
1666。10
382.59
556.0
5105
1314
118。4
116.4
海南
364。17
193.26
198。35
232.1
5340
1814
113。5
111.3
四川
3534。00
4426。37
822。54
902。3
4645
1261
118.5
117.0
贵州
630。07
557.14
150。84
301。1
4475
942
121.4
117.2
云南
1206.68
1206.55
334.00
310.4
5149
1261
121.3
118。1
西藏
55。98
8.99
17。87
4。2
7382
1110
陕西
1000.03
1182。72
300。27
500。9
4396
1208
119。0
117.0
甘肃
553。35
824。73
114。81
507。0
5493
1007
119.8
116。5
青海
165.31
148.64
47.76
61。6
5753
1445
118.0
116.3
宁夏
169.75
197。50
61。98
121。8
5079
1355
117.1
115.3
新疆
834.57
802。02
376。95
339.0
5348
1649
119。7
116。7
资料来源:《中国统计年鉴》,1996。见于:http://www.stats.gov。cn/ndsj/information/njml。html。
⑶ 现有某地区15个房地产的售价、居住面积、评估价格和建筑等价(高、中、低)等数据,试以售价为因变量,根据下表中资料拟合售价的预测模型(表1—4)。
表1—4
价格
居住面积
评估价格
建筑等级
26。0
521
7.8
低
31.0
661
23。8
低
37.4
694
28。0
中
34。8
743
26。2
中
39。2
787
22.4
中
38。0
825
28。2
中
39.6
883
25.8
中
31。2
920
20.8
低
37。2
965
14.6
中
38。4
1011
26。0
中
43。6
1047
30。0
中
44。8
1060
29.2
高
40.6
1079
24。2
中
41。8
1164
29.4
高
45。2
1298
23.6
高
资料来源:于洪彦,2001。
⑷ 利用第2题的数据,在开展一元线性回归之后,以积雪深度和预测残差为自变量,进行二元线性回归分析,指出回归的结果有什么特征,为什么?
4 计算题(非线性回归分析)
⑴ 市镇人口与乡村人口的比值称为城乡人口比,现有我国1977-2003年27年的城乡人口比数据,试以时间为自变量,以城乡人口比为因变量,拟合一个预测模型(表1—5)。【提示:指数模型】
表1—5
年份
城乡人口比
年份
城乡人口比
年份
城乡人口比
1977
0.21287
1986
0.32494
1995
0.40925
1978
0。21825
1987
0。33903
1996
0.43843
1979
0。23397
1988
0。34798
1997
0。46864
1980
0。24056
1989
0.35520
1998
0.50038
1981
0。25245
1990
0。35887
1999
0.53327
1982
0.26792
1991
0.36874
2000
0.56788
1983
0.27589
1992
0。37855
2001
0.60410
1984
0.29894
1993
0。38870
2002
0.64176
1985
0。31073
1994
0。39879
2003
0.68153
资料来源:《中国人口统计年鉴》、《中国统计年鉴》等.
⑵ 有人考察了25株样木,测得树冠体积和叶量的数据如下表。为了确立树冠体积与叶量的关系,试根据这些数据拟合出适当的数学模型(表1-6)。【提示:幂指数模型】
表1—6
树冠体积
叶量
树冠体积
叶量
树冠体积
叶量
树冠体积
叶量
树冠体积
叶量
0。092
0.029
0。661
0。150
1。014
0。514
0.615
0。221
0。501
0.120
0.626
0。150
1.093
0.332
0。137
0.029
3.820
0。878
0.097
0.059
0。417
0.241
0.159
0。059
0。412
0.150
1.056
0。241
0。851
0.302
0。271
0。090
0.190
0.059
2.477
1。059
1.767
0。302
0.324
0.150
0。895
0.302
0.513
0.150
0.162
0。120
0.246
0.059
4.480
0.484
资料来源:马克明等,1997.
⑶ 现有1940年美国Boston市人口密度空间分布的数据(距离:英里;密度:人/m2),请拟合适当的城市人口密度分布的数学模型(表1-7).【提示:负指数模型】
表1—7
距离
密度
距离
密度
距离
密度
距离
密度
0.5
26300
4.5
11500
8。5
3200
12.5
900
1。5
25100
5.5
9800
9。5
2300
13。5
700
2。5
19900
6。5
5200
10。5
1700
14。5
600
3。5
15500
7.5
4600
11。5
1200
15。5
500
资料来源:C。 Clark。转引自R。B。 Banks, 1994。
⑷ 已知河南省1971-2000的人均产出、人均GDP和城市化率(即城市人口比重)数据,分别以人均产出和人均GDP为自变量,以城市化率为因变量,拟合出适当的数学模型(表1—3)。【提示:幂指数模型】
表1-8
年份
人均产出
人均GDP
城市化率
年份
人均产出
人均GDP
城市化率
1971
337.93
169。17
6.46
1986
1300.88
629。82
9.54
1972
349.54
175.61
6。56
1987
1582。22
748。16
9.92
1973
373。13
179.61
6。52
1988
1961.77
900.67
10.52
1974
385.77
180。41
6.54
1989
2277。39
1001。90
10.88
1975
412.43
189.06
6.50
1990
2501.92
1080。65
11。23
1976
377。79
183。19
6.54
1991
2830.21
1193.35
11。53
1977
455.90
207.14
6.63
1992
3478。83
1444.25
12.02
1978
494.20
230.54
6.81
1993
4760。62
1858。66
12.81
1979
552。73
264。42
7。30
1994
6369.27
2464.20
15。70
1980
617。54
314。56
7。67
1995
8733。77
3299.71
16.21
1981
672.49
337.56
7.85
1996
10360.78
3991.69
17.22
1982
706。16
350。18
8.11
1997
11328。95
4413。35
17.94
1983
803.72
429.70
8.36
1998
11769.40
4676.97
18.50
1984
908。91
478.27
8.71
1999
12124。56
4874。93
18。81
1985
1161。68
575.68
9.30
2000
13530.39
5414.90
19。34
资料来源:《河南统计年鉴》,2001.
⑸ 某企业财务经理搜集了50组成本与产量的数据资料(表1-9),试拟合一个适当的产量-成本函数。【提示:抛物线模型,即二次多项式模型】
表1—9
产量
成本
产量
成本
产量
成本
产量
成本
产量
成本
473
74。58
1055
38.03
1285
31.74
1457
32。36
1642
40。66
639
55。93
1056
47.25
2305
63。31
1467
37.35
1673
41.58
741
64.51
1837
36。24
1319
27。28
1973
49.34
1699
31。78
824
47.55
1132
26。47
1366
37.01
1493
32.26
1703
43。05
847
51。24
1136
41。65
1766
41。07
1523
26.70
1771
46。33
914
38.74
1175
32。94
1474
27.46
1542
28.85
1868
47。83
939
37。28
2021
48.30
2178
51.50
2066
51。46
1884
42.64
956
37。29
1240
39.35
1403
33。30
1568
41.89
2154
49。15
972
48。08
1253
24。78
1407
31.52
1607
34.22
2249
60.19
1024
44.89
1281
39.36
1443
39.39
1611
28。72
2345
79.96
资料来源:于洪彦,2001。
⑹ 在一个城市里,居民的火灾损失与居户到消防队的距离有关。一般说来,到消防队的距离越远,消防人员赶来救火的时间差就越大,从而火灾损失也就越大。假定保险公司希望了解居民地理分布与火灾损失的数量关系,从而更加合理地制定火灾保险金额——因为火灾损失越大,保险公司的赔偿越多,从而客户投保的费用也理当越高。为了揭示火灾损失与居民分布的地理数学关系,保险公司派人调查了一系列统计数据(表1-10)。试分析这些数据的变化规律,并帮助保险公司解决他们希望解决的问题。【提示:线性模型】
表1-10
距离
3。4
1.8
4。6
2.3
3。1
5.5
0。7
3。0
2。6
4.3
2.1
1.1
6.1
4。8
3.8
损失
26.2
17.8
31.3
23.1
27。5
36
14.1
22。3
19。6
31。3
24
17.3
43.2
36.4
26.1
数据来源:何晓群、刘文卿,2001.
要求:
① 根据所给数据建立数学模型(根据散点图进行初步判断,然后建立模型,并进行必要的统计检验);
② 假定有家居户,到消防队的距离分别是:3。2公里、4.4公里和7。1公里。试根据模型判断,一旦发生火灾,他们三家的损失大约为多少?估计的可靠程度如何?
⑺ 早年的地理探险技术条件很差,即便想知道所在地方的海拔高度也非常困难,这就为科学观测的准确记录和判断带来了极大的不便,当然还有其他问题.后来科学家发现海拔高度与大气压强有关,只要知道所在地方的气压,就很容易换算出海拔高度。但问题是,大气压强当时也不容易测得.十九世纪四、五十年代,苏格兰物理学家J。D. Forbes终于想出了一种办法:用水的沸点估计气压,进而根据气压估计海拔高度。但是,首先需要建立数学模型并确定模型的参数。为此,Forbes先后在阿尔卑斯山和苏格兰的17个地点进行观测,部分原始数据见下表(表1—11,温度为华氏温标)。试根据这些数据建立模型并给出模型的参数。【建议:采用幂指数模型】
表1—11
序号
沸点
气压
序号
沸点
气压
序号
沸点
气压
1
194.5
20。79
7
200.9
23.89
13
209.5
28.49
2
194.3
20.79
8
201.1
23.99
14
208。6
27。76
3
197.9
22。40
9
201。4
24。02
15
210。7
29.04
4
198。4
22。67
10
201.3
24。01
16
211。9
29。88
5
199。4
23。15
11
203.6
25.14
17
212.2
30。06
6
199.9
23。35
12
204。6
26。57
数据来源: S。 Weisberg。转引自王静龙等,1998。
要求:
① 首先对数据进行线性回归分析,并要进行必要的统计检验;
② 对模型开展非线性回归分析。借助散点图进行初步判断,然后建立模型,并给出必要的统计检验;
③ 比较线性回归和非线性回归分析的结果,说明那一种模型更为可取?为什么?
④ 假定一位野外考察者在某地烧水时测定的沸点是191。6℉,试借助模型计算该地方的大气压强。
⑻ 城市的建筑尺度有时无意中遵循了某种规律,认识这种规律反过来有助于我们的城市规划和设计。由于教堂在西方是最为严肃的建筑物,考察教堂建设“不经意”中形成的规律具有一定的学术意义和实践价值。Clapham在1934年曾经出版了1066年以来英国被威廉征服后的25个罗马式教堂的地面布局规划。1973年,S.J. Gould从Clapham提供的地面布局图划中测得了这些教堂的周长(百米)和面积(百平方米),数据见下表(表1-12)。试分析这些数据、建立模型并指出规律所在。【提示:幂指数模型】
表1-12
周长
面积
周长
面积
周长
面积
周长
面积
周长
面积
3.48
38。83
4.19
38.66
4.78
51.19
1.77
13.37
0。63
1。86
3.69
43.92
2。43
17.74
1.33
6。60
0。59
2.04
0。58
1。69
1.43
9。14
2.40
19.46
1.67
9。04
0.69
2。22
0。86
3。31
2.05
16。66
2。72
23.00
3.14
34.27
0.50
1。46
0.41
1。13
3。05
36。16
2.99
29。75
2.04
17。61
0。69
1.92
1。23
6。74
数据来源: S. Weisberg。转引自王静龙等。
要求:
① 根据所给数据建立数学模型。借助散点图进行初步判断,然后建立模型,并进行必要的统计检验;
② 对模型的回归系数特别是斜率进行力所能及的解释.
5 问答题
利用逐步回归消除相关的自变量的目的是什么?试解释一下多重共线性的原理是什么。
9
展开阅读全文