资源描述
泉州智峰管理咨询有限公司 龚启海咨询机构提供
相关与回归分析
第一节 简单线性相关分析
一、相关关系的概念与种类
(一)相关关系的概念
在自然界和人类社会中,普遍着存在现象之间的相互依赖、相互制约的关系。一些现象在数量上的发展变化经常伴随着另一些现象数量上的发展变化。现象间的数量关系可分为两种基本类型:①函数关系.它是指现象间存在的严格依存的、确定的因果关系,一种现象的数量变化必然决定着另一种现象的数量变化,这种关系可通过精确的数学表达式来反映,比如,圆面积同其半径的关系为s=πr2,自由落体落下的距离同时间的关系为h=gt2,等等。②相关关系。指的是现象之间确实存在着数量关系,但这种关系不是严格确定的,当一种现象的数量发生变化时,另一种现象的数量可能在一定范围内发生变化,出现不同的数值。比如,单位产品成本同产量之间的关系,一般说来,当工厂规模扩大,产品产量增加时,单位产品成本会随之下降,这种变化趋势体现了规模经济的效应,具有客观性和普遍性。但由于影响产品成本的因素众多,有主要的,也有次要的,有必然的,也有偶然的,有随机的,也有非随机的,有观察得到的,也有观察不到的,等等。同一产量水平下,可能会出现各种各样的单位成本,或者某一确定的单位成本对应着不同的产量,两者的关系不是唯一确定的.粮食收获量与施肥量之间、商品价格与需求量之间、身高与体重之间等都具有类似的特征,这种关系就是相关关系。
函数关系与相关关系既有区别,又有联系.由于观察和实验中的误差,函数关系往往通过相关关系表现出来;而当对现象之间的内在联系和规律性了解得更加清楚的时候,相关关系又可能转化为函数关系。在社会经济领域里,一般说来,函数关系反映了现象间关系的理想化状态,相关关系则反映了现象间关系的现实化状态,只有在大量观察时,在平均的意义上,它才能被描述.
综上所述,相关关系是现象之间确实存在的,但关系数值不固定的相互依存关系。相关分析则是研究一个变量与另一个变量或另一组变量之间相关密切程度和相关方向的一种统计分析方法。
(二)相关关系的种类
现象之间的相关关系是很复杂的,从不同的角度看,相关关系有不同的种类。
1。固定相关和随机相关。按变量的性质(是否是随机变量),相关关系可分固定相关和随机相关。固定相关是指一个随机变量与另一个或一组非随机变量之间的的相关关系.例如,农作物的施肥量是一个可控制的变量,农作物收获量是一个不确定的变量,两个变量之间的关系表现为一个随机变量与另一个非随机变量之间的固定相关.随机相关是指一个随机变量与另一个或一组随机变量之间的相关关系。例如,大学生的身高和体重之间的关系就是两个随机变量之间的随机相关关系,如果观察某一身高的一组学生时,其体重各不相同,会形成一个分布;如果观察某一体重的一组学生时,其身高也不相同并形成一个分布,两个变量均为随机变量.
2。简单相关和多元相关.按变量的多少,相关关系可分为简单相关和多元相关.简单相关,又称单相关,是指一个随机变量与另一个随机变量或非随机变量之间的相关关系;多元相关,又称复相关,是指一个随机变量与另一组随机变量或非随机变量之间的相关关系.
按变量之间的相关方向不同,简单相关又可分为正相关和负相关。当自变量的值增加,因变量的值也相应地增加;自变量的值减少,因变量的值也随之减少时,这样的相关关系就是正相关。反之,当自变量的值增加时,因变量的值随之减少;自变量的值减少时,因变量的值反而增加,具有这种特点的相关关系就是负相关。
多元相关可进一步分解为简单相关和偏相关.偏相关是指在测定一个随机变量与某个或某些随机变量或非随机变量之间的相互关系后,该随机变量与某一新增加的随机量或非随变量之间的相关关系,又称之为净相关.
3.线性相关和非线性相关。按变量之间的相关形式,相关关系可分为线性相关和非线性相关.若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系表现为线性组合时,则称它们之间的相关关系为线性相关。反之,若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系不能表现为线性组合,而只能表现为非线性组合时,则称它们之间的相关关系为非线性相关。
4.完全相关、不完全相关和不相关。按变量之间的相关程度不同,相关关系可分为完全相关、不完全相关和不相关。若一个变量的值完全由另一个或一组变量的值所决定,则称变量之间的这种相关关系为完全相关,即函数关系。若一个变量的值与另一个或一组变量的值有关,但其中要受到随机因素的影响,则称变量之间的这种相关关系为不完全相关。若一个变量的值完全不受另一个或一组变量值的影响,则称变量之间不相关。大量社会经济现象之间的相关关系都属于不完全相关,不完全相关是相关分析的基本内容。完全相关和不相关可视为相关关系中的特例。
二、简单线性相关图表
判定两变量之间的相关程度和相关方向是简单线性相关分析的重要内容之一.其最简单、最直观的方法就是列相关表、绘制相关图。
简单线性相关关系有固定简单线性相关与随机简单线性相关之分。简单线性相关图表可用于直观地表明这两类简单线性相关变量之间的相关程度和相关方向.
(一)固定简单线性相关图表
已知有两个变量,设y是随机变量,x是非随机变量,对应于x的每一个给定的取值,y有多个可能的取值,但在一次试验中,y只取其中一个可能值。由于x是非随机变量,在实验中其取值可以控制并重复进行,所以在n次试验中,x可能取n个相同或不同的值,相应地也有n个y的值,即得到一一对应的样本资料(x,y)。将这些数据按x的取值由小到大依次对应排列,即构成固定简单线性相关表,又称之为一维相关表。
例9。1 某地区居民人均收入水平(x)与其食品支出占生活费支出比重(y)之间具有相关关系,编制相关表如下(见表9-1):
表9-1 一维相关表
人均收入水平(元)x
280
320
390
530
650
670
790
880
910
1050
食品支出占生活费支出比重(%)y
68.3
67.5
66。2
64.9
56.7
60.2
54.4
49.0
50。5
43。6
从表9—1可以粗略看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重有下降的趋势。
将一一对应的(x,y)描点于坐标系上,即构成散点图,又称相关图。在相关图上,以横轴表示非随机变量(x),以纵轴表示随机变量(y),通过观察各对变量值坐标点的分布状况,可以大致判断变量之间相关的形态、方向和密切程度。
利用表9—1资料,可绘制相关图如下(见图9—1):
图9-1 居民人均收入水平与其食品支出的关系图
从图9-1可以看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重明显降低,并大致呈线性下降趋势,即负线性相关。
一些常见的相关分布状态可用下述各图表示(见图9-2):
较显著的线性正相关 较显著的线性负相关
不显著的线性负相关 不相关
图9—2 几种常见的相关散点图
(二)随机简单线性相关图表
设x 、y为两个随机变量,将观测值(x,y)分组之后按顺序排列,x从小到大排列,y从大到小排列,形成一棋盘式平衡表,称之为二维相关表。
例9。2 某地区为研究降雨量和农作物平均每亩收获量的关系,从40个降雨量不同的试验田中获得40对数据.用x表示降雨量,y表示平均每亩收获量.据此可编出二维相关表如下(见表9-2).
该表中,中间每一格列出的是x、y的联合频数,它表明x和y同时取某值的次数;最后一列每一格是每一行的联合频数的和,它表明y取某值的次数;最后一行每一格则是每一列的联合频数的和,它表明x取某值的次数。
表9—2 二维相关表
降雨量(毫米)xi
频数fij
8
10
12
14
16
18
行和
(fj)
收获量(公斤)yj
260
1
2
1
4
240
2
2
2
6
220
2
3
5
1
11
200
1
3
6
3
13
180
1
2
3
160
1
1
1
3
列和(fi)
3
6
14
11
5
1
40
从表9—2可以粗略看出,降雨量与收获量之间大致呈线性正相关关系。
利用表9-2资料,可绘制相关图如下(见图9—3):
图9-3 降雨量与收获量之间相关图
三、简单相关系数
(一)简单相关系数的意义
简单线性相关图表虽然直观,但不能精确地描述现象间的相关关系。测量两个变量之间线性相关程度和相关方向的指标,称为简单相关系数。
总体相关系数一般用R表示,定义式为
(式9。1)
式中,和表示变量X和Y的标准差,对有限总体而言,其计算公式为
(式9。2)
(式9.3)
表示两个变量X和Y之间的协方差,计算公式为
(式9。4)
这里,变量X和Y 为总体变量,N为总体单位数,和分别为变量X及Y的总体平均数,计算式为
(式9.5)
(式9.6)
要理解相关系数R的意义,首先要明确协方差和标准差、在反映变量之间相关关系中的作用。
协方差反映了变量X和Y的共变性,可以显示两个变量的相关方向和相关关系的密切程度,它可能出现以下几种情况:
第一,所有相关点均为正相关,则> 0,说明两个变量之间正线性相关.
第二,所有相关点均为负相关,则< 0,说明两个变量之间负线性相关。
第三,在全部相关点中,既有正相关、又有负相关和零相关,在计算协方差时就会出现正负抵销。抵销的结果如为正数则是正相关,如为负数则是负相关。数值大表示相关程度强,数值小则表示相关关系弱。若正、负全部低销掉了,结果为零,则表示不相关。
第三种情况是实际经济生活中最常见到的情况。此外,还有两种极端的情况:当所有相关点都是零相关时,抵销结果为零,表示两个变量完全没有相关关系。当所有相关点全部落在直线上时,表示两个变量完全线性相关,即存在函数关系。
进一步,相关系数是一个界于+1和-1之间的数,即-1≤R≤1,若R=1,说明两个变量之间存在完全正线性相关;若R=—1说明两个变量之间存在完全负线性相关;若0 < R < 1,说明两个变量之间存在一定程度的正线性相关;若-1 < R < 0,说明两个变量之间存在一定程度的负线性相关;若R=0,说明两个变量之间没有线性相关关系。
(二)简单相关系数的计算
在实际工作中,总体相关系数R一般是未知的,往往需要用样本资料推断总体的相关情况,因而需要计算样本相关系数.
1。固定简单线性相关系数的计算
设x和y 为样本变量,其中y为随机变量,x为非随机变量, n为样本容量,、分别为变量x及y的样本平均数,、和分别表示变量x和y的样本标准差及它们之间的样本协方差,其计算为
(式9.7)
(式9。8)
(式9。9)
(式9。10)
(式9.11)
于是,就可得到与总体相关系数计算形式相同的样本相关系数(记为r)的公式
(式9.12)
经过简单的推导,上式还可变化为下面易于计算的形式
(式9.13)
根据表9—1的资料计算相关系数如表9-3所示:
表9—3 固定简单线性相关系数计算表
序号
人均收入水平(元)
x
食品支出占生活费支出比重(%)y
x2
y2
xy
1
280
68。3
78400
4664.89
19124
2
320
67.5
102400
4556。25
21600
3
390
66。2
152100
4382.44
25818
4
530
64.9
280900
4212。01
34397
5
650
56.7
422500
3214.89
36855
6
670
60。2
448900
3624。04
40334
7
790
54.4
624100
2959。36
42976
8
880
49.0
774400
2401.00
43120
9
910
50.5
828100
2550。25
45955
10
1050
43。6
1102500
1900。96
45780
合计
6470
581.3
4814300
34466。09
355959
将表9-3数字代入上述相关系数计算公式,得:
= - 0.98
2.随机简单线性相关系数的计算
如果x和y均为随机变量,计算样本相关系数的基本式仍为
但由于存在联合频数(fij),其具体的计算略有变化,经过不复杂的类推可得下式
(式9。14)
根据表9—2资料计算相关系数,计算过程如表9-4、表9—5、表9-6所示:
表9-4 降雨量(x)数据的计算表
降雨量(毫米)xi
fi
xi2
xifi
xi2fi
8
3
64
24
192
10
6
100
60
600
12
14
144
168
2016
14
11
196
154
2156
16
5
256
80
1280
18
1
324
18
324
合计
40
-
504
6568
表9-5 平均每亩收获量(y)数据的计算表
平均每亩收获量(公斤)yj
fj
yj2
yjfj
yj2fj
160
3
25600
480
76800
180
3
32400
540
97200
200
13
40000
2600
520000
220
11
48400
2420
532400
240
6
57600
1440
345600
260
4
67600
1040
270400
合计
40
—
8520
1842400
表9—6 平均每亩收获量(y)数据的计算表
降雨量(毫米)xi
平均每亩收获量(公斤)yj
fij
xiyjfij
8
160
1
1280
8
180
1
1440
8
200
1
1600
10
160
1
1600
10
200
3
6000
10
220
2
4400
12
160
1
1920
12
180
2
4320
12
200
6
14400
12
220
3
7920
12
240
2
5760
14
200
3
8400
14
220
5
15400
14
240
2
6720
14
260
1
3640
16
220
1
3520
16
240
2
7680
16
260
2
8320
16
260
1
4680
合计
—
40
109000
根据以上各表资料可得:
=
= 0.67
四、相关系数的统计推断
总体相关系数R一般是未知的,能够计算出的只是样本相关系数r,r虽然能够提供关于总体相关程度与方向的某种信息,r愈大,在一定程度上说明总体相关程度愈高,但也可能犯错误。这就需要根据样本资料对总体相关系数R进行检验和估计。
(一)关于总体相关系数R的检验
由于相关系数r的分布复杂,不能直接利用它去进行统计推断,但如果设
ZR= (式9.15)
zr= (式9。16)
可以证明,当样本(x,y)抽自正态分布总体时,zr近似服从平均值为ZR,方差为的正态分布,于是
z=(zr—ZR) (式9.17)
近似服从标准正态分布。据此可以检验H0:R=R0(R0¹0)
利用例9.1资料,计算的样本相关系数r=-0。98,是否可以认为总体相关系数R=-0.90,统计假设为
H0:R=—0.90
H1:R¹-0。90
此时,
ZR==—1。472
zr==-2.298
于是,检验统计量
z=(zr—ZR)
=(-2.298+1。472)
=-2.185
当显著水平α=5%时,查正态分布表可得,故否定H0,接受H1,即不能认为总体的相关系数R=—0。90。
同理,也可以对总体相关系数进行单边检验。
(二)关于总体相关系数R的区间估计
首先,求出ZR的估计区间.若与估计保证程度对应的概率度为Z,ZR的估计区间就为
zr—ZR zr+
对于例9。1,ZR的95%置信估计区间为
—2。298-ZR-2。298+
即 —3。039ZR-1.557
根据ZR的置信区间,可以换算出R的置信区间:
当ZR==—3。039时,R=—0.99
当ZR==—1。557时,R=—0.92
计算结果说明,居民人均收入水平与食品支出占生活费支出比重之间的总体相关系数R的95%的置信区间为-0.99至—0.92。
同理,也可类似地对例9.2进行分析,请读者自己思考。
第二节 简单线性回归分析
一、回归分析的概念和种类
从历史上看,“回归”概念的提出是要早于“相关”的,生物统计学家高尔顿在研究豌豆和人体的身高遗传规律时,首先提出“回归”的思想。1887年,他第一次将“回复”(Reversion)作为统计概念使用,后改为“回归”(Regression)一词。1888年他又引入“相关"(Correlation)的概念。原来,他在研究人类身高的遗传时发现,不管祖先的身高是高还是低,成年后代的身高总有向一般人口的平均身高回归的倾向。通俗的讲就是,高个子父母,其子女一般不象他们那样高,而矮个子父母,其子女一般也不象他们那样矮,因为子女的身高不仅受到父母的影响(尽管程度最强),还要受其上两代共四个双亲的影响(尽管程度相对弱一些),上三代共八个双亲的影响(尽管程度更加弱一些),如此等等 ,即子女的身高要受到其2n(n趋近无穷)个祖先的整体(即总体)影响,是遗传和变异的统一结果。
回归和相关已成为统计学中最基本的概念之一,其分析方法已是最标准、最常用的统计工具之一。从狭义上看,相关分析的任务主要是评判现象之间的相关程度高低以及相关的方向的,而回归分析则是在相关分析的基础上进一步借用数学方程将那种显著存在的相关关系表示出来,从而使这种被揭示出的关系具体化并可运用于实践中去。但也常从广义的角度去理解相关和回归,此时回归分析就包含着相关分析。
回归分析最基本的分类就是一元回归和多元回归,前者是指两个变量之间的回归分析,如收入与意愿支出之间的关系;后者则是指三个或三个以上变量之间的关系,如消费支出与收入及商品价格之间的关系等.
进一步,一元回归还可细分为线性回归和非线性回归两种,前者是指两个相关变量之间的关系可以通过数学中的线性组合来描述,后者则没有这种特征,即两个相关变量之间的关系不能通过数学中的线性组合来描述,而表现为某种曲线模型。
二、简单线性回归方程
总体的简单线性回归模型可表示为
Y=A+BX+e (式9。18)
上式中,X称为自变量,Y称为因变量,e称为随机误差值.
从这里可以看出相关分析与回归分析的显著区别,在前述的相关分析中通常可以将变量X和Y视作是某种“对等”的因素,而在这里的回归分析中,它们却是不“对等”的。自变量是解释变量或预测变量,并假定它是可以控制的无测量误差的非随机变量;相反,因变量是被解释变量或被预测变量,它是随机变量,即相同的Y可能是由于不同的X所造成,或者相同的X可能引起不同的Y,其表现正是随机误差项e.随机误差值e是观察值Y能被自变量X解释后所剩下的值,故又称为残差值,它是随机变量。
A和B为未知待估的总体参数,又称其为回归系数。由此可见,实际观测值Y被分割为两个部分:一是可解释的肯定项A+BX,二是不可解释的随机项e。
与相关分析类似,总体的回归模型Y=A+BX+e是未知的,如何根据样本资料去估计它就成为回归分析的基本任务.由此可以假设样本的回归方程如下:
(式9。19)
上式中,、和分别为Y、A和B的估计值.
如果对变量X和Y联合进行n次观察,就可以获得一个样本(x,y),据此就可求出、的值。
求、的方法有多种,但一般是采用最小平方法。它要求观察值y与估计值的离差平方和达到最小值,即
=最小值
满足这一要求的和可由下述标准方程求出
Σy=n+Σx
Σxy=Σx+Σx2
解方程得:
(式9。20)
(式9.21)
例9。3 为研究某类企业的生产量和单位成本之间的关系,现随机抽取10个企业,得如下数据(见表9—7):
根据该资料,经计算可得表9—8:
表9-7 10个企业的生产量和单位成本情况
编号
1
2
3
4
5
6
7
8
9
10
产量(万件)
2
3
4
4
5
6
6
7
8
9
单位成本(元/件)
52
54
52
48
48
46
45
44
40
38
表9—8 一元线性回归计算表
编号
产量
(万件)
x
单位成本
(元/件)
y
x2
y2
xy
y—
1
2
52
4
2704
104
54。35
—2.35
2
3
54
9
2916
162
52.10
1。90
3
4
52
16
2704
208
49.85
2。15
4
4
48
16
2304
192
47。85
-1.85
5
5
48
25
2304
240
47.60
0.40
6
6
46
36
2116
276
45.35
0.65
7
6
45
36
2025
270
45。35
—0.35
8
7
44
49
1936
308
43。10
0.90
9
8
40
64
1600
320
40。85
—0.85
10
9
38
81
1444
342
38。60
-0。60
合计
54
467
336
22053
2422
467
0
由上表资料,可得:
= — 2.25
= 58。85
这样就可以得到生产量(x)和单位成本(y)之间的样本回归方程
=58.85-2。25x
在简单线性回归方程中,为截距, 为斜率,后者表示自变量x变化一个单位时,将平均变化个单位。当取正值时,表明x和y的变化方向相同,当取负值时,表明x和y的变化方向相反。本例中,=—2。25,表明产量每增加1万件时,单位成本将平均下降2.25元.
根据样本资料获得的回归方程又称为经验方程,如果计算出观察值y的估计值,并进一步求出残差y-,就可以观察回归方程对总体方程拟合的优良程度。对于某一特定的自变量x而言,观察值y同其估计值是有一定差别的,比如,当产量为5万件时,实际单位成本为48元,而其估计值为47.60元,两者相差0.4元,但全部残差项之和等于零(见表9-8),这说明估计值平均来说是无偏的.事实上,最小平方估计量还满足下式
Σ(y—)=0
即
这里,表示估计值的平均值,即
从理论上讲,最小平方法具有优良特性,因为参数A、B 的最小平方估计量、是最优的线性无偏估计量,这一性质通常称为“高斯—马尔科夫定理”,这也是最小平方法获得广泛应用的主要原因。
此外,如果记随机误差项e的方差为σ2,它也是未知的总体参数,其无偏估计量为
(式9。22)
上式中,称为剩余离差平方和或残差平方和,n-2为自由度。
三、离差分析
对于某一个观察值,其离差大小可通过观察值与全部观察值的均值之差-表示出来,-又可进一步分解为-和-两部分,即
-=(-)+(-)
可以证明,当变量X和Y之间线性相关时,还进一步存在下述等式关系
S(—)2=S(-)2+S(-)2
通常记
T=S(—)2
R=S(—)2
分别称T、R和为总离差平方和、回归离差平方和和剩余离差平方和.总离差平方和反映了样本中全部数据的总波动程度;回归离差平方和反映了回归估计值自身的离散程度,它是由于回归方程及自变量x取值不同所造成的,是可以解释的差别;剩余离差平方和是回归拟合后所剩下的部分,是不能解释的变差,故又称为残差平方和.
显然,T中R的比重愈大,或者的比重愈小,则说明线性回归拟合愈好,反之,拟合就愈差。由此可以建立下述指标
r2= (式9。23)
称r2为样本相关程度的判定系数,r=为样本相关系数.由此就可直观地看出r2和r的特性:
(1)r21或—1r+1
(2)|r|愈接近于1,相关程度愈强;|r|愈接近于0,相关程度愈弱.
(3)r取正值时表明正相关,r取负值时表明负相关.
(4)r只能表明总体是否可能存在线性相关,当|r|很小甚至接近于0时,只能说明总体可能不存在线性相关,但是否存在非线性相关还需进一步判定。
从计算角度看,上述几种离差还可表示为
T=S(—)2=
R=S(-)2=b2S(-)2=b2[]
=T-R
对于例9。3,有
T==22053-×(467)2=244.10
R= b2[]=(—2。25)2×[336-×(54)2]=224.78
=T—R=244。1-224。78=19.32
计算结果说明:单位成本的总离差平方和为244。10,其中由于产量变化所造成的为224。78,占92.09%,由于产量以外的所有因素共同造成的为19。55,占8.01%。据此计算的相关系数为
r===0。96
四、统计推断
依据样本数据得到的经验回归方程,是否能够较好地拟合了总体的实际情况,必须通过统计检验加以判断。
可以证明:当变量Y服从正态分布时,从中随机抽取样本(x,y),回归系数A和B的最小平方估计值和也服从正态分布,其平均值分别为
=A (式9.24)
=B (式9。25)
方差分别为
(式9。26)
(式9.27)
于是,就可建立两个标准正态统计量
(式9。28)
(式9.29)
并且,和的计算式中一般未知,但其无偏估计量为
据此对A和B进行统计假设检验的步骤如下(仍以例9.3的资料):
(1)检验A
第一步:建立统计假设
H0:A=0
H1:A¹0
第二步:计算z统计量
由于=2.415
=1.828
=1。352
因此,检验统计量为
==43.528
第三步:确定显著水平,做出判断
若设=5%,经查表得=1。96〈z=43。528,拒绝零假设,即认为回归系数A显著的不为零。
(2)检验B
同理,可对回归系数B进行检验。若统计假设为
H0:B=0
H1:B¹0
此时
=0。054
=0。233
检验统计量==-9.657
由于=1.96<|z|=9。657,拒绝零假设,即认为回归系数B也显著的不等于零,说明单位成本同产量之间存在显著的线性相关关系。
与前面的讨论类似,也可对A和B进行单边检验以及A和B是否显著的与某一确定值相同或不相同的检验。但通常进行的是对A=0和B=0的检验。对A=0的检验是考察回归直线是否通过坐标原点;由于B表示X变化一个单位时对Y的影响程度,因此对B=0的检验实际是考察这种程度是否为零,即是否存在线性相关关系。
另外,通过最小平方法获得的和只是A和B的点估计量,在此基础上可进一步给出它们的区间估计。
当置信度为1—α时,A和B的置信区间分别为
—£ A £+ (式9.30)
-£ A £+ (式9。31)
这里
= (式9.32)
= (式9.33)
对于例9.3,当置信概率为95%时
==1.96×1.352=2。65
==1。96×0.233=0.46
于是可得A和B的置信区间分别为
58.85-2.65£ A £58.85+2。65
即56。20£ A £61。50
-2.55-0。46£ B £—2。55+0。46
即—3。01£ B £2.09
五、回归预测
拟合的回归方程及其参数通过检验后,经常要应用它去预测,显然,给定x=x0时,Y的点预测量为
(式9。34)
Y的置信度为1—的区间预测量为
—£ Y £+ (式9。35)
这里
= (式9.36)
(式9。37)
接上面的例子,当产量为10万件时,单位成本的点预测值为
=58.85—2。25´10=36.35(元)
由于
=3.807
==1。951
当产量为10万件,置信度为95%时,由于
==1。96×1.951=3。82
于是可得单位成本的预测区间为
-£ Y £+
36。35—3.82£ Y £36.35+3.82
即32。53元£ Y £40.17元
必须指出的是,给定的x0如果在样本(x1,x2,…,xn)的最小值至最大值之间取值,预测过程称为内插预测,否则,称为外推预测。进行外推预测时,误差一般较大,这是由两方面原因引起的:一是x0远离,二是回归方程通过检验后,虽然能代表总体的线性相关关系,但这种关系只能在样本范围内成立,在其之外就有可能出错误,并且,随着情况的变化,原样本也可能不再能反映总体的现状,这样,预测的效果就不好甚至失败。
第三节 多元线性回归与相关分析
一、多元线性回归分析
简单线性回归与相关分析是对客观现象之间的关系进行高度简化的结果,但在实际问题中,影响因变量的因素往往不只一个,而是多个。比如,产品的成本不仅取决于该产品的生产量,而且也与原材料价格、技术水平、管理水平等因素有关;再如,影响农作物收获量的因素,除施肥量外,还有种子、气候条件、耕作技术等因素。多元线性回归与相关所研究的就是三个或三个以上的变量之间的数量关系问题.
总体的多元线性回归方程为
Y=A+B1X1+B2X2+…+BkXk+e (式9。38)
总体回归方程一般未知,需要通过样本去估计。设估计方程为
=+b1x1+b2x2+…+bkxk (式9.39)
上式中,、b1、b2、…、bk称为回归系数,其中,bi(i=1,2,…,k)又称为偏回归系数,它表示当其它自变量均为零时,xi每变化一个单位对因变量影响的数值。
设样本为(x1,x2,…,xk,y),利用最小平方法可估计出回归方程中的参数,即要求
=Σ(y-)2=Σ[y –(+b1x1+b2x2+…+bkxk)]2=最小值
据此可得下列联立标准方程
Σy=n+b1Σx1+b2Σx2+…+bkΣxk
Σx1y= Σx1+b1Σx12+b2Σx1x2+…+bkΣx1xk
Σx2y= Σx2+b1Σx1x2+b2Σx22+…+bkΣx2xk
M
Σxky= Σxk+b1Σx1xk+b2Σx2xk+…+bkΣxk2
当k=2时,标准方程为变为
Σy=n+b1Σx1+b2Σx2
Σx1y= Σx1+b1Σx12+b2Σx1x2
Σx2y= Σx2+b1Σx1x2+b2Σx22
解方程,可得
(式9。40)
(式9。41)
== (式9。42)
为计算方便,上述各因子项还可表示为
Σ()2=Σx12 -(Σx1)2 (式9.43)
Σ()2=Σx22 —(Σx2)2 (式9.44)
Σ()()=Σx1x2 —Σx1Σx2 (式9.45)
Σ()2=Σy2 -(Σy)2 (式9.46)
Σ()()=Σx1y -Σx1Σy (式9.47)
Σ()()=Σx2y —Σx2Σy (式9。48)
可以证明,最小平方估计量、b1、b2、…、bk是总体参数A、B1、B2、…、Bk的最优线性无偏估计量。
例9.4 为研究某商品的需求量、价格、消费者收入三者之间的关系,经调查得如表9-9所示资料:
表9-9 某商品的需求量、价格及消费者收入资料
编号
需求量(件)
收入(百元)
价格(元)
1
10
15
3
2
8
10
5
3
8
18
4
4
7
10
3
5
4
8
6
6
6
10
5
7
10
19
3
8
11
16
2
9
10
18
1
10
5
9
7
根据上表资料,可得如表9—10的回归计算表:
据表中数据,如果设需求量(y)与收入(x1)及价格(x2)之间的回归方程为:
=+b1x1+b2x2
可通过最小平方法求出、b1和b2,经计算可得:
Σ()2=Σx12 -(Σx1)2=1935—´1332=166。1
Σ()2=Σx22 —(Σx2)2=183—´392=30。9
表9—10 回归数据计算表
编
号
需
求
量(件)y
收
入
(百
元)
x1
价
格(元)
x2
y2
x12
x22
x1x2
x1y
x2y
1
10
15
3
100
225
9
45
150
30
2
8
10
5
64
100
25
50
80
40
3
8
18
4
64
324
16
72
144
32
4
7
10
3
49
100
9
30
70
21
5
4
8
6
16
64
36
48
32
24
6
6
10
5
36
100
25
50
60
30
7
10
19
3
100
361
9
57
190
30
8
11
16
2
121
256
4
32
176
22
9
10
18
1
100
324
1
18
180
10
10
5
9
7
25
81
49
63
45
35
合计
79
133
39
675
1935
183
465
1127
274
Σ()()=Σx1x2 -Σx1Σx2=456—´133´39=-53。7
Σ()2=Σy2 -(Σy)2=675-´792=50.9
Σ()()=Σx1y -Σx1Σy=1127—´133´79=76.3
Σ()()=Σx2y -Σx2Σy=274—´39´79=—34。1
于是可得
=0.234
=-0.697
==—0.234´-(—0.697)´=7.506
从而可得经验方程
=+b1x1+b2x2=7。506+0。234x1-0.697x2
回归方程表明:在价格不变情况下,消费者收入增加1百元时,对该商品的需求平均上升0.234件;在消费者收入不变情况下,价格每上涨1元时,对该商品的需求平均下降0.697件.
从数学角度看,回归方程=7.506+0。234x1—0.697x2是一个以为纵坐标轴、x1和x2为横坐标轴的回归平面。
此外,回归方程Y=A+B1X1+B2X2+…+BkXk+e中的随机误差项e的方差σ2也是未知的,其无偏估计量为
上式中,n-k—1为自由度.从这里可以看出,样本容量n必须大于或等于k+2,即n≥K+2,否则就无法估计σ2.事实上,实践中进行回归分析时,样本观察值数目要比
展开阅读全文