资源描述
Ratio and Regression Estimator
引例:1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30个社区(commune)的样本,截至1802年9月23日总共有2037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33。把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。
一、为什么要使用比率估计/回归估计
利用总体的辅助信息提高估计的精度。辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。第二,的抽样分布较的抽样分布变动性要小得多。第三,辅助指标的总体总量或总体均值已知。比率估计、回归估计需要有足够的样本量才能保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚趋于0。
简单地想要估计一个比率:假定总体由面积不同农业用地构成,地谷物的产量,地的面积,B=每亩谷物的平均产量。
想要估计一个总体总数,但总体大小N是未知的。但是我们知道,于是可以通过来估计N,由此我们可以使用不同于总数N的方法而是采用辅助变量来进行测量。
要估计渔网中长度长于12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能使用。能称量渔网中鱼的总重量。鱼的长度与其重量相关。
调整来自样本的估计量以便它们反映人口统计学的总量。在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。
以教学为职业的总量估计:
调整后的总量估计:
比率估计量被用来对无回答进行调整。设抽取一个行业的样本:令为行业花费在健康保险上的金额,为行业的雇员数。假定对总体中的每个行业均已知.我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数乘以比率 。
二、Ratio Estimator
在SRS条件下,辅助指标,其总体均值(总量)已知,则有:
例1,对以下假设总体(N=6),用简单随机抽样抽取的样本,比较简单随机抽样比估计及简单估计的性质。
序号
1
2
3
4
5
6
平均值
0
1
3
5
8
10
4.5
1
3
11
18
29
46
18
样本
y
y1
x
x1
简单估计
比率估计
1
1,2
1
3
0
1
2
18
2
1,3
1
11
0
3
6
18
3
1,4
1
18
0
5
9.5
17.1
4
1,5
1
29
0
8
15
16.875
5
1,6
1
46
0
10
23.5
21.15
6
2,3
3
11
1
3
7
15.75
7
2,4
3
18
1
5
10.5
15.75
8
2,5
3
29
1
8
16
16
9
2,6
3
46
1
10
24.5
20.04545
10
3,4
11
18
3
5
14.5
16.3125
11
3,5
11
29
3
8
20
16.36364
12
3,6
11
46
3
10
28.5
19.73077
13
4,5
18
29
5
8
23.5
16.26923
14
4,6
18
46
5
10
32
19.2
15
5,6
29
46
8
10
37.5
18.75
总共抽取个样本,简单估计为:,比率估计:。
;
;
(偏倚程度);
评价:简单估计是无偏的,而比估计是有偏的。简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多。因此对这个总体,比估计比简单估计的效率高。
三、比率估计的性质
偏倚量会小,如果:样本量很大;抽样比很大;很大;很小;相关系数接近于1。
比率估计的近似方差:
;
四、比率估计的效率
1、与简单估计的比较
简单估计量无偏,而比率估计量渐近无偏。因此这里只比较当n比较大的情形。
比率估计量优于简单估计量的条件是:
(正高度相关)
2、比率估计成为最优线性无偏估计的条件
(1)与的关系是过原点的直线。(2)对这条直线的方差与成比例。则比率估计是最优线性无偏估计(BLUE)。
例2,某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨,从2860艘船舶中抽取了一个的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如下表(单位:吨),要推算该县船舶调查月完成的货运量。
1
780
100
6
2170
120
2
1500
50
7
1823
150
3
1005
50
8
1450
80
4
376
10
9
158
20
5
600
20
10
1370
50
该县船舶在调查月完成货运量的比率估计为:
;
用简单估计对货运量进行估计:
;
(注!实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚。)
四、分层随机抽样下的比率估计
1、separate ratio estimator
如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。
(h=1,2,…..L)
;
2.Combined Ratio estimator
分别比率估计量要求每一层的样本量都比较大,如果达不到这个要求,则它的偏倚可能比较大,这时使用联合比率估计量。
;
方差的比较:
如果每一层样本量都比较大,各层R相差较大,则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。
五、Regression Estimator
(比估计)
回归估计应用的两种情况:
1、事先确定
设的确定值为,是一常数,则: (1)
(2)
因为而又可以表示为的样本均值,后者的总体均值为故(2)式成立,其样本估计量:
(3)
性质:
A:是的无偏估计;B:是的无偏估计;
C:的最佳值是(总体回归系数)
2、由样本估计
此时:(大样本条件下)
残差方差:
3、分层抽样中的回归估计
(1)分别回归估计
若可以事先确定时,与都是无偏的,且
在时达到极小值,
若不能事先确定,,当较大时,
(2)联合回归估计
当事先设定时,(无偏)
当无法事先设定时,(渐近无偏)
其中,
例3,某市对中央直属单位和市属单位专业技术人员总数进行了分层随机调查,已有98年各层人员总数,135个中央直属单位有75650专业技术人员,1228个市属单位有315612专业技术人员。分别在两层中调查了15、20家单位,调查数据如下,试估计99年全市专业技术人员总数。
(1)按分别比率估计量估计
(2)按联合比率估计量估计
(3)按分别回归估计量估计,用样本回归系数估计b。
(4)按联合回归估计量估计
六、其他估计
如果调查时所用的辅助指标为目标量最近的普查结果,或者回归估计的回归系数接近于1,这时可以采用差值估计(无偏)。
辅助变量X与Y负相关,X和Y都为正值,使用乘积估计(有偏)。
八、比估计量与回归估计量的比较
大样本条件下回归估计优于简单估计和比率估计
已知:
样本量小时,回归估计偏差大于比率估计
实际中更多使用比估计的原因:
n
n=12 1.15
n=8 1.36
n=6 1.51
九、三种估计量之间的关系
1、对于简单随机抽样,简单估计、差值估计是无偏的,比率估计、回归估计是渐近无偏的。
2、小样本条件下回归估计偏差大于比率估计和简单估计。
3、比估计在相关系数大于/2时优于简单估计。
4、当样本量较小时,不能忽略比率估计及回归估计的偏倚。
5、当辅助变量为调查指标的最近的普查值,可以考虑使用差值估计,尽管差值估计的方差可能比回归估计要大,但由于它是无偏估计,因此,总的均方误差可能比回归估计的小。
展开阅读全文