资源描述
‘、第五章 大数定律与中心极限定理
第一节 大数定律
在第一章中我们已经指出,人们经过长期实践认识到,虽然个别随机事件在某次试验中可能发生也可能不发生,但是在大量重复试验中却呈现明显的规律性,即随着试验次数的增大,一个随机事件发生的频率在某一固定值附近摆动.这就是所谓的频率具有稳定性.同时,人们通过实践发现大量测量值的算术平均值也具有稳定性.而这些稳定性如何从理论上给以证明就是本节介绍的大数定律所要回答的问题.
在引入大数定律之前,我们先证一个重要的不等式——契比雪夫(Chebyshev)不等式.
设随机变量X存在有限方差D(X),则有对任意ε>0,
P{|X-E(X)|≥ε}≤. (5.1)
证 如果X是连续型随机变量,设X的概率密度为f(x),则有
P{|X-E(X)|≥ε}=
≤
请读者自己证明X是离散型随机变量的情况.
契比雪夫不等式也可表示成
P{|X-E(X)|<ε}≥1-. (5.2)
这个不等式给出了在随机变量X的分布未知的情况下事件{|X-E(X)|<ε}的概率的下限估计,例如,在契比雪夫不等式中,令ε=3,4分别可得到
P{|X-E(X)|<3}≥0.8889,
P{|X-E(X)|<4}≥0.9375.
例5.1 设X是掷一颗骰子所出现的点数,若给定ε=1,2,实际计算P{|X-E(X)|≥ε},并验证契比雪夫不等式成立.
解 因为X的概率函数是P{X=k}=1/6(k=1,2,…,6),所以
E(X)=7/2, D(X)=35/12,
P{|X-7/2|≥1=P{X=1}+P{X=2}+P{X=5}+P{X=6}=2/3;
P{|X-7/2|}≥2}=P{X=1}+P{X=6}=1/3.
ε=1: =35/12>2/3,
ε=2:=1/4×35/12=35/48>1/3.
可见契比雪夫不等式成立.
例5.2 设电站供电网有10000盏电灯,夜晚每一盏灯开灯的概率都是0.7,而假定开、关时间彼此独立,估计夜晚同时开着的灯数在6800与7200之间的概率.
解 设X表示在夜晚同时开着的灯的数目,它服从参数为n=10000,p=0.7的二项分布.若要准确计算,应该用贝努里公式:
P{6800<X<7200}=.
如果用契比雪夫不等式估计:
E(X)=np=10000×0.7=7000,
D(X)=npq=10000×0.7×0.3=2100,
P{6800<X<7200}=P{|X-7000|<200}≥1-≈0.95.
可见,虽然有10000盏灯,但是只要有供应7200盏灯的电力就能够以相当大的概率保证够用.事实上,契比雪夫不等式的估计只说明概率大于0.95,后面将具体求出这个概率约为0.99999.契比雪夫不等式在理论上具有重大意义,但估计的精确度不高.
契比雪夫不等式作为一个理论工具,在大数定律证明中,可使证明非常简洁.
定义5.1 设Y1,Y2,…,Yn,…是一个随机变量序列,a是一个常数,若对于任意正数ε有
,
则称序列Y1,Y2,…,Yn,…依概率收敛于a,记为YnPa.
定理5.1(契比雪夫(Chebyshev)大数定律) 设X1,X2,…是相互独立的随机变量序列,各有数学期望E(X1),E(X2),…及方差D(X1),D(X2),…,并且对于所有i=1,2,…都有D(Xi)<l,其中l是与i无关的常数,则对任给ε>0,有
. (5.3)
证因X1,X2,…相互独立,所以
.
又因
由(5.2)式,对于任意ε>0,有
,
但是任何事件的概率都不超过1,即
,
因此
.
契比雪夫大数定律说明:在定理的条件下,当n充分大时,n个独立随机变量的平均数这个随机变量的离散程度是很小的.这意味,经过算术平均以后得到的随机变量将比较密的聚集在它的数学期望的附近,它与数学期望之差依概率收敛到0.
定理5.2(契比雪夫大数定律的特殊情况) 设随机变量X1,X2,…,Xn,…相互独立,且具有相同的数学期望和方差:E(Xk)=μ,D(Xk)=σ2(k=1,2,…).作前n个随机变量的算术平均则对于任意正数ε有
. (5.4)
定理5.3(贝努里(Bernoulli)大数定律) 设nA是n次独立重复试验中事件A发生的次数.p是事件A在每次试验中发生的概率,则对于任意正数ε>0,有
, (5.5)
或 .
证 引入随机变量
Xk=,
显然 nA=.
由于Xk只依赖于第k次试验,而各次试验是独立的.于是X1,X2,…,是相互独立的;又由于Xk服从(0-1)分布,故有
E(Xk)=p, D(Xk)=p(1-p), k=1,2,….
由定理5.2有
,
即 .
贝努里大数定律告诉我们,事件A发生的频率依概率收敛于事件A发生的概率p,因此,本定律从理论上证明了大量重复独立试验中,事件A发生的频率具有稳定性,正因为这种稳定性,概率的概念才有实际意义.贝努里大数定律还提供了通过试验来确定事件的概率的方法,即既然频率与概率p有较大偏差的可能性很小,于是我们就可以通过做试验确定某事件发生的频率,并把它作为相应概率的估计.因此,在实际应用中,如果试验的次数很大时,就可以用事件发生的频率代替事件发生的概率.
定理5.2中要求随机变量Xk(k=1,2,…,n)的方差存在.但在随机变量服从同一分布的场合,并不需要这一要求,我们有以下定理.
定理5.4(辛钦(Khinchin)大数定律)设随机变量X1,X2,…,Xn,…相互独立,服从同一分布,且具有数学期望E(Xk)=μ (k=1,2,…),则对于任意正数ε,有
. (5.6)
显然,贝努里大数定律是辛钦大数定律的特殊情况,辛钦大数定律在实际中应用很广泛.
这一定律使算术平均值的法则有了理论根据.如要测定某一物理量a,在不变的条件下重复测量n次,得观测值X1,X2,…,Xn,求得实测值的算术平均值,根据此定理,当n足够大时,取作为a的近似值,可以认为所发生的误差是很小的,所以实用上往往用某物体的某一指标值的一系列实测值的算术平均值来作为该指标值的近似值.
第二节 中心极限定理
在客观实际中有许多随机变量,它们是由大量相互独立的偶然因素的综合影响所形成的,而每一个因素在总的影响中所起的作用是很小的,但总起来,却对总和有显著影响,这种随机变量往往近似地服从正态分布,这种现象就是中心极限定理的客观背景.概率论中有关论证独立随机变量的和的极限分布是正态分布的一系列定理称为中心极限定理(Central limit theorem),现介绍几个常用的中心极限定理.
定理5.5(独立同分布的中心极限定理) 设随机变量X1,X2,…,Xn,…相互独立,服从同一分布,且具有数学期望和方差E(Xk)=μ,D(Xk)=σ2≠0(k=1,2,…).则随机变量
的分布函数Fn(x)对于任意x满足
(5.7)
从定理5.5的结论可知,当n充分大时,近似地有
Yn=~N(0,1).
或者说,当n充分大时,近似地有
(5.8)
如果用X1,X2,…,Xn表示相互独立的各随机因素.假定它们都服从相同的分布(不论服从什么分布),且都有有限的期望与方差(每个因素的影响有一定限度).则(5.8)式说明,作为总和这个随机变量,当n充分大时,便近似地服从正态分布.
例5.3 一个螺丝钉重量是一个随机变量,期望值是1两,标准差是0.1两.求一盒(100个)同型号螺丝钉的重量超过10.2斤的概率.
解 设一盒重量为X,盒中第i个螺丝钉的重量为Xi(i=1,2,…,100).X1,X2,…,X100相互独立,E(Xi)=1, =0.1,则有
X=,且E(X)=100·E(Xi)=100(两),=1(两).
根据定理5.5,有
P{X>102}=
≈1-Φ(2)=1-0.977250=0.022750.
例5.4 对敌人的防御地进行100次轰炸,每次轰炸命中目标的炸弹数目是一个随机变量,其期望值是2,方差是1.69.求在100次轰炸中有180颗到220颗炸弹命中目标的概率.
解令第i次轰炸命中目标的炸弹数为Xi,100次轰炸中命中目标炸弹数X=,应用定理5.5,X渐近服从正态分布,期望值为200,方差为169,标准差为13.所以
P{180≤X≤220}=P{|X-200|≤20}=
≈2Φ(1.54)-1=0.87644.
定理5.6(李雅普诺夫(Liapunov)定理) 设随机变量X1,X2,…相互独立,它们具有数学期望和方差:
E(Xk)=μk, D(Xk)=σk2≠0 (k=1,2,…).
记,若存在正数δ,使得当n→∞时,
,
则随机变量
Zn=
的分布函数Fn(x)对于任意x,满足
. (5.9)
这个定理说明,随机变量
Zn=
当n很大时,近似地服从正态分布N(0,1).因此,当n很大时,
近似地服从正态分布.这表明无论随机变量Xk(k=1,2,…)具有怎样的分布,只要满足定理条件,则它们的和当n很大时,就近似地服从正态分布.而在许多实际问题中,所考虑的随机变量往往可以表示为多个独立的随机变量之和,因而它们常常近似服从正态分布.这就是为什么正态随机变量在概率论与数理统计中占有重要地位的主要原因.
在数理统计中我们将看到,中心极限定理是大样本统计推断的理论基础.
下面介绍另一个中心极限定理.
定理5.7 设随机变量X服从参数为n,p (0<p<1)的二项分布,则
(1) (拉普拉斯(Laplace)定理) 局部极限定理:当n→∞时
P{X=k}≈, (5.10)
其中p+q=1,k=0,1,2,…,n,.
(2) (德莫佛-拉普拉斯(De MoivreLaplace)定理) 积分极限定理:对于任意的x,恒有
. (5.11)
这个定理表明,二项分布以正态分布为极限.当n充分大时,我们可以利用上两式来计算二项分布的概率.
例5.5 10部机器独立工作,每部停机的概率为0.2,求3部机器同时停机的概率.
解 10部机器中同时停机的数目X服从二项分布,n=10,p=0.2,np=2,≈1.265.
(1) 直接计算:P{X=3}=×0.23×0.87≈0.2013;
(2) 若用局部极限定理近似计算:
P{X=3}==0.2308.
(2)的计算结果与(1)相差较大,这是由于n不够大.
例5.6 应用定理5.7计算§5.1中例5.2的概率.
解 np=7000,≈45.83.
P{6800<X<7200}=P{|X-7000|<200}
=
=0.99999.
例5.7 产品为废品的概率为p=0.005,求10000件产品中废品数不大于70的概率.
解 10000件产品中的废品数X服从二项分布,n=10000,p=0.005,np=50,≈7.053.
P{X≤70}= =0.9977.
正态分布和泊松分布虽然都是二项分布的极限分布,但后者以n→∞,同时p→0,np→λ为条件,而前者则只要求n→∞这一条件.一般说来,对于n很大,p(或q)很小的二项分布(np≤5)用正态分布来近似计算不如用泊松分布计算精确.
例5.8 每颗炮弹命中飞机的概率为0.01,求500发炮弹中命中5发的概率.
解 500发炮弹中命中飞机的炮弹数目X服从二项分布,n=500,p=0.01,np=5,≈2.2.下面用三种方法计算并加以比较:
(1) 用二项分布公式计算:
P{X=5}=×0.015×0.99495=0.17635.
(2) 用泊松公式计算,直接查表可得:
np=λ=5,k=5,P5(5)≈0.175467.
(3) 用拉普拉斯局部极限定理计算:
P{X=5}=≈0.1793.
可见后者不如前者精确.
小 结
本章介绍了契比雪夫不等式、四个大数定律和三个中心极限定理.
契比雪夫不等式给出了随机变量X的分布未知,只知道E(X)和D(X)的情况下,对事件{|X-E(X)|≤ε}概率的下限估计.
人们在长期实践中认识到频率具有稳定性,即当试验次数增大时,频率稳定在一个数的附近.这一事实显示了可以用一个数来表征事件发生的可能性的大小.这使人们认识到概率是客观存在的,进而由频率的三条性质的启发和抽象给出了概率的定义,因而频率的稳定性是概率定义的客观基础.贝努里大数定律则以严密的数学形式论证了频率的稳定性.
中心极限定理表明,在相当一般的条件下,当独立随机变量的个数增加时,其和的分布趋于正态分布.这一事实阐明了正态分布的重要性.中心极限定理也揭示了为什么在实际应用中会经常遇到正态分布,也就是揭示了产生正态分布变量的源泉.另一方面,它提供了独立同分布随机变量之和(其中Xk的方差存在)的近似分布,只要和式中加项的个数充分大,就可以不必考虑和式中的随机变量服从什么分布,都可以用正态分布来近似,这在应用上是有效和重要的.
中心极限定理的内容包含极限,因而称它为极限定理是很自然的.又由于它在统计中的重要性,称它为中心极限定理,这是Polya在1920年取的名字.
本章要求读者理解大数定律和中心极限定理的概率意义,并要求会使用中心极限定理估算有关事件的概率.
重要术语及主题
契比雪夫不等式 依概率收敛
契比雪夫大数定律及特殊情况 贝努里大数定律
辛钦大数定律 独立同分布中心极限定律
李雅普诺夫中心极限定理 德莫佛拉普拉斯中心极限定理.
习 题 五
1. 一颗骰子连续掷4次,点数总和记为X.估计P{10<X<18}.
2. 假设一条生产线生产的产品合格率是0.8.要使一批产品的合格率达到在76%与84%之间的概率不小于90%,问这批产品至少要生产多少件?
3. 某车间有同型号机床200部,每部机床开动的概率为0.7,假定各机床开动与否互不影响,开动时每部机床消耗电能15个单位.问至少供应多少单位电能才可以95%的概率保证不致因供电不足而影响生产.
4. 一加法器同时收到20个噪声电压Vk(k=1,2,…,20),设它们是相互独立的随机变量,且都在区间(0,10)上服从均匀分布.记V=,求P{V>105}的近似值.
5. 有一批建筑房屋用的木柱,其中80%的长度不小于3m.现从这批木柱中随机地取出100根,问其中至少有30根短于3m的概率是多少?
6. 某药厂断言,该厂生产的某种药品对于医治一种疑难的血液病的治愈率为0.8.医院检验员任意抽查100个服用此药品的病人,如果其中多于75人治愈,就接受这一断言,否则就拒绝这一断言.
(1) 若实际上此药品对这种疾病的治愈率是0.8,问接受这一断言的概率是多少?
(2) 若实际上此药品对这种疾病的治愈率是0.7,问接受这一断言的概率是多少?
7. 用Laplace中心极限定理近似计算从一批废品率为0.05的产品中,任取1000件,其中有20件废品的概率.
8. 设有30个电子器件.它们的使用寿命T1,…,T30服从参数λ=0.1[单位:(小时)-1]的指数分布,其使用情况是第一个损坏第二个立即使用,以此类推.令T为30个器件使用的总计时间,求T超过350小时的概率.
9. 上题中的电子器件若每件为a元,那么在年计划中一年至少需多少元才能以95%的概率保证够用(假定一年有306个工作日,每个工作日为8小时).
10. 对于一个学生而言,来参加家长会的家长人数是一个随机变量,设一个学生无家长、1名家长、2名家长来参加会议的概率分别为0.05,0.8,0.15.若学校共有400名学生,设各学生参加会议的家长数相与独立,且服从同一分布.
(1) 求参加会议的家长数X超过450的概率?
(2) 求有1名家长来参加会议的学生数不多于340的概率.
11. 设男孩出生率为0.515,求在10000个新生婴儿中女孩不少于男孩的概率?
12. 设有1000个人独立行动,每个人能够按时进入掩蔽体的概率为0.9.以95%概率估计,在一次行动中:
(1)至少有多少个人能够进入?
(2)至多有多少人能够进入?
13. 在一定保险公司里有10000人参加保险,每人每年付12元保险费,在一年内一个人死亡的概率为0.006,死亡者其家属可向保险公司领得1000元赔偿费.求:
(1) 保险公司没有利润的概率为多大;
(2) 保险公司一年的利润不少于60000元的概率为多大?
14. 设随机变量X和Y的数学期望都是2,方差分别为1和4,而相关系数为0.5试根据契比雪夫不等式给出P{|X-Y|≥6}的估计. (2001研考)
15. 某保险公司多年统计资料表明,在索赔户中,被盗索赔户占20%,以X表示在随机抽查的100个索赔户中,因被盗向保险公司索赔的户数.
(1) 写出X的概率分布;
(2) 利用中心极限定理,求被盗索赔户不少于14户且不多于30户的概率近似值.
(1988研考)
16. 一生产线生产的产品成箱包装,每箱的重量是随机的.假设每箱平均重50千克,标准差为5千克,若用最大载重量为5吨的汽车承运,试利用中心极限定理说明每辆车最多可以装多少箱,才能保障不超载的概率大于0.977. (2001研考)
10
展开阅读全文