1、统计学统计学STATISTICS统计学单薇主编统计学单薇主编 抽样和抽样分布抽样和抽样分布统计学统计学STATISTICS1-2学习目标学习目标理解随机试验和随机事件的概念,了解事件之间的关系;理解概率的定义,掌握概率的运算法则;理解随机变量和概率分布的概念;掌握二项分布的主要特征及其应用;掌握正态分布的主要特征及其应用;了解随机抽样方法;了解抽样分布的形成过程,理解抽样分布的意义,掌握抽样分布的性质;理解大数定律和中心极限定理。统计学统计学STATISTICS1-3目录目录抽样调查概述抽样估计的原理抽样分布SPSS在概率论中的应用统计学统计学STATISTICS5.1 抽样调查概述抽样调查概
2、述统计学统计学STATISTICS1-5抽样调查抽样调查:按照一定的规则从总体中取出一部分单元组成一个样本,并收集样本的数据资料的过程,简称为抽样抽样。样本:样本:按照一定的抽样规则从总体中抽取的一部分单位组成的集合。根据抽样的原则不同,抽样方法有随机抽随机抽样样和非随机抽样非随机抽样两种。随机抽样:随机抽样:随机抽样:随机抽样:根据一个已知的概率来抽取样本根据一个已知的概率来抽取样本单位,也称单位,也称随机抽样随机抽样随机抽样随机抽样非随机抽样:非随机抽样:非随机抽样:非随机抽样:研究人员有意识地选取样本单研究人员有意识地选取样本单位,样本单位的选取不是随机的。位,样本单位的选取不是随机的。
3、统计学统计学STATISTICS1-6随机抽样的特点特点:1.按一定的概率以随机原则抽取样本;按一定的概率以随机原则抽取样本;抽取样本时,使每个单位都有一定的机会被抽中。抽取样本时,使每个单位都有一定的机会被抽中。2.每每个个单单位位被被抽抽中中的的概概率率是是已已知知的的,或或是是可可以以计算出来的计算出来的;3.当当用用样样本本对对总总体体目目标标量量进进行行估估计计时时,要要考考虑虑到每个样本单位被抽中的概率。到每个样本单位被抽中的概率。统计学统计学STATISTICS1-75.1.1 简单随机抽样简单随机抽样简单随机抽样:简单随机抽样:从总体N个单位中抽取n个单位作为样本时,使得每一个
4、总体单位都有相同的机会(概率)被抽中也称也称纯随机抽样纯随机抽样纯随机抽样纯随机抽样是抽样调查中是抽样调查中应用最多应用最多应用最多应用最多的方法之一的方法之一也是也是最基本最基本最基本最基本的抽样方法之一的抽样方法之一统计学统计学STATISTICS1-8简单随机抽样抽取元素的具体方法有:重复抽样重复抽样重复抽样重复抽样:从总体中抽取一个单位并加以计:从总体中抽取一个单位并加以计量后,把这个单位放回到总体中再抽取第二个量后,把这个单位放回到总体中再抽取第二个单位,直到抽取单位,直到抽取n n个单位为止;个单位为止;不重复抽样不重复抽样不重复抽样不重复抽样:一个单位被抽中后不再放回总:一个单位
5、被抽中后不再放回总体,然后再从所剩下的单位中抽取第二个单位,体,然后再从所剩下的单位中抽取第二个单位,直到抽出直到抽出n n个单位为止。个单位为止。统计学统计学STATISTICS1-9特点:特点:简简单单、直直观观,在在抽抽样样框框完完整整时时,可可直直接接从从中中抽取样本;抽取样本;用样本统计量对目标量进行估计比较方便。用样本统计量对目标量进行估计比较方便。局限性:局限性:当当N N很大时,不易构造抽样框;很大时,不易构造抽样框;抽出的单位很分散,给实施调查增加了困难;抽出的单位很分散,给实施调查增加了困难;没有利用其他辅助信息以提高估计的效率。没有利用其他辅助信息以提高估计的效率。统计学
6、统计学STATISTICS1-105.1.2 分层抽样分层抽样分层抽样:分层抽样:在抽样之前先将总体的单位按某种特征或某种规则划分为若干层(类),然后从不同的层中独立、随机地抽取一定数量的单位组成一个样本,也称分类抽样分类抽样(stratified sampling)。在分层或分类时,应使层内各单位的差异尽可能小,而使层与层之间的差异尽可能大。统计学统计学STATISTICS1-11分层抽样的优点:优点:既既可可以以对对总总体体进进行行估估计计,也也可可以以对对各各层层的的子子总体进行估计;总体进行估计;抽样的组织和实施都比较方便;抽样的组织和实施都比较方便;分分层层抽抽样样的的样样本本分分布
7、布在在各各个个层层内内,从从而而使使样样本在总体中的分布比较均匀;本在总体中的分布比较均匀;估计的精度高。估计的精度高。统计学统计学STATISTICS1-125.1.3 系统抽样系统抽样 系统抽样:系统抽样:系统抽样:系统抽样:在抽样中先将总体各单位按某种顺序在抽样中先将总体各单位按某种顺序排列,并按某种规则在一定的范围内随机确定一排列,并按某种规则在一定的范围内随机确定一个起点,然后每隔一定的间隔抽取一个单位,直个起点,然后每隔一定的间隔抽取一个单位,直到抽取到抽取n n个单位为止,也称个单位为止,也称等距抽样等距抽样等距抽样等距抽样或或机械抽样机械抽样机械抽样机械抽样。从数字从数字1 1
8、到到k k之间随机抽取一个数字之间随机抽取一个数字r r作为初始单位,作为初始单位,然后依次取然后依次取r r+k k,r r+2+2k k,r r+(+(n n-1)-1)k k 优点:优点:优点:优点:简便易行;简便易行;系统抽样的样本在总体中的分布一般比较均匀,由此系统抽样的样本在总体中的分布一般比较均匀,由此抽样误差通常要小于简单随机抽样。抽样误差通常要小于简单随机抽样。缺点:缺点:缺点:缺点:对估计量方差的估计比较困难。对估计量方差的估计比较困难。统计学统计学STATISTICS1-135.1.4 整群抽样整群抽样整群抽样:整群抽样:调查时先将总体划分成若干群,然后再以群作为调查单位
9、从中抽取部分群,进而对抽中的各个群中所包含的所有个体单位进行调查和观察。特点:特点:抽样时只需群的抽样框,可简化工作量;抽样时只需群的抽样框,可简化工作量;调调查查的的地地点点相相对对集集中中,节节省省调调查查费费用用,方方便便调查的实施。调查的实施。缺点:缺点:估计的精度较差。统计学统计学STATISTICS5.2 抽样估计的原理抽样估计的原理统计学统计学STATISTICS1-15抽样估计抽样估计:在抽样调查的基础上,利用样本的数据资料计算样本指标,以样本特征值对总体特征值做出具有一定可靠程度的估计和判断。是由部分推断总体的一种认识方法,建立在是由部分推断总体的一种认识方法,建立在随机取样
10、的基础上,主要运用不确定的概率估随机取样的基础上,主要运用不确定的概率估计方法(分布理论、大数定律、中心极限定理计方法(分布理论、大数定律、中心极限定理和抽样分布理论),其误差可以事先计算并加和抽样分布理论),其误差可以事先计算并加以控制。以控制。其目的是用样本统计量来推断总体参数。其目的是用样本统计量来推断总体参数。统计学统计学STATISTICS1-16在简单随机重复抽样中,每次抽样都是独立的。如果从总体N个单元中抽取容量为n的样本,随机变量Xi表示第i次抽样的结果,则Xi服从在总体N个单元上均匀取值的多项分布,所以 为独立同分布随机变量序列X1,X2,Xn和的一个取值,其中 统计学统计学
11、STATISTICS1-17如果总体中具有性质的A单元的比率为,随机变量Yi=1表示第i次抽样取得的样本单元具有性质A,否则Yi=0,则Yi服从概率为的两点分布,所以np为独立同分布随机变量序列Y1,Y2,Yn和的一个取值,其中关于独立同分布随机变量和的概率分布,大数定律和中心极限定理给出了很好的解释。统计学统计学STATISTICS1-185.2.1 抽样估计的基本理论抽样估计的基本理论v概率与概率分布必然现象(确定性现象)必然现象(确定性现象)变化结果是事先可以确定的,一定的条件必然导致某一变化结果是事先可以确定的,一定的条件必然导致某一结果;结果;这种关系通常可以用公式或定律来表示。这种
12、关系通常可以用公式或定律来表示。随机现象(不确定现象)随机现象(不确定现象)在一定条件下可能发生也可能不发生的现象;在一定条件下可能发生也可能不发生的现象;个别观察的结果完全是偶然的、随机会而定;个别观察的结果完全是偶然的、随机会而定;大量观察的结果会呈现出某种规律性大量观察的结果会呈现出某种规律性 (随机性中寓含着规律性)(随机性中寓含着规律性)统计规律性统计规律性。十五的夜晚能看见月亮?十五的月亮比初十圆!统计学统计学STATISTICS1-191.随机试验随机试验严格意义上的随机试验满足三个条件满足三个条件:试验可以在系统条件下重复进行;试验可以在系统条件下重复进行;试验的所有可能结果是
13、明确可知的;试验的所有可能结果是明确可知的;每次试验前不能肯定哪一个结果会出现。每次试验前不能肯定哪一个结果会出现。广义的随机试验是指对随机现象的观察是指对随机现象的观察(或实验)(或实验)实际应用中多数试验不能同时满足上述条件,实际应用中多数试验不能同时满足上述条件,常常从广义角度来理解。常常从广义角度来理解。统计学统计学STATISTICS1-202.随机事件随机事件随机事件(简称简称事件):随机试验的某一个可能结果,常用大写英文字母A、B、来表示。基本事件(样本点):不可能再分成为两个基本事件(样本点):不可能再分成为两个或更多事件的事件。或更多事件的事件。复合事件:由简单事件组合而成的
14、事件。复合事件:由简单事件组合而成的事件。样本空间():基本事件的全体(全集)。统计学统计学STATISTICS1-21两个特例两个特例必然事件必然事件:在一定条件下,每次试验都必然发生的事件。只有样本空间只有样本空间 才是必然事件才是必然事件不可能事件不可能事件:在一定条件下,每次试验都必然不会发生的事件。不可能事件是一个空集(不可能事件是一个空集()统计学统计学STATISTICS1-223.随机事件的概率随机事件的概率概率:用来度量随机事件发生可能性大小的数值。必然事件的概率为必然事件的概率为1 1,表示为,表示为P P()=1)=1不可能事件发生的可能性是零,不可能事件发生的可能性是零
15、,P P()=0)=0随机事件随机事件A A的概率介于的概率介于0 0和和1 1之间,之间,0 0 P P(A A)1 1概率的三种定义,给出了确定随机事件概率的三条途经。统计学统计学STATISTICS1-23概率的古典定义概率的古典定义前提:古典概型定义(公式)【例】设有50件产品,其中有5件次品,现从这50件中任取2件,求抽到的两件产品均为合格品的概率是多少?抽到的两件产品均为次品的概率又是多少?统计学统计学STATISTICS1-24概率的统计定义概率的统计定义若在相同的条件下重复进行的n次试验中,事件A发生了m次,当试验次数 n 很大时,事件A发生频率m/n 稳定地在某一常数 p 上
16、下波动,而且这种波动的幅度一般会随着试验次数增加而缩小,则定义 p 为事件A发生的概率 当当n n相当大时,可用事件发生的频率相当大时,可用事件发生的频率m/nm/n作为其概作为其概率的一个近似值率的一个近似值计算概率的统计方法(频率计算概率的统计方法(频率方法)方法)统计学统计学STATISTICS1-25【例例】根据古典概率定义可算出,抛一枚质地均匀的硬币,出现正面与出现反面的概率都是0.5。历史上有很多人都曾经做过抛硬币试验。试验者试验者试验次数试验次数正面出现的频率正面出现的频率蒲丰蒲丰404040400.50690.5069K.K.皮尔逊皮尔逊12000120000.50160.50
17、16K.K.皮尔逊皮尔逊24000240000.50050.5005罗曼诺夫斯基罗曼诺夫斯基80640806400.49790.4979统计学统计学STATISTICS1-26【例例】某地区几年来新生儿性别的统计资料如下表所示,由此可判断该地区新生儿为男婴的概率是多少?观察年份观察年份新生儿数(个)新生儿数(个)男婴数(个)男婴数(个)男婴比例()男婴比例()20002000162416248278270.5090.50920012001120512056226220.5160.51620022002151215127747740.5120.51220032003140714077157150
18、.5080.508统计学统计学STATISTICS1-27主观概率主观概率有些随机事件发生的可能性,既不能通过等可能事件个数来计算,也不能根据大量重复试验的频率来近似。主观概率依据人们的主观判断而估计的随机事件发生的可能性大小。例如某经理认为新产品畅销的可能性是例如某经理认为新产品畅销的可能性是8080人们的经验、专业知识、对事件发生的众多条件或影响因素的分析等等,都是确定主观概率的依据。统计学统计学STATISTICS1-284.概率的性质概率的性质非负性:对任意事件A,有 P(A)0规范性:必然事件的概率为1,即:P()=1可加性:若A与B互斥,则 P(AB)=P(A)+P(B)上述三条基
19、本性质,也称为概率的三条公理。统计学统计学STATISTICS1-29概率的公理化定义概率的公理化定义 概率的以上三种定义,各有其特定的应用范围,概率的以上三种定义,各有其特定的应用范围,也存在局限性,都缺乏严密性也存在局限性,都缺乏严密性 古典定义要求试验的基本事件有限且具有等可能性古典定义要求试验的基本事件有限且具有等可能性 统计定义要求试验次数充分大,但试验次数究竟应该统计定义要求试验次数充分大,但试验次数究竟应该取多大、频率与概率有多么接近都没有确切说明取多大、频率与概率有多么接近都没有确切说明 主观概率的确定又具有主观随意性主观概率的确定又具有主观随意性 苏联数学家苏联数学家柯尔莫哥
20、洛夫柯尔莫哥洛夫于于19331933年提出了概率的年提出了概率的公理化定义公理化定义通过规定应具备的基本性质来定义概率通过规定应具备的基本性质来定义概率 公理化定义为概率论严谨的逻辑推理打下了坚实公理化定义为概率论严谨的逻辑推理打下了坚实的基础的基础统计学统计学STATISTICS1-305.条件概率条件概率条件概率:在某些附加条件下计算的概率在已知事件B已经发生的条件下A发生的条件概率P(A|B)条件概率的一般公式:其中其中 P P(B)B)0 0。乘法公式:P(AB)P(A)P(B|A)或 P(AB)P(B)P(A|B)统计学统计学STATISTICS1-31P(A|B)在B发生的所有可能
21、结果中AB发生的概率。即在样本空间中考虑的条件概率P(A|B),就变成在新的样本空间B中计算事件AB的概率问题了。一旦事件一旦事件B已发生已发生ABABBAB统计学统计学STATISTICS1-32【例例】某公司甲乙两厂生产同种产品。甲厂生产某公司甲乙两厂生产同种产品。甲厂生产400400件,其中一级品为件,其中一级品为280280件;乙厂生产件;乙厂生产600600件,件,其中一级品有其中一级品有360360件。若要从该厂的全部产品中件。若要从该厂的全部产品中任意抽取一件,试求:任意抽取一件,试求:已知抽出产品为一级品已知抽出产品为一级品的条件下该产品出自甲厂的概率;的条件下该产品出自甲厂的
22、概率;已知抽出产已知抽出产品出自甲厂的条件下该产品为一级品的概率。品出自甲厂的条件下该产品为一级品的概率。解:设解:设A A“甲厂产品甲厂产品”,B B“一级品一级品”,则:,则:P P(A A)0.40.4,P(B)P(B)0.640.64,P(AB)P(AB)0.280.28 所求概率为事件所求概率为事件B B发生条件下发生条件下A A发生的条件概率发生的条件概率 P P(A|BA|B)0.28/0.640.28/0.64所求概率为事件所求概率为事件A A发生条件下发生条件下B B发生的条件概率发生的条件概率 P P(B B|A A)0.28/0.40.28/0.4统计学统计学STATIS
23、TICS1-33【例】对例3-1中的问题(从这50件中任取2件产品,可以看成是分两次抽取,每次只抽取一件,不放回抽样)解:A1 1第一次抽到合格品 A2 2第二次抽到合格品 A1 1A2 2抽到两件产品均为合格品统计学统计学STATISTICS1-346.事件的独立性事件的独立性两个事件独立一个事件的发生与否并不影响另一个事件发一个事件的发生与否并不影响另一个事件发生的概率生的概率P P(A A|B B)P P(A A),或,或 P P(B B|A A)P P(B B)独立事件的乘法公式:P P(ABAB)P P(A A)P P(B B)推广到n个独立事件,有:P P(A A1 1A An n
24、)P P(A A1 1)P P(A A2 2)P P(A An n)统计学统计学STATISTICS1-357.随机变量随机变量随机变量表示随机试验结果的变量取值是随机的,事先不能确定取哪一个值取值是随机的,事先不能确定取哪一个值 一个取值对应随机试验的一个可能结果一个取值对应随机试验的一个可能结果用大写字母如用大写字母如X X、Y Y、Z Z.来表示,具体取值则来表示,具体取值则用相应的小写字母如用相应的小写字母如x x、y y、zz来表示来表示 根据取值特点的不同,可分为:离散型离散型随机变量随机变量取值可以一一列举取值可以一一列举连续型连续型随机变量随机变量取值不能一一列举取值不能一一列
25、举统计学统计学STATISTICS1-368.离散型随机变量的概率分布离散型随机变量的概率分布X的概率分布X的有限个可能取值为xi与其概率 pi(i=1,2,3,n)之间的对应关系概率分布具有如下两个基本性质:p pi i00,i i=1,2,=1,2,n n;统计学统计学STATISTICS1-37离散型概率分布的表示离散型概率分布的表示概率函数:概率函数:P P(X=xX=xi i)=p=pi i分布列:分布列:分布图:分布图:X X=x xi ix x1 1x x2 2x xn nP P(X X=x xi i)=)=p pi ip p1 1p p2 2p pn n统计学统计学STATIS
26、TICS1-38离散型随机变量的数字特征离散型随机变量的数字特征数学期望:方差:性质:统计学统计学STATISTICS1-39伯努利试验伯努利试验伯努利试验:每次试验有且仅有两种可能结果。用用“成功成功”代表所关心的结果,相反的结果代表所关心的结果,相反的结果为为“失败失败”。每次试验中每次试验中“成功成功”的概率都是的概率都是 p p。n重伯努利试验:将伯努利实验独立地重复进行n次。统计学统计学STATISTICS1-40二项分布二项分布在n重伯努利试验中,“成功”的次数X服从参数为n、p的二项分布,记为 X B(n,p)二项分布的概率函数:二项分布的数学期望和方差:n1时,二项分布就成了二
27、点分布(0-1分布)。统计学统计学STATISTICS1-41二项分布图形二项分布图形p0.5时,二项分布是以均值为中心对称p0.5时,二项分布总是非对称的p p0.50.50.5时峰值在中心的右侧时峰值在中心的右侧p=0.3p=0.5p=0.7二项分布图示二项分布图示统计学统计学STATISTICS1-429.连续型随机变量的概率分布连续型随机变量的概率分布连续型随机变量的概率分布只能表示为:数学函数数学函数概率密度函数概率密度函数f f(x x)和分布函数和分布函数F F(x x)图图 形形概率密度曲线和分布函数曲线概率密度曲线和分布函数曲线概率密度函数f(x)的函数值不是概率连续型随机变
28、量取某个特定值的概率等于0只能计算随机变量落在一定区间内的概率由由x x轴以上、概率密度曲线下方面积来表示轴以上、概率密度曲线下方面积来表示统计学统计学STATISTICS1-43 对任意的实数对任意的实数x x,函数,函数F F(x x)P P X X 3 的概率很小,因此可认为正态随机变量的取值几乎全部集中在-3,+3 区间内。广泛应用:产品质量控制产品质量控制判断异常情况判断异常情况统计学统计学STATISTICS1-53z分布的分布的分为点分为点对于给定的(01),称满足条件 的点z为z分布上的分位点。由z分布概率密度函数的对称性有【例】求z0.05和z0.95。统计学统计学STATI
29、STICS1-54正态分布最常用、最重要正态分布最常用、最重要大千世界中许多常见的随机现象服从或近似服从正态分布例如:测量误差,同龄人的身高、体重,棉纱例如:测量误差,同龄人的身高、体重,棉纱的抗拉强度,设备的使用寿命,农作物的产量的抗拉强度,设备的使用寿命,农作物的产量特点是特点是“中间多两头少中间多两头少”由于正态分布特有的数学性质,正态分布在很多统计理论中都占有十分重要的地位正态分布是许多概率分布的极限分布正态分布是许多概率分布的极限分布统计推断中许多重要的分布(如统计推断中许多重要的分布(如 2 2分布、分布、t t分布、分布、F F分布)都是在正态分布的基础上推导出来的分布)都是在正
30、态分布的基础上推导出来的统计学统计学STATISTICS1-5510.2分布分布总体随机变量XN(,2),为该总体的个样本值的样本平均数x1,x2,xn,则样本统计量 是自由度为n-1的卡方分布,记作2(n-1)。注意:注意:2 2整个是一个符号,并不是整个是一个符号,并不是的平方。的平方。统计学统计学STATISTICS1-562分布的统计特性:分布的统计特性:2分布的变量值始终为正;2(n)分布的形状取决于其自由度n的大小,通常为不对称的右偏分布,但随着自由度的增大逐渐趋于对称;2分布的期望为:E(2(n)=n,方差为:D(2(n)=2n。2分布具有可加性。若U2(n1),V2(n2),则
31、U+V2(n1+n2)。统计学统计学STATISTICS1-57不同自由度的不同自由度的2(n)分布分布 统计学统计学STATISTICS1-58对于给定的(04545)时,近似地有)时,近似地有 其中其中z z 为标准正态分布上的为标准正态分布上的 分为点分为点统计学统计学STATISTICS1-60例题分析例题分析n n=12,=0.05,求n n=12,=0.95,求n n=18,=0.95,求 和 使得n n=50,=0.05,求统计学统计学STATISTICS1-6111.t分布分布总体随机变量XN(,2),x1,x2,xn为取自该总体的n个随机样本,当未知时,以样本方差s替代,则
32、是自由度为n-1的t分布,记为t(n-1)。统计学统计学STATISTICS1-62t分布的统计特性:分布的统计特性:t(n-1)分布具有对称性,且以t=0为对称轴,其随机变量取值范围为(-,)t(n-1)分布期望值为0,方差为(n-1)/(n-3),即统计学统计学STATISTICS1-63t(n-1)分布的形状类似标准正态分布,但由于t(n-1)的方差大于1(当n3时,(n-1)/(n-3)1),所以t(n-1)分布比标准正态分布更分散。即t(n-1)的概率密度函数是中央部分较标准正态分布低,而两尾部分则较标准正态分布高。当抽样数目n增大时,t(n-1)的方差越来越接近1,同时t(n-1)
33、分布的形状也越来越接近标准正态分布。理论上,当n时t(n-1)与标准正态分布完全一致。一般认为n30就说t(n-1)与标准正态分布非常接近。统计学统计学STATISTICS1-64统计学统计学STATISTICS1-65对于给定的(045)时,近似地有统计学统计学STATISTICS1-66统计学统计学STATISTICS1-67例题分析例题分析n n=9,=0.05,求t0.05(9)n n=9,=0.95,求t0.95(9)n n=18,求t0.025(18)及t0.975(18),使得P(t0.975(18)t t0.025(18)=0.95n n=50,=0.05,求t0.05(50)
34、统计学统计学STATISTICS1-6812.F分布分布设随机变量U2(n1),V2(n2),且U,V独立,则随机变量 服从自由度为(n1,n2)的F分布,记为F(n1,n2)。由定义可知,如果由定义可知,如果F F F F(n n1 1,n n2 2),则,则1/1/F F F F(n n2 2,n n1 1)。统计学统计学STATISTICS1-69统计学统计学STATISTICS1-70对于给定的(0 0,有该定律表明,当重复试验次数该定律表明,当重复试验次数n n充分大时,事充分大时,事件件A A发生的频率发生的频率mm/n n依概率收敛于事件依概率收敛于事件A A发生的发生的概率。概
35、率。阐明了频率具有稳定性,提供了用频率估计阐明了频率具有稳定性,提供了用频率估计概率的理论依据。概率的理论依据。统计学统计学STATISTICS1-752.中心极限定理中心极限定理独立同分布的中心极限定理独立同分布的中心极限定理设X1,X2,是独立同分布的随机变量序列,且存在有限的和方差2(i=1,2,),当n 时,或或统计学统计学STATISTICS1-76上述定理表明:独立同分布的随机变量序列不管服从什么分独立同分布的随机变量序列不管服从什么分布,其布,其n n项总和的分布趋近于正态分布。项总和的分布趋近于正态分布。可得出如下结论:不论总体服从何种分布,只要其数学期望和不论总体服从何种分布
36、,只要其数学期望和方差存在,对这一总体进行重复抽样时,当样方差存在,对这一总体进行重复抽样时,当样本量本量n n充分大,就趋于正态分布。充分大,就趋于正态分布。该定理为均值的抽样推断奠定了理论基础。该定理为均值的抽样推断奠定了理论基础。统计学统计学STATISTICS1-77例题分析例题分析【例例例例】有有一一测测绘绘小小组组对对甲甲乙乙两两地地之之间间的的距距离离采采用用分分段段测测量量的的方方法法进进行行了了测测量量,将将甲甲乙乙之之间间的的距距离离分分成成为为100100段段。设设每每段段测测量量值值的的误误差差(单单位位:cmcm)服服从从区区间间(1 1,1 1)上上的的均均均均匀匀
37、匀匀分分分分布布布布。试试问问:对对甲甲乙乙两两地地之之间间距距离离的的测测量量值值的的总总误误差差绝绝对对值值超超过过10cm10cm的概率是多少?的概率是多少?解:解:设设 X Xi i第第i i段测量误差(段测量误差(i i=1,2,=1,2,),由于),由于X Xi i服从均匀分布,服从均匀分布,E E(X Xi i)0 0,D D(X Xi i )2 211(1)1)2 2/12=1/3/12=1/3。根据上述中心极限定理,可得,。根据上述中心极限定理,可得,总误差总误差Y Y X Xi iN N(0,100/3)(0,100/3)统计学统计学STATISTICS1-78棣莫佛拉普拉
38、斯中心极限定棣莫佛拉普拉斯中心极限定理理设随机变量X服从二项分布B(n,p)的,那么当n 时,X服从均值为np、方差为 np(1-p)的正态分布,即:该定理为用频率估计概率奠定了基础。该定理为用频率估计概率奠定了基础。或:或:统计学统计学STATISTICS1-79为什么很多随机现象呈正态分布为什么很多随机现象呈正态分布自然界和社会经济中,很多现象可以视为众多独立随机变量之总和。例如:一个城市的居民生活用电总量是大量相互独一个城市的居民生活用电总量是大量相互独立居民户用电量的总和。立居民户用电量的总和。炮弹射击的误差,也可以看作是很多因素引炮弹射击的误差,也可以看作是很多因素引起的小误差之总和
39、。起的小误差之总和。由中心极限定理可知,即使各单个随机变量的分布并不明确,但只要它们存在有限均值和方差,这个众多独立的随机变量之总和的分布就趋近于正态分布。统计学统计学STATISTICS1-805.2.2 抽样估计的基本概念抽样估计的基本概念总体参数:总体的数量特征,简称为参数,一般是未知的常数。样本统计量:根据样本资料计算出来的,其值随着样本的不同而变化,是一个关于样本的随机变量。总体参数总体参数 样本统计量样本统计量 总体平均数:总体平均数:样本平均数:样本平均数:总体比率:总体比率:样本比率:样本比率:p p总体方差:总体方差:2 2 样本方差:样本方差:s s2 2 总体标准差:总体
40、标准差:样本标准差:样本标准差:s s 统计学统计学STATISTICS1-81抽样误差抽样误差是指抽样估计的过程中要重点控制的对象,主要分为三种:抽样实际误差抽样实际误差抽样实际误差抽样实际误差:某一次具体抽样中,样本统:某一次具体抽样中,样本统计量的值与总体参数真实值之间的偏差。计量的值与总体参数真实值之间的偏差。抽样平均误差抽样平均误差抽样平均误差抽样平均误差:样本统计量的所有可能取值:样本统计量的所有可能取值与总体指标之间的平均差异程度。与总体指标之间的平均差异程度。当样本统计量的期望恰好等于被估计的总体参数时,当样本统计量的期望恰好等于被估计的总体参数时,其抽样平均误差就是该随机变量
41、的标准差,称为抽其抽样平均误差就是该随机变量的标准差,称为抽样标准差。样标准差。抽样极限误差抽样极限误差抽样极限误差抽样极限误差:一定概率下抽样误差的可能:一定概率下抽样误差的可能范围,说明样本统计量在总体参数周围变动的范围,说明样本统计量在总体参数周围变动的范围,记作范围,记作,又称为允许误差。,又称为允许误差。统计学统计学STATISTICS5.3 抽样分布抽样分布统计学统计学STATISTICS1-835.3.1 总体分布总体分布 总体中各元素的观察值所形成的分布;分布通常是未知的;可以假定它服从某种分布。总体总体统计学统计学STATISTICS1-845.3.2 样本分布样本分布 一个
42、样本中各观察值的分布 也称经验分布 当样本容量n逐渐增大时,样本分布逐渐接近总体的分布样样本本统计学统计学STATISTICS1-855.3.3 抽样分布抽样分布 抽样分布:抽样分布:是由来自某总体样本的n个观测值计算的统计量的概率分布,是一种理论分布。从同一个总体中重复选取容量为从同一个总体中重复选取容量为n n的样本时,的样本时,由该统计量的所有可能取值形成的相对频数分由该统计量的所有可能取值形成的相对频数分布。布。来自同一总体中来自同一总体中容量相同容量相同容量相同容量相同的的所有所有所有所有可能样本。可能样本。提供了样本统计量长远而稳定的信息,是进提供了样本统计量长远而稳定的信息,是进
43、行推断的理论基础,也是抽样推断科学性的重行推断的理论基础,也是抽样推断科学性的重要依据。要依据。统计学统计学STATISTICS1-86例题分析例题分析【例例】设一个总体,含有4个元素(个体),即总体单位数N=4。4 个个体分别为x1=1,x2=2,x3=3,x4=4。总体的均值、方差及分布如下:总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3均值和方差均值和方差均值和方差均值和方差统计学统计学STATISTICS1-87现从总体中抽取n2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为:所有可能的所有可能的所有可能的所有可能的n
44、n=2 =2 的样本(共的样本(共的样本(共的样本(共1616个)个)个)个)第一个第一个观察值观察值第二个观察值第二个观察值1 12 23 34 41 11,11,11,21,21,31,31,41,42 22,12,12,22,22,32,32,42,43 33,13,13,23,23,33,33,43,44 44,14,14,24,24,34,34,44,4统计学统计学STATISTICS1-88计算出各样本的均值,如下表。并给出样本均值的抽样分布:1616个样本的均值(个样本的均值(个样本的均值(个样本的均值()第一个第一个观察值观察值第二个观察值第二个观察值1 12 23 34 41
45、 11.01.01.51.52.02.02.52.52 21.51.52.02.02.52.53.03.03 32.02.02.52.53.03.03.53.54 42.52.53.03.03.53.54.04.0 x x样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布样本均值的抽样分布1.01.00 00.10.10.20.20.30.3P P (x x)1.51.53.03.04.04.03.53.52.02.02.52.5统计学统计学STATISTICS1-89的分布律的分布律1.01.01.51.52.02.02.52.53.03.03.53.54.04.0P P()()1/16
46、1/162/162/163/163/164/164/163/163/162/162/161/161/16 比较及结论:比较及结论:比较及结论:比较及结论:样本均值的均值样本均值的均值(数学期望数学期望)等于总体均值等于总体均值 样本均值的方差等于总体方差的样本均值的方差等于总体方差的1/1/n n统计学统计学STATISTICS1-90 =2.5 2=1.25总体分布总体分布总体分布总体分布1 14 42 23 30 0.1.1.2.2.3.3抽样分布抽样分布抽样分布抽样分布P P(x x)1.01.00 0.1.1.2.2.3.31.51.53.03.04.04.03.53.52.02.02
47、.52.5x x统计学统计学STATISTICS1-91抽样分布的形成过程抽样分布的形成过程总体总体总体总体计算样本统计计算样本统计计算样本统计计算样本统计计算样本统计计算样本统计量量量量量量如:样本均值、如:样本均值、如:样本均值、如:样本均值、如:样本均值、如:样本均值、比例、方差比例、方差比例、方差比例、方差比例、方差比例、方差样样样样本本本本统计学统计学STATISTICS1-92一、样本均值的抽样分布一、样本均值的抽样分布由独立同分布中心极限定理独立同分布中心极限定理,如果n充分大,当重复抽样重复抽样时,样本均值 服从均值为,方差为2的正态分布,即 即一般认为,样本容量一般认为,样本
48、容量n n充分大的条件为充分大的条件为n n3030。称称 为样本均值的抽样标准差。为样本均值的抽样标准差。统计学统计学STATISTICS1-93的的的的分分分分布布布布趋趋趋趋于于于于正正正正态态态态分分分分布布布布的的的的过过过过程程程程统计学统计学STATISTICS1-94由标准正态分布的性质,有统计学统计学STATISTICS1-95当不重复抽样时,可以证明,样本均值 仍服从正态分布,其均值仍为总体均值,而方差变为其中(N-n)/(N-1)为修正系数。当Nn时,修正系数可取近似值1,即(N-n)/(N-1)1。统计学统计学STATISTICS1-96在样本均值的抽样分布中,当总体服
49、从正态分布时,如果总体标准差未知,则用样本标准差s代替。由t分布的定义,统计量服从自由度为n-1的t分布,即 统计学统计学STATISTICS1-97例题分析例题分析【例例例例】考察考察=100=100和和=20=20的正态总体。如果随机的正态总体。如果随机选择大小为选择大小为1616的一组样本,求这组样本的均值落的一组样本,求这组样本的均值落在在9090与与110110之间的概率。之间的概率。解:解:解:解:由题意有由题意有统计学统计学STATISTICS1-98例题分析例题分析【例例例例】幼儿园里孩子的身高是关于均值为幼儿园里孩子的身高是关于均值为3939英寸、英寸、标准差为标准差为2 2
50、英寸的近似正态分布。抽取大小为英寸的近似正态分布。抽取大小为2525的一组随机样本,计算均值,求该均值在的一组随机样本,计算均值,求该均值在38.538.5与与40.040.0英寸之间的概率。英寸之间的概率。解:解:解:解:由题意有由题意有统计学统计学STATISTICS1-99例题分析例题分析【例例】参看例题2中幼儿园孩子的身高,在什么样的正中央范围内样本大小为100的样本均值的90%抽样分布落入其中?解:解:统计学统计学STATISTICS1-100例题分析例题分析统计学统计学STATISTICS1-101二、样本比率的抽样分布二、样本比率的抽样分布样本比率样本比率p:样本中具有某种性质的