统计量及其分布.ppt_咨信网zixin.com.cn

资源描述

第五章第五章统计量及其分布统计量及其分布 5.1 总体与样本总体与样本5.2 样本数据的整理与显示样本数据的整理与显示5.3 统计量及其分布统计量及其分布5.4 三大抽样分布三大抽样分布5.5 充分统计量充分统计量引引言言随机变量及其所伴随的概率分布全面描述了随机随机变量及其所伴随的概率分布全面描述了随机现象的统计性规律。现象的统计性规律。概率论的许多问题中，随机变量的概率分布通常概率论的许多问题中，随机变量的概率分布通常是已知的，或者假设是已知的，而一切计算与推理都是已知的，或者假设是已知的，而一切计算与推理都是在这已知的基础上得出来的。是在这已知的基础上得出来的。但实际中，情况往往并非如此，一个随机现象所但实际中，情况往往并非如此，一个随机现象所服从的分布可能是完全不知道的，或者知道其分布概服从的分布可能是完全不知道的，或者知道其分布概型，但是其中的某些参数是未知的。型，但是其中的某些参数是未知的。例例5.0.1 某某公公司司要要采采购购一一批批产产品品，每每件件产产品品不不是是合合格格品品就就是是不不合合格格品品，但但该该批批产产品品总总有有一一个个不不合合格格品品率率 p。由由此此，若若从从该该批批产产品品中中随随机机抽抽取取一一件件，用用 X 表表示示这这一一件件产产品品的的不不合合格格数数，不不难难看看出出 X 服服从从一一个个二二点点分分布布b(1,p)，但分布中的参数但分布中的参数 p 是不知道的。一些问题：是不知道的。一些问题：p 的大小如何；的大小如何；p 大概落在什么范围内；大概落在什么范围内；能否认为能否认为 p 满足设定要求满足设定要求（如（如 p 0.05）。）。数理统计的任务则是数理统计的任务则是以概率论为基础，以概率论为基础，根据试验所得到的数据，对研究对象的客观根据试验所得到的数据，对研究对象的客观统计规律性做出合理的推断。统计规律性做出合理的推断。服从怎样的分布；服从怎样的分布；分布中的参数；分布中的参数；学科分支：学科分支：抽样调查、实验设计、回归抽样调查、实验设计、回归分析、多元统计分析、非参数统计、贝叶斯分析、多元统计分析、非参数统计、贝叶斯方法，等等。方法，等等。5.1 总体与个体总体与个体总体的三层含义总体的三层含义：研究对象的全体；研究对象的全体；数据；数据；分布分布在在数数理理统统计计中中，把把研研究究对对象象的的全全体体称称为为总总体体（population)或或母母体体，而而把把组组成成总总体体的的每每个个单单元元称为称为个体个体。例例5.1.1 考察某厂的产品质量，将产品只分为考察某厂的产品质量，将产品只分为合格品和不合格品，以合格品和不合格品，以0记合格品，以记合格品，以1记不记不合格品，则合格品，则X 0 1P 1 p p 该厂生产的全部合格品与不合格品该厂生产的全部合格品与不合格品若以若以 p 表示这堆数中表示这堆数中1的比例（不合格品率），的比例（不合格品率），则该总体可由一个二点分布表示：则该总体可由一个二点分布表示：总体总体=由由0或或1组成的一堆数组成的一堆数比如比如：两个生产同类产品的工厂的产品两个生产同类产品的工厂的产品的总体分布：的总体分布：例例5.1.2 在二十世纪七十年代后期，美国消费者购买在二十世纪七十年代后期，美国消费者购买日产日产SONY彩电的热情高于购买美产彩电的热情高于购买美产SONY彩电，原因何在？彩电，原因何在？1979年年4月月17日日本日日本朝日新闻朝日新闻刊登调查报刊登调查报告指出告指出N(m,(5/3)2)，日产，日产SONY彩电的彩色浓彩电的彩色浓度服从正态分布，而美产度服从正态分布，而美产SONY彩电的彩色浓彩电的彩色浓度服从度服从(m 5,m+5)上的均匀分布。上的均匀分布。原因在于总体的差异上！原因在于总体的差异上！图图5.1.1 SONY彩电彩色浓度分布图彩电彩色浓度分布图q等级等级 I II III IV 美产美产 33.3 33.3 33.3 0 日产日产 68.3 27.1 4.3 0.3表表5.1.1 各等级彩电的比例各等级彩电的比例(%)|X-m|5/35/3|X-m|10/310/3|X-m|55.1.2 样本样本抽样抽样：要了解总体的分布规律，在统计分析工作中，往往是要了解总体的分布规律，在统计分析工作中，往往是从总体中抽取一部分个体进行观测从总体中抽取一部分个体进行观测，这个过程称为，这个过程称为抽样。抽样。样本样本在在抽抽取取过过程程中中，每每抽抽取取一一个个个个体体，就就是是对对总总体体X进进行行一一次次随随机机试试验验，每每次次抽抽取取的的n个个个个体体，称称为为总总体体X的的一一个个容容量量为为n的的样样本本（sample）或或子子样样；其中样本中所包含的个体数量称为；其中样本中所包含的个体数量称为样本容量样本容量。样本。样本中的个体称为中的个体称为样品样品。5.1.2 样本样本样本具有两重性：样本具有两重性：一方面，由于样本是从总体中随机抽取的，抽一方面，由于样本是从总体中随机抽取的，抽取前无法预知它们的数值，因此，样本是随机取前无法预知它们的数值，因此，样本是随机变量，用大写字母变量，用大写字母 X1,X2,Xn 表示；表示；另一方面，样本在抽取以后经观测就有确定的另一方面，样本在抽取以后经观测就有确定的观测值，因此，样本又是一组数值。此时用小观测值，因此，样本又是一组数值。此时用小写字母写字母 x1,x2,xn 表示是恰当的。表示是恰当的。在本书中，无论是样本还是其观测值，样本一般均用在本书中，无论是样本还是其观测值，样本一般均用 x1,x2,xn 表示，大家要注意从上下文中加以识别。表示，大家要注意从上下文中加以识别。例例例例5.1.35.1.3 啤酒厂生产的瓶装啤酒规定净含量为啤酒厂生产的瓶装啤酒规定净含量为640 克。由于随机性，事实上不可能使得所有的啤酒克。由于随机性，事实上不可能使得所有的啤酒净含量均为净含量均为640克。现从某厂生产的啤酒中随机克。现从某厂生产的啤酒中随机抽取抽取10瓶测定其净含量，得到如下结果瓶测定其净含量，得到如下结果：641,635,640,637,642,638,645,643,639,640这是一个容量为这是一个容量为10的样本的观测值，的样本的观测值，对应的总体为该厂生产的瓶装啤酒的净含量。对应的总体为该厂生产的瓶装啤酒的净含量。完全样本完全样本例例5.1.4 考察某厂生产的某种电子元件的寿命，选考察某厂生产的某种电子元件的寿命，选了了100只进行寿命试验，得到如下数据：只进行寿命试验，得到如下数据：表表5.1.2 100只元件的寿命数据只元件的寿命数据寿命范围寿命范围元件数元件数寿命范围寿命范围元件数元件数寿命范围寿命范围元件元件数数 (0 24 4 (192 216 6 (384 408 4 (24 48 8 (216 240 3 (408 432 4 (48 72 6 (240 264 3 (432 456 1 (72 96 5 (264 288 5 (456 480 2 (96 120 3 (288 312 5 (480 504 2 (120 144 4 (312 336 3 (504 528 3 (144 168 5 (336 360 5 (528 552 1 (168 192 4 (360 184 1 552 13表表5.1.2中的样本观测值没有具体的数值，中的样本观测值没有具体的数值，只有一个范围，这样的样本称为只有一个范围，这样的样本称为分组样本分组样本。独立性独立性:样本中每一样品的取值不影响其样本中每一样品的取值不影响其它样品的取值它样品的取值 -x1,x2,xn 相互独立。相互独立。要使得推断可靠，对样本就有要求，使样本能很要使得推断可靠，对样本就有要求，使样本能很好地代表总体。通常有如下两个要求：好地代表总体。通常有如下两个要求：随机性随机性:总体中每一个个体都有同等机会总体中每一个个体都有同等机会被选入样本被选入样本 -xi 与总体与总体X有相同的分布有相同的分布。样本的要求：简单随机样本样本的要求：简单随机样本用简单随机抽样方法得到的样本称为用简单随机抽样方法得到的样本称为简单随机样本简单随机样本，也简称也简称样本样本。于是，样本于是，样本 x1,x2,xn 可以看成是可以看成是独立同分布独立同分布(iid)的随机变量，的随机变量，其共同分布即为总体分布。其共同分布即为总体分布。iidindependent identical distribution若总体若总体的分布函数为的分布函数为则样本则样本的联合分布函数为的联合分布函数为若总体若总体的密度函数为的密度函数为则样本则样本的联合密度函数为的联合密度函数为若总体若总体的分布列为的分布列为则样本则样本的联合分布列为：的联合分布列为：总体分为总体分为有限总体有限总体与与无限总体无限总体实际中总体中的个体数大多是有限的。当个体数充分实际中总体中的个体数大多是有限的。当个体数充分大时，将有限总体看作无限总体是一种合理的抽象。大时，将有限总体看作无限总体是一种合理的抽象。对无限总体，随机性与独立性容易实现，困难在于对无限总体，随机性与独立性容易实现，困难在于排除有意或无意的人为干扰。排除有意或无意的人为干扰。对有限总体，只要总体所含个体数很大，特别是与对有限总体，只要总体所含个体数很大，特别是与样本量相比很大，则独立性也可基本得到满足。样本量相比很大，则独立性也可基本得到满足。本书以无限总体为主要研究对象。本书以无限总体为主要研究对象。例例5.1.5 设有一批产品共设有一批产品共N个，需要进行抽样检个，需要进行抽样检验以了解其不合格品率验以了解其不合格品率p。现从中采取不放回。现从中采取不放回抽样抽出抽样抽出2个产品，这时，第二次抽到不合格个产品，这时，第二次抽到不合格品的概率依赖于第一次抽到的是否是不合格品，品的概率依赖于第一次抽到的是否是不合格品，如果第一次抽到不合格品，则如果第一次抽到不合格品，则而若第一次抽到的是合格品，则第二次抽到不合而若第一次抽到的是合格品，则第二次抽到不合格品的概率为格品的概率为P(x2=1|x1=1)=(Np 1)/(N 1)P(x2=1|x1=0)=(Np)(N 1)显然，如此得到的样本不是简单随机样本。显然，如此得到的样本不是简单随机样本。但是，当但是，当N 很大时，我们可以看到上述两种很大时，我们可以看到上述两种情形的概率都近似等于情形的概率都近似等于p。所以当。所以当N 很大，很大，而而n不大（一个经验法则是不大（一个经验法则是 n N 0.1）时可）时可以把该样本近似地看成简单随机样本。以把该样本近似地看成简单随机样本。作业：作业：P256 4P256 4、6 65.2.1 经验分布函数经验分布函数5.2 样本数据的整理与显示样本数据的整理与显示设设 x1,x2,xn 是取自总体分布函数为是取自总体分布函数为F(x)的样的样本，若将样本观测值由小到大进行排列本，若将样本观测值由小到大进行排列,为为 x(1),x(2),x(n)，则称，则称 x(1),x(2),x(n)为为有序样本有序样本，用有序样本定义如下函数用有序样本定义如下函数则则Fn(x)是一非减右连续函数，且满足是一非减右连续函数，且满足Fn()=0 和和 Fn()=1由此可见，由此可见，Fn(x)是一个分布函数，是一个分布函数，并称并称Fn(x)为为经验分布函数经验分布函数。例例5.2.1 某食品厂生产听装饮料，现从生产某食品厂生产听装饮料，现从生产线上随机抽取线上随机抽取5听饮料，称得其净重（单位：听饮料，称得其净重（单位：克）克）351 347 355 344 351x(1)=344,x(2)=347,x(3)=351,x(4)=351,x(5)=355这是一个容量为这是一个容量为5的样本，经排序可得有序样本：的样本，经排序可得有序样本：故其经验分布函数为故其经验分布函数为第第2525页页定理定理5.2.1 设设是取自总体分布函数为是取自总体分布函数为F(x)的的样本，样本，为其经验分布函数，当为其经验分布函数，当时，有时，有更深刻的结论：格里纹科定理更深刻的结论：格里纹科定理由由伯努里大数定律：伯努里大数定律：两点分布，只要两点分布，只要 n 相当大，相当大，Fn(x)依概率收敛于依概率收敛于F(x)。格里纹科定理表明：格里纹科定理表明：当当n 相当大时，经验分布函相当大时，经验分布函数是总体分布函数数是总体分布函数F(x)的一个良好的近似。的一个良好的近似。经典的统计学中一切统计推断都以样本为依据，经典的统计学中一切统计推断都以样本为依据，其理由就在于此。其理由就在于此。160 196 164 148 170 175 178 166 181 162 161 168 166 162 172 156 170 157 162 1545.2.2 频数频数-频率分布表频率分布表样本数据的整理是统计研究的基础，整理数据的最样本数据的整理是统计研究的基础，整理数据的最常用方法之一是给出其常用方法之一是给出其频数分布表频数分布表或或频率分布表频率分布表。例例5.2.2 为研究某厂工人生产某种产品的能力，为研究某厂工人生产某种产品的能力，我们随机调查了我们随机调查了20位工人某天生产的该种产品位工人某天生产的该种产品的数量，数据如下的数量，数据如下(1)对样本进行分组：对样本进行分组：作为一般性的原则，组数通作为一般性的原则，组数通常在常在520个，对容量较小的样本个，对容量较小的样本;(2)确定每组组距：确定每组组距：近似公式为近似公式为组距组距d=(最大观测值最大观测值最小观测值最小观测值)/组数组数;(3)确定每组组限确定每组组限：各组区间端点为各组区间端点为a0,a1=a0+d,a2=a0+2d,ak=a0+kd,形成如下的分组区间形成如下的分组区间(a0,a1,(a1,a2,(ak-1,ak对这对这20个数据个数据(样本样本)进行整理进行整理,具体步骤如下具体步骤如下:其中其中a0 略小于最小观测值略小于最小观测值,ak 略大于最大观测值略大于最大观测值.(4)统计样本数据落入每个区间的个数统计样本数据落入每个区间的个数频数，频数，并列出其频数频率分布表。并列出其频数频率分布表。表表5.2.1 例例5.2.2 的频数频率分布表的频数频率分布表组序组序分组区间分组区间组中值组中值频数频数频率频率累计频率累计频率(%)1 (147，157 152 4 0.20 20 2 (157，167 162 8 0.40 60 60 3 (167，177 1 172 5 0.25 85 4 (177，187 182 2 0.10 95 5 (187，197 192 1 0.05 100合计合计 20 15.2.3 样本数据的图形显示样本数据的图形显示一、直方图一、直方图直方图是频数分布的图形表示，它的横坐标直方图是频数分布的图形表示，它的横坐标表示所关心变量的取值区间表示所关心变量的取值区间，纵坐标有三种纵坐标有三种表示方法：表示方法：频数，频率频数，频率，最准确的是最准确的是频率频率/组组距距，它可使得诸长条矩形面积和为它可使得诸长条矩形面积和为1。凡此凡此三种直方图的差别仅在于纵轴刻度的选择，三种直方图的差别仅在于纵轴刻度的选择，直方图本身并无变化。直方图本身并无变化。把每一个数值分为两部分，前面一部分（百把每一个数值分为两部分，前面一部分（百位和十位）称为位和十位）称为茎茎，后面部分（个位）称为后面部分（个位）称为叶叶，然后画一条竖线，然后画一条竖线，在竖线的左侧写上茎，在竖线的左侧写上茎，右侧写上叶，就形成了茎叶图。右侧写上叶，就形成了茎叶图。如：如：二、茎叶图二、茎叶图数值数值分开分开茎茎和和叶叶 112 11|2 11 和和 2例例5.2.3 某公司对应聘人员进行能力测试，测试某公司对应聘人员进行能力测试，测试成绩总分为成绩总分为 150分。下面是分。下面是50位应聘人员的测位应聘人员的测试成绩（已经过排序）：试成绩（已经过排序）：我们用这批数据给出一个茎叶图，见下页。我们用这批数据给出一个茎叶图，见下页。图图5.2.3 测试成绩的茎叶图测试成绩的茎叶图6 4 77 0 2 4 6 6 98 0 1 2 2 3 5 6 8 9 1 1 2 3 3 3 5 6 6 7 7 910 0 0 2 4 6 6 7 8 811 2 2 4 6 8 9 912 2 3 5 6 813 3 在要比较两组样本时，在要比较两组样本时，可画出它们的可画出它们的背靠背的茎叶图背靠背的茎叶图。甲车间甲车间 6 2 0 5 6 乙车间乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意：注意：茎叶图保留数据中全部信息。当样本量较茎叶图保留数据中全部信息。当样本量较大，数据很分散，横跨二、三个数量级时，大，数据很分散，横跨二、三个数量级时，茎叶图并不适用。茎叶图并不适用。作业：作业：P261 2P261 2、7 75.3.1 统计量与抽样分布统计量与抽样分布5.3 统计量及其分布统计量及其分布当人们需要从样本获得对总体各种参数的认识当人们需要从样本获得对总体各种参数的认识时，最好的方法是构造样本的函数，不同的函时，最好的方法是构造样本的函数，不同的函数反映总体的不同特征。数反映总体的不同特征。定义定义5.3.1 设设 x1,x2,xn 为取自某总体的样为取自某总体的样本，若样本函数本，若样本函数T=T(x1,x2,xn)中不含有任中不含有任何未知参数。则称何未知参数。则称T为为统计量统计量。统计量的分布统计量的分布称为称为抽样分布抽样分布。按照这一定义：若按照这一定义：若 x1,x2,xn 为为样样本，本，则则以及经验分布函数以及经验分布函数Fn(x)都是统计量。都是统计量。而当而当,2 未未知知时，时，x1 ,x1/等均不是统计量。等均不是统计量。尽管统计量不依赖于未知参数，但是它的分布尽管统计量不依赖于未知参数，但是它的分布一般是依赖于未知参数的。一般是依赖于未知参数的。下面介绍一些常见的统计量及其抽样分布。下面介绍一些常见的统计量及其抽样分布。5.3.2 样本均值及其抽样分布样本均值及其抽样分布定义5.3.2 设设 x1,x2,xn为取自某总为取自某总体的样本，其算术平均值称为体的样本，其算术平均值称为样本均值样本均值，一般用一般用表示，即表示，即思考：思考：在分组样本场合，样本均值如何计算？在分组样本场合，样本均值如何计算？二者结果相同吗？二者结果相同吗？xx=(x1+xn)/n注意：样本均值是一个注意：样本均值是一个随机变量，应理解为：随机变量，应理解为：定理定理5.3.2 数据观测值与均值的偏差平方和数据观测值与均值的偏差平方和最小，即在形如最小，即在形如 (xi c)2 的函数中的函数中，样本均值的基本性质：样本均值的基本性质：定理定理5.3.1 若把样本中的数据与样本均值之差若把样本中的数据与样本均值之差称为称为偏差偏差，则样本所有偏差之和为则样本所有偏差之和为0，即即最小，其中最小，其中c为任意给定常数。为任意给定常数。证明：板述证明：板述例例5.3.2：见书：见书(2)若总体分布未知或不是正态分布，若总体分布未知或不是正态分布，(3)但但 E(x)=,Var(x)=2,则则n 较大时较大时的的渐渐近分近分(4)布布为为N(,2/n),常记为常记为。样本均值的抽样分布：样本均值的抽样分布：定理定理5.3.3 设设x1,x2,xn 是来自某个总体的样本，是来自某个总体的样本，x为样本均值。为样本均值。(1)若总体分布为若总体分布为N(,2)，则，则xx的的精确分精确分布布为为N(,2/n);这里渐近分布是指这里渐近分布是指n 较大时的近似分布较大时的近似分布.例：例：5.3.3：见书：见书5.3.3 样本方差与样本标准差样本方差与样本标准差称为称为样本标样本标准准准准差差。s*=s*2定义定义5.3.3称为称为样本方差样本方差，其算术平方根其算术平方根在在n 不大时，常用不大时，常用作为样本方作为样本方差差,其算术平方根也称为样本标准差。其算术平方根也称为样本标准差。在这个定义中，在这个定义中，(xi x)2n 1称为偏差平方和的称为偏差平方和的自由度自由度。其含义是：其含义是：x在在确定后确定后,n 个偏差个偏差x1 x,x2 x,xn x能自由取值，因能自由取值，因为为只有只有n 1个数据可以自由变动，而第个数据可以自由变动，而第n个则不个则不 (xi x)=0.称为称为偏差平方和偏差平方和，中中样本偏差平方和有三个不同的表达式：样本偏差平方和有三个不同的表达式：(xi x)2=xi2 (xi)2/n=xi2 nx它们都可用来计算样本方差。它们都可用来计算样本方差。思考：思考：分组样本如何计算样本方差？分组样本如何计算样本方差？以下定理表明：样本均值的数学期望和方差，以及以下定理表明：样本均值的数学期望和方差，以及样本方差的数学期望都不依赖于总体的分布形式。样本方差的数学期望都不依赖于总体的分布形式。定理定理5.3.4 设总体设总体 X 具有二阶矩，即具有二阶矩，即 E(x)=,Var(x)=2 ,x1,x2,xn 为从该总体得到的样本，为从该总体得到的样本，x和和s2 分别是样本均值和样本方差，则分别是样本均值和样本方差，则E(x)=,Var(x)=2/n,E(s2)=2 证明：板述证明：板述5.3.4 样本矩及其函数样本矩及其函数样本均值和样本方差的更一般的推广是样本样本均值和样本方差的更一般的推广是样本矩，这是一类常见的统计量。矩，这是一类常见的统计量。定义定义5.3.4 ak=(xik)/n 称为称为样本样本 k 阶原点矩，阶原点矩，特别，样本一阶原点矩就是样本均值。特别，样本一阶原点矩就是样本均值。称为称为样本样本k阶中心阶中心矩矩。特别，样本二阶中心矩就是样本方差。特别，样本二阶中心矩就是样本方差。bk=(xi x)k/n当总体关于分布中心对称时，我们用当总体关于分布中心对称时，我们用x和和 s刻画样本特征很有代表性，而当其不对称时，刻画样本特征很有代表性，而当其不对称时，只用只用就显得很不够。为此，需要一些刻画就显得很不够。为此，需要一些刻画分布形状的统计量，如分布形状的统计量，如样本偏度样本偏度和和样本峰度样本峰度，它它们都是样本中心矩的函数。们都是样本中心矩的函数。样本偏度样本偏度 1反映了总体分布密度曲线的对称性信息。反映了总体分布密度曲线的对称性信息。样本峰度样本峰度 2反映了总体分布密度曲线在其峰值附近反映了总体分布密度曲线在其峰值附近的陡峭程度。的陡峭程度。定义：定义：1=b3/b23/2 称为称为样本偏度样本偏度，2=b4/b22-3 称为称为样本峰度样本峰度。x和和 s图见书中图图见书中图5.3.45.3.5 次序统计量及其分布次序统计量及其分布另一类常见的统计量是另一类常见的统计量是次序统计量。次序统计量。一、一、定义定义5.3.7 设设 x1,x2,xn 是取自总体是取自总体X的样本的样本,x(i)称为该样本的第称为该样本的第i 个个次序统计量次序统计量，它的取值，它的取值是将样本观测值由小是将样本观测值由小到大排列后得到的第到大排列后得到的第 i 个个观测值。其中观测值。其中x(1)=min x1,x2,xn 称为该样本称为该样本的的最小次序统计量，最小次序统计量，称称 x(n)=max x1,x2,xn 为为该样本的该样本的最大次序统计量。最大次序统计量。在一个样本中，在一个样本中，x1,x2,xn 是独立同分布的，而是独立同分布的，而次序统计次序统计量量 x(1),x(2),x(n)则既不独立，分布也则既不独立，分布也不相同，看下例。不相同，看下例。现从中抽取容量为现从中抽取容量为3的样本，其一切可能取值有的样本，其一切可能取值有33=27种，表种，表5.3.6列出了这些值，由此列出了这些值，由此例例5.3.6 设总体设总体X 的分布为仅取的分布为仅取0，1，2的离的离散均匀分布，分布列为散均匀分布，分布列为 0 1 2 0 1 2我们可以清楚地看到这三个次序统计量的分布是我们可以清楚地看到这三个次序统计量的分布是不相同的。不相同的。可给出的可给出的 x(1),x(2),x(3)分布列如下：分布列如下：0 1 2进进一一步步，我我们们可可以以给给出出两两个个次次序序统统计计量量的的联联合合分布，如，分布，如，x(1)和和x(2)的联合分布列为的联合分布列为01207/279/273/27104/273/272001/27x(1)x(2)因为因为 P(x(1)=0,x(2)=0)=7/27 ，而而 P(x(1)=0)*P(x(2)=0)=(19/27)*(7/27)，二者不等，由此可看出二者不等，由此可看出x(1)和和 x(2)是不独立的是不独立的。二、单个次序统计量的分布二、单个次序统计量的分布定理定理5.3.5 设总体设总体X的密度函数为的密度函数为p(x)，分，分布函数为布函数为F(x)，x1,x2,xn为样本，则第为样本，则第k个次序统计量个次序统计量x(k)的密度函数为的密度函数为例例5.3.7 设总体密度函数为设总体密度函数为 p(x)=3x2,0 x 1.从该总体抽得一个容量为从该总体抽得一个容量为5的样本，的样本，试计算试计算 P(x(2)1/2)。例例5.3.8 设总体分布为设总体分布为U(0,1)，x1,x2,xn为样为样本，试求第本，试求第 k 个次序统计量的分布。个次序统计量的分布。三、多个次序统计量的联合分布三、多个次序统计量的联合分布对任意多个次序统计量可给出其联合分布，对任意多个次序统计量可给出其联合分布，以两个为例说明：以两个为例说明：定理定理5.3.6 在定理在定理5.3.5的记号下，次序统计的记号下，次序统计量量(x(i),x(j),(i j)的联合分布密度函数为的联合分布密度函数为次序统计量的函数在实际中经常用到。次序统计量的函数在实际中经常用到。如如样本极差样本极差 Rn=x(n)x(1)，样本中程样本中程 x(n)x(1)/2。样本极差样本极差是一个很常用的统计量，其分布是一个很常用的统计量，其分布只在很少几种场合可用初等函数表示。只在很少几种场合可用初等函数表示。令令 R=x(n)x(1)，由，由 R 0,可以推出可以推出0 x(1)=x(n)R 1 R，则则例例5.3.9 设总体分布为设总体分布为U(0,1)，x1,x2,xn 为为样本，则样本，则(x(n),x(1)的联合密度函数为的联合密度函数为p1,n(y,z)=n(n 1)(z y)n-2,0 y z 1这正是参数为这正是参数为(n 1,2)的贝塔分布。的贝塔分布。作业：作业：P279 8P279 8、20205.4 三大抽样分布三大抽样分布有很多统计推断是基于正态分布的假设的，有很多统计推断是基于正态分布的假设的，以标准正态变量为基石而构造的三个著名以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用，这是因为统计量在实际中有广泛的应用，这是因为这三个统计量不仅有明确背景，而且其抽这三个统计量不仅有明确背景，而且其抽样分布的密度函数有明显表达式，它们被样分布的密度函数有明显表达式，它们被称为统计中的称为统计中的“三大抽样分布三大抽样分布”。5.4.1 2 分布分布(卡方分布卡方分布)定义定义5.4.1 设设 X1,X2,Xn,独立同分布于标准独立同分布于标准正态分布正态分布N(0,1)，则，则 2=X12+Xn2的分布称的分布称为为自由度为自由度为n 的的 2分布分布，记为，记为 2 2(n)。自由度是指独立随机变量的个数，常记为自由度是指独立随机变量的个数，常记为分布的密度函数为分布的密度函数为该密度函该密度函数的图像数的图像是一只取是一只取非负值的非负值的偏态分布偏态分布当随机变量当随机变量 2 2 2 2(n n)时，对给定时，对给定 (0 1)，称满称满足足 P(2 2 1 1 2 2(n n)的的 1 1 2 2(n n)是是自由度为自由度为n的卡的卡方分布的方分布的1 分位数分位数.分位数分位数 1 1 2 2(n n)可以从附表可以从附表3 中查到。中查到。显然，在自由度显然，在自由度n取定以后，取定以后，的值只与的值只与有关有关.例如，当例如，当n=21，=0.05时，由附表时，由附表3(P425)可查得，可查得，32.6706即即xp(y)O 例例设总体设总体X N(，22)，从总体从总体X中抽取容量中抽取容量为为16的样本的样本X1，X2，X16.如果已知如果已知=0，求，求的概率；的概率；5.4.2 F 分布分布定义定义5.4.2 设设X1 2(m),X2 2(n),X1与与X2独立，独立，则称则称 F=(X1/m)/(X2/n)的分布是的分布是自由度为自由度为 m 与与 n 的的 F分布分布，记为记为F F(m,n)，其中其中m 称为分子自称为分子自由度由度，n 称为分母自由度。称为分母自由度。其中其中F F分布的密度函数为分布的密度函数为:该密度该密度函数的函数的图象也图象也是一只是一只取非负取非负值的偏值的偏态分布态分布当随机变量当随机变量F F(m,n)时，对给定时，对给定 (0 1)，称满足，称满足 P(F F1 (m,n)=1 的的F1 (m,n)是是自由度为自由度为m 与与 n 的的F 分布的分布的1 分位数分位数。一个有用的结论：一个有用的结论：F(n,m)=1/F1 (m,n)。p(y)xO F1-(m,n)F1-(m，n)的值可由的值可由F 分布表查得分布表查得.附表附表5(P431P434)分分 =0.1、=0.05、=0.025、=0.01给出了给出了F分布的分布的1-分位数分位数.如当如当m=2,n=18时，时，,对对=0.01有有F1-0.01(2,18)=F0.99(2,18)=6.01 在附表在附表5中所列的中所列的值都比较小，当值都比较小，当较大较大时，可用下面公式时，可用下面公式查表时应先找到相应的查表时应先找到相应的值的表值的表.例如，例如，0.166F1-(2,18）=解解因为因为所以所以F(3，n-3).例例设总体设总体XN(0,1)，X1，X2，Xn为简单随为简单随机样本，试问以下统计量服从什么分布？机样本，试问以下统计量服从什么分布？且且与与相互独立相互独立5.4.3 t 分布分布定义定义 5.4.3 设随机变量设随机变量X1 与与X2 独立，独立，且且X1 N(0,1),X2 2(n),则称则称的分布为的分布为自由度为自由度为n 的的t 分布分布，记为，记为t t(n)。t分布的概率密度函数为分布的概率密度函数为 t 分布的密度函分布的密度函数的图象是一个数的图象是一个关于纵轴对称的关于纵轴对称的分布，与标准正分布，与标准正态分布的密度函态分布的密度函数形状类似数形状类似，只只是峰比标准正态是峰比标准正态分布低一些尾部分布低一些尾部的概率比标准正的概率比标准正态分布的大一些。态分布的大一些。n 1时时,t 分布的数学期望存在且为分布的数学期望存在且为0；n 2时时，t 分布的方差存在，且为分布的方差存在，且为n/(n 2)；当自由度较大当自由度较大(如如n 30)时，时，t 分布可以用分布可以用正态分布正态分布 N(0,1)近似。近似。自由度为自由度为1的的 t 分布就是分布就是标准柯西分布标准柯西分布，它的均值不存在；它的均值不存在；当随机变量当随机变量t t(n)时，称满足时，称满足 P(t t1 (n)=1=1 的的 t1 (n)是是自由度为自由度为 n 的的 t 分布的分布的1 1 分位数分位数.分位数分位数 t1 (n)可以从附表可以从附表4中查到。中查到。譬如譬如 n=10,=0.05，那么从附表，那么从附表4上查得上查得 t1 0.05(10)=t0.95(10)由于由于 t 分布的分布的密度函数关于密度函数关于0 对称对称,故其分位数故其分位数间有如下关系间有如下关系t(n 1)=t1 (n 1)p(t)tOt1-(n)=1.812 例例设总体设总体XN(0,1)，X1，X2，Xn为简单随为简单随机样本，试问下列统计量各服从什么分布？机样本，试问下列统计量各服从什么分布？解解(1)因为因为XiN(0,1)，i=1,2,n.且各且各Xi相互独立相互独立所以所以X1-X2 N(0,2)，即，即有有t(2).又因为又因为与与相互独立，故根相互独立，故根据据t分布的定义分布的定义解解(2)所以所以X1N(0,1)，有有t(n-1).例例设总体设总体XN(0,1)，X1，X2，Xn为简单随为简单随机样本，试问下列统计量各服从什么分布？机样本，试问下列统计量各服从什么分布？因为因为XiN(0,1)，i=1,2,n.且各且各Xi相互独立相互独立又因为又因为与与相互独立，故根据相互独立，故根据t分布的定义，分布的定义，作业：作业：P P292292 9 9、11115.4.4 一些重要结论一些重要结论定理定理5.4.1 设设 x1,x2,xn 是来自是来自N(,2)的的样本，其样本均值和样本方差分别为样本，其样本均值和样本方差分别为和和x=xi/n s2=(xi x)2/(n 1)(3)(n 1)s2/2 2(n 1)。则有则有(1)x 与与 s2 相互独立；相互独立；(2)x N(,2/n)；为为n维随机向量维随机向量的的数学期望向量数学期望向量，简称为，简称为的数学的数学期望，而称期望，而称定义定义记记n维随机向量为维随机向量为，若其每个分量的数学期望都存在，则称若其每个分量的数学期望都存在，则称为该随机向量的为该随机向量的方差方差-协方差阵协方差阵，简称，简称协方差阵协方差阵，记为记为。定理定理5.4.4的证明：记的证明：记则有：则有：取一个取一个n维正交矩阵维正交矩阵A，其第一行元素均为，其第一行元素均为如：如：令令，根据多维正态分布的性质知，根据多维正态分布的性质知Y仍服从仍服从n维正态分布，且维正态分布，且可以看出，可以看出，的各个分量相互独立，且的各个分量相互独立，且都服从正态分布，其中都服从正态分布，其中（2）得证）得证又因为又因为且且故故从而从而又因为又因为和和相互独立，而相互独立，而且且各分量相互独立，各分量相互独立，从而从而从而从而与与相互独立，相互独立，结论（结论（1）得证）得证。又因为。又因为结论（结论（3）得证）得证.从表面上看，从表面上看，是是n个正态随机变量个正态随机变量的平方和，的平方和，但实际上它们不是独立的，但实际上它们不是独立的，它们之间有一种线性约束关系：它们之间有一种线性约束关系：=0这表明，当这这表明，当这n个正态随机变量中有个正态随机变量中有n-1个取值给定时，剩下的个取值给定时，剩下的一个的取值就跟着唯一确定了，故在这一个的取值就跟着唯一确定了，故在这n项平方和中只有项平方和中只有n-1项项是独立的是独立的.所以（所以（3 3）的自由度是）的自由度是n-1.关于（关于（3）的自由度的一些直观说明：）的自由度的一些直观说明：推论推论5.4.1设设(X1，X2，Xn)为来自正态总体为来自正态总体 XN(，2)的样本，则统计量的样本，则统计量证证由于由于与与s 2相互独立，且相互独立，且由定义得由定义得推论推论5.4.2 设设 x1,x2,xn 是来自是来自N(1,12)的样本，的样本，y1,y2,yn 是来自是来自N(2,22)的样的样本，本，且此两样本相互独立，则有且此两样本相互独立，则有特别，若特别，若 12=22，

展开阅读全文