第八章统计量及其分布.doc

资源描述

第八章统计量及其分布前面一到六章的研究属于概率论的范畴。我们已经看到,随机变量及其概率分布全面地描述了随机现象的统计规律性。在概率论的许多问题中,概率分布通常被假定为已知的，而一切计算及推理均基于这个已知的分布进行，在实际问题中，情况往往并非如此，看一个例子：例8。0.1某公司要采购一批产品，每件产品不是合格品就是不合格品，但该批产品总有一个不合格品率.由此,若从该批产品中随机抽取一件，用表示这一件产品的不合格数,不难看出服从一个二点分布但分布中的参数却是不知道的。显然，的大小决定了该产品的质量，它直接影响采购行为的经济效益。因此,人们会对提出一些问题，比如， ⑴的大小如何决定; ⑵大概落在什么范围内； ⑶能否认为满足设定要求（如）。诸如例8。0.1研究的问题属于数理统计的范畴。接下来我们从统计中最基本的概念—总体和样本开始介绍统计学内容。 §8。1 总体与样本 8.1.1总体与个体在数理统计中,称所研究的对象全体为总体（或母体）.总体中的个元素称为个体。若总体中的个体数目有限,则称之为有限总体;否则称之为无限总体. 例8.1。1有一批产品共个，每个产品可区分为一等、二等、次品。我们要研究这批产品的质量，个产品的等级构成一个总体，每个产品的等级是个体。例8.1。2为考察在某种工艺条件下织出的一批布匹的疵点数，共取匹布。那么这匹布中每匹布茨点数的全体构成一个总体，每匹布的各自疵点数是个体. 例8。1。3在检查某军工厂生产的一大批炮弹的质量时,若只考察炮弹的射程，那么,这批炮弹中每一颗的射程的全体构成一个总体，每棵炮弹的各自射程是个体。从例2、例3可见，总体中的元素常常不是指元素本身，而是指元素的某种数量指标。在例2中，总体中的元素指每匹布的疵点数，在例3中，总体中的元素指每颗炮弹的射程。在例1中，如果一等品用“”表示，二等品用“”表示，次品用“”表示，总体中元素是指每个产品的等级指标，同样，总体可看成数“”、“"、“”的集合。从三个例子可以看出，数量指标取同一值的元素可以有几个，也就是每一个值可以重复.总体是一个可重复的（即允许相同）数的集合。在例1的个产品中，值为“”的有个，值为“”的有个,值为“”的有个,因此“”占，“”占，“”占。从数学角度说，总体是指所研究的数量指标可能取的各种不同数值的全体，而各种不同数值含有一定的比率。这样一来，若抛开实际背景，总体就是一堆数，这堆数中有大有小，有的出现机会多，有的出现机会少，因此用一个概率分布去描述和归纳总体是恰当的，从这个意义看，总体就是一个分布。以后说“从总体中抽样”与“从某分布中抽样”是同一个意思. 总体的数量指标用表示。从总体中随意地取得的一个个体是随机变量，记为。显然，随机变量所有可能取得的数值就是可能取得不同值得全体.的概率分布与总体的分布有什么关系呢？以例1为例，随机变量的概率分布列为与取各种不同值的比率相同，即的概率分布与的总体分布相同。这个结论具有普遍性。以后总体数量指标与相应的随机变量都用表示，并不严加区分.总体分布指相应的随机变量的概率分布,可用分布列、分布密度、分布函数具体表现出来.总体分布的数字特征指的是相应随机变量的数字特征。为方便起见，总体数量指标有时简称为总体，总体的分布和数字特征采用概率论中随机变量的相应量的记号. 上面是从总体得到随机变量。反之,从随机变量亦可得到总体.例如,扔一颗骰子出现的点数是随机变量，它可能取得的不同值的全体“”、“”、“”、“”、“"、“”构成一个总体，它的分布随机变量的概率分布。在有些问题中,我们对每一研究对象可能要观测两个甚至更多个指标，此时可用多维随机向量及其联合分布来描述总体，这种总体称为多维总体，譬如，我们要了解某校大学生的三个指标:年龄、身高、月生活支出,则我们可用一个三维随机向量描述该总体，这是一个三维总体,它是多元分析所研究的对象。 8.1。2样本从总体中取得一部份个体，总体中的这一部分个体称为样本。取得样本的过程称为抽样。一个样本中每一个个体称为样品。样本中个体的个数称为样本容量。在数理统计中,采取抽样的方法是随机抽样法，即样本中每一个个体（样品）是从总体中被随意地取出来的。随机抽样分重复抽样和非重复抽样两种。以例1为例，从个产品中抽取一个容量为的样本，如果随机抽取地抽取一个产品检查后放回,再随机地抽取一个检查后又放回，直至取到个个体为止,这种方法称为重复（或返回）抽样。如果每取一个检查后不再放回,直至取得个个体为止,或者一次抽取个,这种方法称为非重复（或无返回)抽样。需要指出，随机抽样得到的样本，所含样品是有一定次序的，通常按它被抽到的先后顺序排列。从总体随机抽样得到的样本可以用维随机向量表示。现在考察它的概率分布。在重复抽样情形,由于每次取出一个个体检查后放回，总体成分不变（总体分布不变）,所以是独立同分布的,并且每一个随机变量的分布于总体分布相同。对于非重复抽样，则分两种情形：在有限总体情形，因取出一个个体后改变了总体的成分，所以随机变量不相互独立；在无限总体情形，每取出一个个体后并不改变总体的成分，所以随机变量仍然是独立同分布的,并且每一随机变量的概率分布都是总体分布. 在实际情况中，我们有时遇到的是有限总体，而采用无返回抽样.此时，如果样本容量相对于总体容量(总体中个体总数）很小，实际上要求，可以把近似地看成独立同分布,而且每个随机变量的分布都是总体分布。如果样本中各个个体独立同分布,且每一随机变量的概率分布是总体分布，则称它为简单随机样本.这种样本数学上比较容易处理。样本是维随机向量,这是对具体进行一次抽样而言。在抽样后获得它的一组观察值,称为样本值。为方便起见,有的时候样本与样本值亦可统称为样本. 设总体的分布函数是，则样本的概率分布函数为在总体离散分布情形，设总体分布列为（有限个或可列多个）。则样本的概率分布列为其中每一个值都是在所有可能取的值之中。在总体连续分布情形，设总体分布密度为,则对应于随机变量有一个总体，如何讲抽样与样本呢？如果对于随机变量独立重复地做次试验，所得观察值为一个简单随机样本，那么，进行次试验观察相当于进行一次抽样，而且这是重复抽样。例如，对靶射击一次得到的环数是一个随机变量，今独立重复地对靶射击次，可以看作进行一次重复抽样，所得个环数构成一个样本。 §8。2 样本数据的整理与显示 8。2。1经验分布函数设是取自总体分布函数为的样本，若将样本观测值由小到大进行排列，为，则称为有序样本，用有序样本定义函数如下则是一非减右连续函数，且满足由此可见，是一个分布函数，并称为经验分布函数. 经验分布函数的图形如图8.1 （图8。1:经验分布函数）例8.2。1某食品厂生产听装饮料，现从生产线上随机抽取听饮料，称得其净重为（单位:克）这是一个容量为的样本,经排序可得有序样本：其经验分布函数为对每一固定的是样本事件中“”发生的频率，当固定时，是样本的函数，它是一个随机变量，由伯努利大数定律：只要相当大，依概率收敛于。更深刻的结果也是存在的，这就是格里纹科定理。定理8.2.1（格里纹科定理）当时，经验分布函数关于均匀地依概率收敛到，既对任意其中记号“”表示上确界. 此定理的证明超出了本课程要求范围,故略去。由定理结论，对任意给定的很小的正数,当充分大时，是大概率事件,即对所有是大概率事件。由实际推断原理，一次抽样后此事件必定发生，因而可用一次抽样获得的近似于，这里的近似对是一致的。需要指出的是，这里要求很大,也就是说抽取的是大样本（容量大的样本)。 8。2。2 频数频率分布表样本数据的整理是统计研究的基础，整理数据的最常用的方法之一是给出其频数分布表或频率分布表。我们从一个例子开始介绍。例8。2.2为研究某工厂工人生产某种产品的能力，我们随机调查了位工人每天生产的该种产品的数量，数据如下对这个数据（样本）进行整理，具体步骤如下： ⑴对样本进行分组。首先确定组数，作为一般性原则，组数通常在个，对容量较小的样本,通常将其分为组或组，容量为左右的样本可分到组,容量为左右的样本可分到组，容量为左右及以上的样本可分到组，目的是使用足够的组来表示数据的变异。本例中只有个数据,我们将之分为组，即 ⑵确定每组组距。每组区间长度可以相同也可以不同，实用中常选长度相同的区间以便于进行比较，此时各组区间的长度称为组距，其近似公式为组距（样本最大观测值样本最小观测值）/组数本例中，数据最大观测值为，最小观测值为，故组距近似为方便起见，取组距为 ⑶确定每组组限.各组区间端点为，形成如下的分组区间其中略小于最小观测值，略大于最大观测值，本例中可取于是本例的分组区间为：通常可用每组中的组中值来代表改组的变量取值，组中值（组上限组下限）/。 ⑷统计样本数据落入每个区间的个数—频数,并列出频数频率分布表。本例的频数频率分布表见下表，从表中可以读出很多信息，如：的工人产量在到之间；产量少于个的有人，占；产量高于的有人,占. 组序分组区间组值频数频率累计频率合计 8.2。3 样本数据的图形显示前面我们介绍了频数频率分布的表格形式，它也可以用图形表示，这在许多场合更直观。 ⒈直方图频数分布最常用的图形表示是直方图,它在组距相等场合常用宽度相等的长条矩形表示，矩形的高低表示频数的大小。在图形上,横坐标表示所关心变量的取值区间，纵坐标表示频数，这样就得到频数直方图，若把纵轴改成频率就得到频率直方图。为使诸长条矩形面积和为，可将纵轴取为频率组距，如此得到的直方图称为单位频率直方图，或简称频率直方图。此三种直方图的差别仅在于纵轴刻度的选择，直方图本身无变化。 ⒉茎叶图除直方图外，另一种常用的方法就是茎叶图，下面，我们从一个例子谈起。例8。2。3某公司对应聘人员进行能力测试，测试成绩总分为分。下面是位应聘人员的测试成绩（已经排过顺序) 我们用这批数据给出一个茎叶图，把每一个数值分为两部分，前面一部分(百位和十位）称为茎。后面部分（个位）称为叶，如然后画一条竖线，在竖线的左侧写上茎,右侧写上叶，就形成了茎叶图。应聘人员的茎叶图见图8.2 （图8。2测试成绩的茎叶图）茎叶图的外观很象横放的直方图,但茎叶图中叶增加了具体的数值，使我们对数据的具体取值一目了然，从而保留了数据中全部的信息。在比较两组样本时,可画出它们的背靠背的茎叶图,这是一个简单直观而有效的对比方法. 例8.2。4下面的数据是某工厂两个车间某天各名员工生产的产品数量（见下表），我们将这些数据放到一个背靠背茎叶图上(图8.3）甲车间乙车间（图8.3 两车间产量的背靠背茎叶图）在图8.3中，茎在中间，左边表示甲车间的数据，右边表示乙车间的数据。从茎叶图可以看出,甲车间员工的产量偏于上方，乙车间员工的产量大多位于中间，乙车间的平均产量高于甲车间.乙车间各员工的产量比较集中，而甲车间员工的产量比较分散。 §8。3 统计量及其分布 8.3。1统计量与抽样分布样本来自总体，样本的观测值中含有总体各方面的信息，但这些信息较为分散，有时显的杂乱无章。为将这些分散在样本中的有关总体的信息集中起来以反映总体的各种特征，需要对样本进行加工,表和图是一类加工形式，它使人们从中获得对总体的初步认识。当人们需要从样本获得对总体各种参数的认识时，最常用的方法是构造样本的函数，不同的函数反映总体的不同特征。定义8.3。1设为取自总体的样本，若样本函数中不含有任何未知参数，则称为统计量，统计量的分布称为抽样分布或称诱导分布。按照这一定义，若为样本，则以及8.2。1节中的都是统计量。而当未知时，等均不是统计量。必须指出的是：尽管统计量不依赖于未知参数，但是它的分布一般都是依赖于未知参数的。下面我们介绍一些常见的统计量及其抽样分布 8。3.2样本均值及其抽样分布定义8.3.2设为取自总体的样本值，其算术平均值称为样本均值，一般用表示，即在分组样本场合,样本均值的近似公式为其中为组数，为第组的组中值，为第组的频数. 例8。3。1某单位收集到名青年人的某月的娱乐支出费用数据：则该月这名青年的平均娱乐支出为将这个数据分组可得到如下频数频率分布：组序分组区间组值频数频率合计对上表的分组样本，使用公式(8.3.1)进行计算可得我们看到两种计算结果的不同,事实上,由于（8.3.2）式未用到真实的样本观测数据，因而给出的是近似结果。关于样本均值，有如下几个性质。定理8。3。1若把样本与样本均值之差称为偏差，则样本的所有偏差之和为，即。证明：证毕。定理8。3.2样本与样本均值的偏差平方和最小，即在形如的函数中，最小，其中为任意给定常数。证明：对任意给定的常数证毕。下面考虑样本均值的分布。现在我们给出关于样本均值抽样分布的一个重要结论. 定理8.3。3设是来自总体的样本，为样本均值。 ⑴如总体分布为，则的精确分布为 ⑵若总体分布未知或不是正态分布，但则较大时的渐进分布为,常记为这里渐进分布是指较大时的近似分布. 证明：⑴利用卷积公式，可得知由此可知 ⑵由中心极限定理，这表明较大时的渐进分布为证毕。 8.3。3样本方差与样本标准差定义8。3.3设为取自总体的样本，则它关于样本均值的平均偏差平方和称为样本方差，其算术根称为样本标准差。相对样本方差而言，样本标准差通常更有实际意义，因为它与样本均值具有相同的度量单位.在不大时，常用作为样本方差（也称无偏方差），其算术根也称为样本标准差，在实际中，比更常用. 在这个定义中，为样本量，称为偏差平方和，称为偏差平方和的自由度.其含义是：在确定后，个偏差中只有个值可以自由变动，而第个则不能自由取值,因为样本偏差平方和有三个不同的表达式：它们都可用来计算样本方差。在分组样本场合，样本方差的近似计算公式为其中为为第个区间的组中值和频数。例8。3.2考察例8.3。1的样本,我们已经计算得，其样本方差与样本标准差分别为下面的定理给出样本均值的数学期望和方差以及样本方差的数学期望，它不依赖于总体的分布形式。定理8.3。4设总体具有二阶矩，即为从该总体得到的样本，和分别是样本均值和样本方差，则此定理表明,样本均值的均值与总体均值相同，而样本均值的方差是总体方差的证明: 由于故（8。3。7）成立，下证（8。3。8)，注意到而于是两边各除，即得（8.3。8）式。证毕。 8.3。4样本矩及其函数样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量. 定义8。3。4设是样本，则统计量称为样本阶原点矩，特别，样本一阶原点矩就是样本均值。统计量称为样本阶中心矩.特别，样本二阶中心矩就是样本方差。当总体分布关于中心对称时，我们用和刻画样本特征很有代表性。而当其不对称时，只用和就显得很不够。为此,需要一些刻画分布形状的统计量。这里我们介绍样本偏度和样本峰度，它们都是样本中心矩的函数。定义8.3。5设是样本,则称统计量为样本偏度。样本偏度反映了总体分布密度曲线的对称性信息。如果数据完全对称,则不难看出对不对称的数据则这里用除以是为了消除量纲的影响,是个相对数，它很好地刻画了数据分布的偏斜方向和程度。定义8。3.6设是样本，则称统计量为样本峰度。样本峰度反映了总体分布密度曲线在其峰值附近的陡峭程度。当时,分布密度曲线在其峰值附近比正态分布来得陡，称为尖顶型；当时，分布密度曲线在其峰值附近比正态分布来得平坦，称为平顶型。例8.3.3下表是两个班（每班名同学）的英语课程的考试成绩。成绩组中值甲班人数乙班人数下面我们分别计算两个班级的平均成绩、标准差、样本偏度及样本峰度.以下两个表分别给出甲班和乙班的计算过程。甲班成绩的计算过程：和乙班成绩的计算过程：和可算得两个班的平均成绩、标准差、样本偏度、样本峰度分别为：由此可见，两个班的平均成绩相同，标准差也几乎相同，样本偏度分别为和显示两个班的成绩基本对称的。但两个班的样本峰度明显不同，乙班的成绩分布比较平坦，而甲班则稍显尖顶。 8。3.5次序统计量及其分布除了样本矩以外，另一类常见的统计量是次序统计量,它在实际和理论中都有广泛的应用。㈠定义定义8。3。7设是取自总体的样本，称为该样本的第个次序统计量,它的取值是将样本观测值由小到大排列后得到的第个观测值。称为该样本的次序统计量，称为该样本的最小次序统计量，称为该样本的最大次序统计量。我们知道，在一个(简单随机）样本中，是独立同分布的,而次序统计量则即不独立，分布也不相同。如下例例8.3。4设总体的分布为仅取得离散均匀分布，分布列为现从中抽取容量为的样本,其一切可能取值有种，现将它们列在下表，其右侧是相应的次序统计量观测值。样本取值及其次序统计量取值由于样本取上述每一组观测值的概率相同，都为，由此可给出的分布列如下我们可以清楚地看到这三个次序统计量的分布是不相同的。进一步,我们给出两个次序统计量的联和分布，如的联合分布列为因为，而,两者不等，由此可以看出是不独立的。接下来，我们讨论次序统计量的抽样分布,它们常用在连续总体上，故我们仅就总体的分布为连续情况进行叙述. ㈡单个次序统计量的分布定理8。3.5设总体的密度函数为,分布函数为为样本，则第个次序统计量的密度函数为证明略。这里最小次序统计量和最大次序统计量的密度函数分别为例8.3.5设总体密度函数为现从该总体抽得一个容量为的样本，试计算解：我们首先应求出的分布。由总体密度函数不难求出总体分布函数为由此利用公式（8.3.13)可以得到的密度函数为于是例8。3。6设总体分布为为样本，则其第个次序统计量的密度函数为这就是贝塔分布，从而有㈢多个次序统计量的联合分布下面我们讨论任意两个次序统计量的联合分布。对三个或三个以上次序统计量的分布可参照进行。定理8。3.6在定理8。3.5的记号下,次序统计量的联合分布密度函数为证明略. 在实际问题中会用到一些次序统计量的函数,如：称为样本极差,是一个很常用的统计量，要推导这个统计量的分布原则上并不难，我们只要使用定理8.3。6以及前面第二章讲过的随机变量函数的分布求法即可解决。但它们的分布常用积分表示,只在很少几种场合可用初等函数表示,下面是一个可用初等函数表示的例子。例8.3。7设总体分布为为样本，则的联合密度函数为令由可以推出，则这正是参数为的贝塔分布. 8.3。6样本分位数与样本中位数样本中位数也是一个很常见的统计量，它也是次序统计量的函数，通常如下定义：设是有序样本，则样本中位数定义为譬如，若则,若则要一般地，样本分位数可如下定义: 其中表示小于或等于的最大整数。譬如,若则,若则中位数对样本的极端值有抗干扰性,或称有稳健性。对多数总体而言，要给出样本分位数的精确分布通常不是一件容易的事。幸运的是当时样本分位数的渐进分布有比较简单的表达式，我们这里不加证明地给出如下定理。定理8.3.7设总体密度函数为为其分位数,在处连续且，则当时样本分位数的渐进分布为特别，对样本中位数,当时近似地有例8。3.8设总体分布为柯西分布，密度函数为其分布函数为不难看出是该总体的中位数，即，设是来自该总体的样本,当样本量较大时，样本中位数的渐进分布为 §8.4 三大抽样分布有很多统计推断是基于正态分布的假设的，以标准正态变量为基石而构造的三个著名的统计量在实际中有广泛的应用，这是因为这三个统计量不仅有明确背景，而且其抽样分布的密度函数有明显表达式，它们被称为统计中的“三大抽样分布" 8。4.1 分布(卡方分布）定理8.4。1设是独立同分布的随机变量,而每一个随机变量服从标准正态分布,则随机变量的分布密度为其中是伽玛函数在处的值.这种分布称为自由度为的分布,记为。随机变量称为变量。证明略（采用数学归纳法）. 分布的密度图形见图8。4。它随取不同的数值而不同。 (图8。4:分布密度函数）当时，对给定的，称满足的是自由度为的卡方分布的分位数，分位数可以从数学用表中查到。分布具有下列性质：定理8。4。2 设，则证明：设为独立同分布于的随机变量，则与同分布，且又由独立并注意到的四阶矩为，可得证毕。定理8.4。3设是个相互独立的随机变量，，则这个性质称为变量的可加性. 证明略(采用数学归纳法）. 定理8.4。4 设,则对任意有此性质说明很大时近似服从标准正态分布,亦即自由度很大的分布近似于正态分布 8.4.2 分布定理8。4.5设随机变量服从标准正态分布,随机变量服从自由度为的分布，且与相互独立，则的分布密度为这种分布称为自由度为的分布，简记为。它亦称学生（Student）分布.随机变量简称变量. 证明：令，先计算的分布密度。事实上,当时，的分布函数因此，分布密度显然，由于的值是非负的，所以当时，由的表达式，有.利用独立随机变量之商的分布密度公式可得的分布密度为：证毕。现在计算时分布密度的极限. 其中最后一个等号由函数性质获得。计算结果表明，当时分布密度趋于标准正态分布密度。分布的密度函数的图像是一个关于纵轴对称的分布，与标准正态分布的密度函数形状类似，只是峰比标准正态分布低一些，尾部的概率比标准正态分布的大一些。注:⑴自由度为的分布就是标准柯西分布,它的均值不存在； ⑵时，分布的数学期望存在且为 ⑶时，分布的方差存在,且为； ⑷当自由度较大（如)时，分布可以用分布近似。分布是统计学中的一类重要分布，它与标准正态分布的微小差别是由英国统计学家哥塞特(Cosset）发现的，哥塞特年轻时在牛津大学学习数学和化学，1899年开始在一家酿酒厂担任酿酒化学技师,从事实验和数据分析工作，由于哥塞特接触的样本容量都比较小，只有个，通过大量的数据积累，哥塞特发现的分布与传统认为的分布并不同，特别是尾部概率相差比较大。由此，哥塞特怀疑是否有另一个分布族存在，通过深入研究，哥塞特于1908年以“Student”的笔名发表了此项研究成果，故后人也称分布为学生氏分布，分布的发现在统计学史上具有划时代的意义，打破了正态分布一统天下的局面，开创了小样本统计推断的新纪元. 当随机变量时,称满足的是自由度为的分布的分位数，分位数可以从数学用表中查到. 由于分布的密度函数关于对称,故其分位数间有如下关系: 8。4.3 分布定理8。4.6设和分别服从自由度为的分布，且与相互独立，则的分布密度为这种分布称为第一自由度为，第二自由度为的分布,或自由度为的分布，记为.随机变量简称变量。证明：令的分布密度分别是由于，用独立随机变量之商分布密度公式，当时,的分布密度显然，由于的值非负，故当时，证毕。当随机变量时，对给定称满足的是自由度为与的分布的分位数。由分布的构造知，若，则有,故对给定从而这说明 8。4.4一些重要的结论来自一般正态总体的样本均值和样本方差的抽样分布是应用最广的抽样分布，下面我们加以介绍。定理8.4。7设是来自正态总体的样本,其样本均值和样本方差分别为则有 ⑴与相互独立； ⑵ ⑶ 证明略. 推论8.4.1 在定理8。4。7的记号下，有证明:由定理8。4。7⑵可以推出将（8。4.1）式左端改写成由于分子是标准正态变量,分母的根号里是自由度为的变量除以它的自由度，且分子与分母相互独立,故由分布的定义可知。证毕. 推论8.4。2设是来自的样本，是来自的样本，且此两样本相互独立,记其中则有特别，若，则证明：由两样本相互独立可知，与相互独立，且由分布定义可知证毕。推论8.4。3 在推论8.4。2的记号下，设，并记则证明：由与独立，故有所以由定理8.4.7知，且它们都是相互独立,则由可加性知由于与相互独立,根据分布的定义即可得到证毕. §8.5 充分统计量 8.5。1 充分性的概念统计量是把样本中的信息进行加工处理的结果，它可简化数据，便于统计推断，人们自然希望这种加工处理不损失原来样本中的信息，不损失信息的统计量就是充分统计量，下面对“不损失信息”给出明确的数学含义。例8.5.1为研究某个运动员的打靶命中率,我们对该名运动员进行测量，观测其次，发现除第三次、六次未命中外,其余次都命中,这样观测结果包含了两种信息： 1）打靶次命中次； 2）次不命中分别出现在第次打靶上; 第二种信息对了解该运动员的命中率是没有什么帮助的:设想我们对该运动员的观测结果是第一、二次未命中，其余都命中，虽然样本观测值是不一样的,但是它们提供的关于命中率的信息是一样的。因此，在绝大多数实际问题中，试验编号信息常常对了解总体或其参数是无关重要的，所以人们常在做试验前对样本进行随机编号。一般地，设我们对该运动员进行次观测,得到，每个取值非即，命中为,不命中为，令为观测到的命中次数，在这种场合仅仅记录使用不会丢失任何与命中率有关的信息，统计上将这种“样本加工不损失信息”称为“充分性”。上面我们直观地给出了关于“充分性”的概念，接下来我们从概率层面对之进行分析.我们知道样本有一个样本分布，这个分布包含了样本中一切有关的信息，统计量也有一个抽样分布。当我们期望用统计量代替原始样本并且不损失任何有关的信息时，也就是期望抽样分布像一样概括了有关的一切信息，换言之，我们考察在统计量的取值为的情况下样本的条件分布可能有两种情况: ⑴依赖于参数，此条件分布仍含有的信息。 ⑵不依赖于参数，此条件分布已不含的信息。后者表明，条件“”的出现使得从样本分布到条件分布，有关的信息消失了.这就说明有关的信息都含在统计量之中，当已知统计量的取值之后，也就知道了样本中关于的所有信息，这正是统计量具有充分性的含义。例8.5。2设总体为二点分布，为样本，令,则在给定的取值后，对任意的一组,有可见该条件分布与无关，若令,由于只是用了前面两个样品观测值，显然没有包含样本中所有关于的信息,在给定的取值后，对任意的一组,有这个分布依赖于未知参数，这说明样本中有关的信息没有完全包含在统计量中。从上例可以直观地看出，用条件分布与未知参数无关来表示统计量不损失样本中有价值的信息是妥当的.由此可以给出充分统计量的定义。定义8。5.1设是来自某个总体的样本,总体分布函数为，统计量称为的充分统计量，如果在给定的取值后，的条件分布与无关。应用中条件分布可用条件分布列或者条件密度函数来表示。例8。5.3设是来自的样本，，则，易计算该分布与无关，这说明是的充分统计量，其中最后一个等式成立是因为有如下的平方和分解： 8。5.2 因子分解定理在统计学上有一个基本原则:在充分统计量存在场合，任何统计推断都可以基于充分统计量进行，这可以简化统计推断的程序,通常将该原则称为充分性原则,然而在一般场合直接由定义8.5.1出发验证一个统计量是否充分是困难的,因为条件分布的计算通常不那么容易，幸运的是，我们有一个简单办法判断一个统计量是否充分，这就是下面的因子分解定理，它由统计学家奈曼（Neyman)给出。为简便起见，我们引入一个在两种分布类型通用的概念-—概率函数，称为随机变量的概率函数；在连续型场合,表示的概率密度函数；在离散型场合，表示的概率分布列. 定理8。5。1（因子分解定理）设总体概率函数为为样本，则为充分统计量的充分必要条件是：存在两个函数和是的对任意的和任一组观测值，有其中是通过统计量的取值而依赖于样本的. 证明略。例8。5。4 设是取自总体的样本,即总体的密度函数为于是样本的联合密度函数为由于诸，所以我们可将上式改写为取，并令，由因子分解定理知是的充分统计量。例8。5.5 设是取自总体的样本，是未知的,则联合密度函数为取并令则由因子分解定理，是充分统计量，进一步，我们指出这个统计量与是一一对应的，这说明在正态总体场合常用的就是充分统计量. §8。6 小结本章的主要内容包括以下几个方面: ⒈总体与样本 ⑴总体与个体；⑵样本。 ⒉样本数据整理与显示 ⑴经验分布函数；⑵频数频率分布表；⑶样本数据的图形显示。 ⒊统计量及其分布 ⑴统计量及其抽样分布；⑵样本均值及其抽样分布；⑶样本方差与样本标准差； ⑷样本矩及其函数;⑸次序统计量及其分布;⑹样本分位数与样本中位数。 ⒋三大抽样分布 ⑴分布；⑵分布；⑶分布；⑷一些重要的结论。 ⒌充分统计量 ⑴充分性的概念；⑵因子分解定理.

展开阅读全文