收藏 分销(赏)

第五章数理统计的基础知识.doc

上传人:精*** 文档编号:2263166 上传时间:2024-05-24 格式:DOC 页数:17 大小:1.15MB 下载积分:8 金币
下载 相关 举报
第五章数理统计的基础知识.doc_第1页
第1页 / 共17页
第五章数理统计的基础知识.doc_第2页
第2页 / 共17页


点击查看更多>>
资源描述
第五章 数理统计的基础知识 在前四章的概率论部分中,我们讨论了概率论的基本概念、思想和方法。知道随机变量的统计规律性是通过随机变量的概率分布来全面描述的。在概率论的许多问题中,概率分布通常是已知的或假设为已知的,在这一前提下我们去研究它的性质、特点和规律性,即讨论我们关心的某些概率、数字特征的计算以及对某些问题的判断、推理等。 但在许多实际问题中,所涉及到的某个随机变量服从什么分布我们可能完全不知道,或有时我们能够根据某些事实推断出分布的类型,但却不知道其分布函数中的某些参数。 例如:1、某种电子元件的寿命服从什么分布是完全不知道的。 2、检测一批灯泡是否合格,则每个灯泡可能合格,也可能不合格,则服从(0—1)分布,但其中的参数p未知。 对这类问题要深入研究,就必须知道与之相应的分布或分布中的参数.数理统计要解决的首要问题就是:确定一个随机变量的分布或分布中的参数. 数理统计学是研究随机现象规律性的一门学科,它以概率论为理论基础,研究如何以有效的方式收集、整理和分析受到随机因素影响的数据,并对所考察的问题作出推理和预测,直至为采取某种决策提供依据和建议。 数理统计研究的内容非常广泛,可分为两大类: 一是:怎样有效地收集、整理有限的数据资料. 二是:怎样对所得的数据资料进行分析和研究,从而对所考察对象的某些性质作出尽可能精确可靠的判断—本书中参数估计和假设检验。 第一节 数理统计的基本概念 一、总体与总体的分布 在数理统计中,我们将研究对象的全体称为总体或母体,而把组成总体的每个元素称为个体。总体中所包含的个体的个数称为总体的容量. 容量为有限的总体称为有限总体;容量为无限的总体称为无限总体. 总体和个体之间的关系就是集合与元素之间的关系。 在实际问题中,研究对象往往是很具体的事物或现象,而我们所关心的不是每一个个体的种种具体的特征,而是其中某项或某几项数量指标,记为. 例如:研究一批灯泡的平均寿命时,该批灯泡的全体构成了研究的总体,其中每个灯泡就是个体. 但在实际问题中,我们仅仅关心灯泡的使用寿命(记表示该批灯泡的寿命)。则就是我们研究的总体(所有灯泡寿命的集合),每一个灯泡的寿命就是一个个体。 再如:考查某一群体的身高和体重,则全体人员的(身高、体重)是总体,每个人的身高和体重是个体。 由此给出定义: 总体:对所研究对象的某些指标进行试验,将试验的全部可能的观测值称为总体记为X。 个体:每一个可能的观测值称为个体。 对不同的个体,的取值一般是不同的。例如在试验中观察若干个个体就会得到的一种数值,但在试验或观察之前,无法确定会得到一组什么样的数值,所以是一个随机变量或随机向量,而的分布也就完全描述了我们所关心的指标,即总体的分布。 为方便起见,以后我们将的可能取值的全体组成的集合称为总体,或直接称随机变量为总体,的分布也就是总体的分布。 例如:正态总体:是指表示总体某个数量指标的随机变量服从正态分布。 【注1】总体的分布一般情况下是未知的,这就需要利用总体中部分个体的数据资料来对总体服从的分布进行检验—这是分布拟合检验(非参数检验)问题;有时即使知道总体所服从的分布,但分布中的参数未知,这也需利用利用总体中部分个体的数据资料来对总体服从的分布中的未知参数进行统计推断(参数估计)。而这就需要从总体中抽取若干个体进行观察,从中获得研究总体的一些观察数据,然后通过这些数据的统计分析,对总体的分布进行判断或对总体的参数做出合理的估计。而一般的方法是按照一定的原则从总体中抽取若干个体进行观察,这个过程称为随机抽样. 二、样本与样本的分布 由于每个个体的观察结果具有随机性,因此可以将第i次抽取的个体记为,则为随机变量,为此引入以下概念。 1、样本:从一个总体中,随机的抽出n个个体,通常记为这样取得的称为总体的一个样本。样本所含的个体数目称为样本容量. 【注2】:(1)由于每个 都是从总体中随机抽出的,因此是一个随机变量,而样本就是n维的随机向量. (2)在依次取n个个体观测完毕后,得到n个具体的数据,称为样本的观测值-样本值。 因此样本本身是随机向量,而一经抽取就是一组确定的数值,这就是所谓的样本两重性. 2、简单随机样本 我们的目的是根据从总体中抽取的一个样本值对总体X的分布或某些特征进行各种分析推断,所以要求抽取的样本能很好地反映总体的特性,为此我们要求随机抽取的样本满足: (1)具有代表性。即样本的每个分量Xi与总体X有相同的分布; (2)具有独立性。即是相互独立的随机变量,也就是说,n次观察值之间是互相独立的; 满足上述两条的样本称为简单随机样本,今后如无特别说明,所说的样本均指简单随机样本. 在实际问题中,抽取简单随机样本的方法很简单: (1)放回抽样; (2)不放回抽样:有限总体,当样本容量远小于总体容量时,不放回近似代替放回; 无限总体,总是用不放回抽样. 综合上述,给出明确的数学概念: 定义一:一个随机变量X或其相应的分布函数(分布律、密度函数)称为一个总体. 定义二:若随机向量是相互独立的随机变量且每个分量Xi与总体X有相同的分布,则称是来自总体的容量为n的简单随机样本。 简单随机样本的分布有如下性质: 设总体X的分布函数为(称为总体分布函数),或密度函数或分布律(称为总体概率密度),则来自总体的样本的 联合分布函数:,称为样本分布函数 联合密度函数:,称为连续样本密度函数 联合分布律:,称为离散样本密度 【例1】 总体服从参数为的(0—1)分布,,求的分布。 【解】由题意的分布律为, 设为来自的简单随机样本值,则的联合概率分布为 【例2】总体服从,求样本的联合密度函数. 【解】设为来自的简单随机样本值,则的联合概率分布为 三、统计推断问题简述 总体和样本是数理统计中的两个基本概念. 样本来自总体,自然带有总体的信息,从而可以从这些信息出发去研究总体的某些特征(分布或分布中的参数)。 另一方面,由样本研究总体可以省时省力(特别是针对破坏性的抽样试验而言). 我们称通过总体的一个样本对总体的分布进行推断的问题为统计推断问题。 总体、样本、样本值的关系: 总体 ↙ ↖推断 (个体)样本 → 样本值 抽样 在实际应用中, 总体的分布一般是未知的, 或虽然知道总体分布所属的类型, 但其中包含着未知参数。 统计推断就是利用样本值对总体的分布类型、未知参数进行估计和推断。 通过观察或试验得到的样本值,一般是杂乱无章的,例如: 例1样本的一些例子与观察值的表示方法: (1) 某食品厂用自动装罐机生产净重为345克的午餐肉罐头, 由于随机性, 每个罐头的净重都有差别. 现在从生产线上随机抽取10个罐头, 秤其净重, 得如下结果: 344 336 345 342 340 338 344 343 344 343 这是一个容量为10的样本的观察值, 它是来自该生产线罐头净重这一总体的一个样本的观察值。 (2) 对363个零售商店调查周售额(单位:元)的结果如下: 这是一个容量为363的样本的观察值, 对应的总体是所有零售店的周零售额. 不过这里没有给出每一个样本的具体的观察值, 而是给出了样本观察值所在的区间, 称为分组样本的观察值。这样一来当然会损失一些信息, 但是在样本量较大时, 这种经过整理的数据更能使人们对总体有一个大致的印象。 通过该例可以看出,以上的两种样本值的表示方法,虽然能够反应出总体的一些大致的信息,但不够直观,判断不出总体服从什么分布。为了对总体的分布有一个大致的判断,就需要对所获得的样本值进行整理,而分组数据统计表或频率直方图是两种常用整理方法。 四、分组数据统计表和频率直方图 1。 分组数据表:若样本值较多时,可将其分成若干组,分组的区间长度一般取成相等, 称区间的长度为组距。 分组的组数应与样本容量相适应. 分组太少,则难以反映出分布的特征,若分组太多,则由于样本取值的随机性而使分布显得杂乱。 因此,分组时,确定分组数(或组距)应以突出分布的特征并冲淡样本的随机波动性为原则. 区间所含的样本值个数称为该区间的组频数. 组频数与总的样本容量之比称为组频率。 2. 频数直方图: 设是总体的一个样本,又设总体具有概率密度,如何用样本来推断?注意到现在的样本是一组实数,因此,一个直观的办法是将实轴划分为若干小区间,记下诸观察值落在每个小区间中的个数,根据大数定律中频率近似概率的原理,从这些个数来推断总体在每一小区间上的密度。具体做法如下: 设是样本的个观察值. (i) 求出中的最小者和最大者; (ii) 选取常数(略小于)和(略大于),并将区间等分成个小区间(一般取使在左右): , 一般情况下,小区间不包括右端点。 (iii) 求出组频数,组频率,以及 (iv) 在上以为高,为宽作小矩形,其面积恰为,所有小矩形合在一起就构成了频率直方图 频率直方图能够大体刻画总体的分布情况. 实际上,我们就是用直方图对应的分段函数 来近似总体的密度函数.这样做为什么合理?我们引进“随机变量”,对每个小区间,定义 则是独立同分布于两点分布: 其中,由大数定律,我们有 以概率为1成立,于是当充分大时,就可用来近似代替上式右边以()为曲边的曲边梯形的面积,而且若充分大,较小时,我们就可用小矩形的高度来近似取代. 课本例4 : 根据频率直方图可见,该零件的质量服从正态分布,其数学期望大约为209,这可通过第七章的分布拟合进行检验. 【注2】样本的频率直方图可以形象地描述总体的概率密度的大致形态。 五、经验分布函数 对于总体的分布函数(未知),设有它的样本,我们同样可以从样本出发,找到一个已知量来近似它,这就是经验分布函数。 定义 设总体的一个容量为n的样本的样本值可按大小次序排列成 则不大于的样本值的频率为 因而函数 与事件在n次独立重复试验中的频率是相同的,我们称为经验分布函数. 【注3】是一个阶梯状的函数,在,处有跃度为的间断点,若有个观察值相同,则在此观察值处的跃度为.对于固定的,即表示事件{}在次试验中出现的频率,即{落在中的个数}。用与直方图分析相同的方法可以论证,,以概率为1成立。 经验分布函数的图形如图. 对于经验分布函数, 格里汶科(Glivenko)在1933年证明了以下的结果: 对于任一实数x, 当时以概率1一致收敛于分布函数, 即 因此, 对于任一实数x当n充分大时, 经验分布函数的任一个观察值与总体分布函数只有微小的差别, 从而在实际中可当作来使用。 课本例5 【注4】由图可以看出,经验分布函数是一个阶梯状的曲线,我们可以想象,当样本容量增大时,相邻两阶梯的跃度将降低,阶梯的宽度将变窄,这样阶梯状的折线几乎能变成一条曲线,则经验分布函数非常接近总体的分布函数。这就是由样本推断总体其可行性的最基本的理论依据.分布拟合检验的理论依据. 六 统计量 样本是总体的代表和反映,但在抽取样本后,由于样本只是呈现为一堆“杂乱无章”的数据,虽然通过频率直方图或经验分布函数能够大致了解总体的分布曲线,但无从知道总体到底服从什么分布,因此需要对样本的观测值进行加工和提炼。 课本例6 试对该该工厂的工人周工资的水平和收入悬殊程度做个大致分析.显然,如果不进行加工,面对这大堆大小参差不齐的数据,你很难得出什么印象。但是只要对这些数据稍事加工,便能作出大致分析:如记各工人的周工资数为,则考虑 它反映了该厂工人周工资的一般水平; 收入的差别程度可以考虑 这说明收入的差别不大,当然这需要一定的参照资料。由此可见对样本的加工是十分必要的。 对样本加工,主要就是构造统计量. 定义:设为来自总体X的一个样本,为一个n元连续函数,若中不含任何未知参数,则称为一个统计量. 例:设总体X服从正态分布N(,),其中,未知。是从正态总体X中抽取的一个样本,则 ,,均是样本的统计量, 而, ,都不是统计量。 【注4】:统计量常用大写字母表示,若样本取得一组具体的数字,统计量用小写字母表示. 七、常用的统计量—样本矩-样本的数字特征 复习:随机变量矩的定义 设X与Y是随机变量。若存在,则称它为X的k阶原点矩. 若存在,则称它为X的k阶中心矩. 常见的统计量 设为总体的样本,则下列各量均是统计量,它们今后要经常被用到。 (1),称为样本均值—— 一阶样本原点矩.(反映总体均值的信息) (2),称为样本方差. (反映总体方差的信息) (3),称为样本标准差。 (4),称为样本阶原点矩)。(反映总体k阶矩的信息) (5),称为样本阶中心矩。(反映总体k阶中心矩的信息) 如果取得样本的观测值,则由上述的公式可得到相应的样本矩的观测值,分别被称为样本均值、样本方差、样本标准差、样本阶矩、样本阶中心矩。 (6)顺序统计量 将样本中的各分量按由小到大的次序排列成 则称为样本的一组顺序统计量, 称为样本的第个顺序统计量。 特别地, 称称为最小顺序统计量,也称为样本极小值; 称称为最大顺序统计量,也称为样本极大值, 称为样本的极差. 称为样本中位数 注意,对于简单随机样本,各个观测值是独立并且与总体X同分布的随机变量,然而既不独立也不同分布. 实际上,最小顺序统计量的分布就是最小分布,最小顺序统计量的分布就是最大分布。 【例7】 设电子元件的寿命服从参数的指数分布,今独立测试个元件,记录它们的失效时间。求 (1)没有元件在800小时之间失效的概率;(2)没有元件最后超过3000小时的概率. 【解】由题意, 设分别表示6个元件的寿命,则独立同分布于, 由题意知,“没有元件在800小时之间失效”等价于; “没有元件最后超过3000小时"等价于。所以 (1) (2) 我们关心的问题是如何用以上统计量的观测值去推断总体的分布,即总体的数字特征。 一、 相关的理论依据 1、 样本的k阶原点矩依概率收敛于总体的k阶原点矩 定理:如果总体X的k阶原点矩存在,则有 证明: 从而由辛钦大数定律有, 即: 2、 样本矩的函数以概率收敛于总体矩的函数 以上两条是:下一章矩估计法的理论依据.,即可用样本观测值的k阶原点矩去估计总体的k阶原点矩(特别的,可用样本(观测值)的均值去估计总体的均值(数学期望);参数估计的理论依据. 3、 当n充分大时,可用样本观测值的经验分布函数来近似代替总体分布函数。 第二节 常用统计分布 统计量是我们对总体的分布规律或数字特征进行推断的基础。在使用统计量进行推断时必须要知道它的分布。在数理统计中,统计量的分布称为抽样分布,因而确定统计量的分布是数理统计的基本问题之一.下面我们介绍三类重要的分布。 一 分位数 设随机变量的分布函数为, 对给定的实数 若实数满足不等式 , 则称为随机变量的分布的水平的上侧分位数。 若实数满足不等式 , 则称为随机变量的分布的水平的双侧分位数. 例1设, 求标准正态分布的水平0.05的上侧分位数和双侧分位数. 复习正态分布 1、 定义:来自总体 则随机变量 服从正态分布 , 特别地若:来自总体则, 2、 密度函数 3、图形 4、性质 5、上分位数:双侧分位数 (二)c2分布 1、定义:设相互独立同分布于标准正态分布,即则随机变量服从自由度为n的c 2分布,记。 这里自由度n是指独立变量的个数。特别的 图6-1 分布密度函数曲线 2、c2分布的密度函数 其中为函数,其定义为 3、图形:给出n =1,4,10,20时的c 2分布的密度函数的曲线。 4、性质 (1)数学期望和方差: 证明:因为 所以 而 所以 图6-2 分布的上 分位点 (2)可加性 若,则 该结论可推广到n个独立服从卡方分布随机变量 3、 上侧分位数 定义:统计量,则称的点为分布的上侧分位数。(0<<1) 用法是:已知和n,求出; 已知中的k和n。查表求. 查表求上分位点 443页表中给出了不同的自由度和确定的概率值对应的上分位点的值. 如:查等等。 几点说明: (1)中上分位点的意义是:我们需要求的是当随机变量在[,+]取值时,其概率为给定的. (2)表中只列出自由度为1—45的分布值。当自由度n〉45时,用以下近似计算公式: 其中为标准正态分布的上分位点 如: 例2设是来自总体的样本, 又设 试求常数C, 使服从分布. (三)t分布(学生分布) 1、定义:设,且与相互独立,则称随机变量 服从自由度为的分布,记为。 2、密度函数: 3、密度函数图形特点: (1)是偶函数,图形关于纵轴对称. (2),因此当n 充分大时,其图形近似为标准正态分布的密度函数图形.随着的增大,的密度曲线与的密度曲线越来越接近,一般若,就可认为它基本与相差无几了。 4、分位数 (1)上侧分位数定义:统计量,则称的点为分布的上侧分位数。(0〈〈1), 显然有查表求。 (2)双侧分位数 由密度函数的对称性有 例;课本132页 , 则查表可知, 所以有 【注】(1)当n>45时可用正态近似, ,查正态分布表可得; (2)为分布的上侧分位数,则 . 【例3】 (四)F分布 1、定义:设相互独立,分别服从自由度为的分布,则随机变量 服从自由度为的分布,记为 2、密度函数 3、图形 4、性质:如果 (1) (2)如果,则: 5、上分位数 图6-7 F分布的上 分布点 (1)定义:满足的点为分布的上侧分数 (2)性质: 证明:事实上,设,则 且 于是 , 由a分位点的定义,显然成立。 (3)查表:例如:课本133 课本例4 第三节 抽样分布 抽样分布,实际上就是随机变量函数的分布,只是强调这一分布是由统计量所产生的。 统计量是我们对总体的分布规律或数字特征进行推断的基础。在使用统计量进行推断时必须要知道它的分布。当总体的分布已知时,统计量的分布是确定的,能够求出来,如前面所讲的样本矩,但是要精确求出统计量的分布,一般来说是比较困难的。 在数理统计中,统计量的分布称为抽样分布,因而确定统计量的分布是数理统计的基本问题之一。 本节我们重点讨论正态总体的抽样分布,即由从正态总体中抽取的样本构造成的统计量服从何种分布,这是属于小样本统计范畴。 下面我们介绍来自正态总体的四类重要的分布。 一、来自单个正态总体的抽样分布 定理1:设是来自总体X的容量为n的样本,为样本均值,为样本方差,则有以下结论 (1)样本均值: 或 。板书证明 (2)样本方差: 其中 记住结论,不用证明,注意与(4)比较 (3)样本均值和样本方差独立 (4) 板书证明,记住结论,注意与(2)比较 (5) 板书证明 例题讲解 课本例1、设为来自总体的样本,求: (1)样本均值的数学期望与方差;(2) 例2、(课后习题1)已知离散型总体X的分布律为 X 2 4 6 P 1/3 1/3 1/3 取容量为n=54的样本,求 (1)样本均值落在4.1到4.4之间的概率;(2)样本均值超过4。5的概率 解:由题意, (1) (2) 例3、 例4. 二、来自两个正态总体的抽样分布 定理: 设与分别为来自正态总体和的简单随机样本,且两样本之间相互独立,设与为样本均值, 为样本方差 则 (1) (2) (3) 若进一步假设,有 其中 证明 例题讲解: 例5(课后习题3)设与分别来自两个独立总体及的样本,以和表示两个样本的均值,求。 解:因为独立同分布于,所以 因为独立同分布于,所以 所以,即 所以 例6(课后习题10)分布从方差为20和35的正态总体中抽取容量为8和10的两个样本,求第一个样本方差不小于第二个方差的两倍的概率. 解:设,和分别为两个样本方差。 因为,即 所以 因为由,所以 例7从正态总体中抽取容量为16的样本,试求: (1) 已知;(2) 未知,但已知样本方差的情况下,样本均值与总体均值 m 之差的绝对值小于2的概率. 解 (1) 由于统计量 因此在s 2已知时, (2) 由于s 2未知,但S 2=20。8,这时统计量 因此 查t分布表得t 0。05(16-1)=1。753,P (t ³1。753)=0.05。由此可得 以上结论在后面将经常用到,必须记住。另外,对其它总体,虽然很难求到其精确的抽样分布,但我们可以利用中心极限定理等理论得到当n较大时的近似分布,这就是统计问题中的大样本问题,在此我们不加讨论。 三、一般总体抽样分布的极限分布. 设总体X的期望为,方差为,为样本均值,为样本方差,则有下列结论: 当样本容量充分大时,近似服从,近似服从, 这属于大样本统计范畴。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 考试专区 > 中考

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服