资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第九章,抽样与抽样估计,1,第,1,节 抽样与抽样分布,一、有关抽样的基本概念,总体,(Population),研究对象的全体称为总体,样本(子样),(Sample),从总体中抽取一部分个体进行试验或观察,这种从总体中抽取个体的行为称为抽样。而从总体中抽样所得的一部分个体叫样本,总体参数,(,Population parameter,),描述总体分布特征的数值,样本统计量,(,Sample statistic,),2,抽样方法,重置抽样,(重复抽样),(Sampling with replacement),要从总体,N,个单位中随机抽取一个容量为,n,的样本,每次从总体中抽取一个单位,把顺序号登记下来之后,重新放回参加下一次抽选,连续反复抽取,n,次组成所要求容量的样本。,不重置抽样,(不重复抽样),(Sampling without replacement),要从总体,N,个单位中随机抽取一个容量为,n,的样本,每 次从总体中抽取一个单位,被抽中的单位不再放回参加下一次抽选,连续进行次便组成样本。,不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样。,3,抽样的组织方式,简单随机抽样,:,从总体中抽取样本最常用的方法。从容量为,N,的总体中进行抽样,如果容量为,n,的每个可能样本被抽到的可能性相等,则称容量为,n,的样本为简单随机样本。,分层抽样:也称分类抽样或类型抽样,它是按某个主要标志对总体各单位进行分类,然后从各层中按随机原则分别抽取一定数目的单位构成样本。,整群抽样:也称丛聚抽样或集团抽样。它是将总体分为若干部分,(,每一部分称为一个群,),,然后按随机原则从中一群一群地抽选,对抽中群内的所有单位进行全面调查。,系统抽样也称机械抽样。它是先将总体单位按一定顺序排队,计算出抽样间隔(或抽样距离),然后按固定的顺序和间隔抽取样本单位。,4,总体分布,(population distribution),5,样本分布,(sample distribution),一个样本中各观察值的分布,也称经验分布,当样本容量,n,逐渐增大时,样本分布逐渐接近总体的分布,样本,6,7,二、抽样分布,(Sampling distribution)1,、抽样分布的意义,对统计量的所有可能取值及其对应概率的描述,就是统计量的抽样分布,即,抽样分布,。,抽样分布反映样本统计量的分布特征,根据抽样分布的规律,可揭示样本统计量与总体参数之间的关系,计算抽样误差,并说明抽样推断的可靠程度。,8,抽样误差:,误 差,登记性误差,代表性误差,系统性误差,随机性误差,登记性误差是指在调查和汇总过程中由于观察、测量、登记、计算等方法的差错或被调查者提供虚假资料而造成的误差。任何一种统计调查都可能产生登记性误差。,代表性误差是指用样本指标推断总体指标时,由于样本结构与总体结构不一致、样本不能完全代表总体而产生的误差。,系统性误差是指由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的值系统偏低或偏高。,随机性误差又称偶然性误差,是指遵循随机原则抽样,由于随机因素(偶然性因素)引起的误差。抽样估计中的所谓抽样误差,就是指的这种随机误差。,9,抽样误差,登记性误差:存在于一切调查中,代表性误差:仅产生于抽样调查,不可避免。,代表性误差,抽样误差在实际一次调查中是调查不出来的,但其平均值是可以推算的,系统性误差:不随样本量增减而变化,随机误差(抽样误差):随样本量增大而减小,10,抽样平均误差和抽样极限误差,抽样平均误差:所有可能的样本指标与总体指标间的平均差异程度。,11,抽样极限误差,样本指标与总体指标之间允许的误差范围叫抽样极限误差。也称抽样允许误差。,它是样本指标可允许变动的上限或下限与总体指标,之差的绝对值。,即:,12,落在总体均值某一区间内的样本,X,95.45%,的样本,99.73%,的样本,x-3,68.27%,的样本,x-2,x-,X+3,X+2,X+,x,13,大数定律及中心极限定理,重复抽样:,(,1,)总体是正态分布,样本必然是正态分布,(,2,)样本平均数的平均数等于总体平均数,(,3,)样本平均数的方差等于总体方差除以样本,容量,n,(,4,),n,越大,样本平均数越趋近于正态分布,14,例:样本均值的抽样分布,【,例,】,设一个总体,,含有,4,个元素,(,个体,),,即总体单位数,N,=,4,。,4,个个体分别为,X,1,=1,、,X,2,=2,、,X,3,=3,、,X,4,=4,。总体的均值、方差及分布如下,总体分布,1,4,2,3,0,.1,.2,.3,均值和方差,15,现从总体中抽取,n,2,的简单随机样本,在重复抽样条件下,共有,4*4=16,个样本。所有样本的结果为,3,4,3,3,3,2,3,1,3,2,4,2,3,2,2,2,1,2,4,4,4,3,4,2,4,1,4,1,4,4,1,3,3,2,1,1,2,1,1,1,第二个观察值,第一个,观察值,所有可能的,n,=2,的样本(共,16,个),16,计算出各样本的均值,如下表。并给出样本均值的抽样分布,3.5,3.0,2.5,2.0,3,3.0,2.5,2.0,1.5,2,4.0,3.5,3.0,2.5,4,2.5,4,2.0,3,2,1,1.5,1.0,1,第二个观察值,第一个,观察值,16,个样本的均值,X,样本均值的抽样分布,1.0,0,.1,.2,.3,P,(,X,),1.5,3.0,4.0,3.5,2.0,2.5,17,样本均值的分布与总体分布的比较,=2.5,2,=1.25,总体分布,1,4,2,3,0,.1,.2,.3,抽样分布,P,(,X,),1.0,0,.1,.2,.3,1.5,3.0,4.0,3.5,2.0,2.5,X,18,大数定律及中心极限定理,不重复抽样:,(,1,)总体是正态分布,样本必然是正态分布,(,2,)样本平均数的平均数等于总体平均数,(,3,)样本平均数的方差等于总体方差除以样本,容量,n,(,4,),n,越大,样本平均数越趋近于正态分布,19,抽样平均误差,(,1,)均值,重复抽样:,不重复抽样:,20,抽样平均误差,(,1,)比例,重复抽样:,不重复抽样:,21,影响抽样误差大小的因素是:,总体被研究标志的变异程度。,在其他条件不变的情况下,总体标志的变异程度愈小,则抽样误差也愈小;总体标志的变异程度愈大,则抽样误差也愈大。,抽样单位数的多少。,在其他条件不变的情况下,抽样单位数愈多,抽样误差愈小;抽样单位数愈少,抽样误差愈大。,抽样的方法。,在其他条件不变的情况下,重复抽样的抽样误差大于不重复抽样。,抽样的组织形式,。,抽样误差的大小与样本单位数的平方根成反比:如果抽样误差要减少二分之一,则样本单位数必须增大到,4,倍。,22,例、从某校,1000,名学生中简单随机抽取,50,名学生,称得平均体重为,50,千克,若已知总体标准差为,10,千克,计算重复抽样及不重复抽样下抽样平均误差。,解:重复抽样条件下,,不重复抽样条件下,,在样本量相同的情况下,不重复抽样的平均误差要小于重复抽样的平均误差。,23,第,3,节 总体平均数和总体比例的估计,抽样估计必须包括三要素:,1,)估计值,2,)估计值的误差范围,3,)概率保证程度(置信度),24,一、,点估计,(Point estimate),点估计也称定值估计,常用点估计方法有矩估计,极大似然估计。,样本均值是总体均值的点估计量,样本方差,s,2,是总体方差,2,的点估计量,样本比例,p,是总体比例,P,的点估计量。,优良估计量的标准:无偏性 有效性 一致性,25,区间估计,就是根据样本求出总体未知参数的估计区间,并使其可靠程度达到预定要求。,(,1,),总体方差,2,已知时,由于 ,所以对于给定的置信度,1-,,有,即,可见,极限误差的计算公式为,则总体均值的置信区间为,26,例:从某大学学生中随机抽取,100,名调查体重情况。经称量和计算,得到平均体重为,58,千克。根据过去的资料知道大学生体重的标准差是,10,千克。在,95%,的置信水平下,求该大学学生平均体重的置信区间。,解:已知,=,58,,,=,10,,,z,/2,=,1.96,,,n=100,=,10/10=1,(千克),=,1.961=1.96,(千克),置信下限为,58-1.96=57.04,,,置信上限为,58+1.96=59.96,故所求置信区间为(,57.04,,,59.96,)千克。,27,(,2,),总体方差,2,未知时,由于 ,t(n-1),,对于给定的置信度,1-,,有,置信下限 置信上限,在大样本下,总体均值的置信区间为,28,例:某保险公司投保人年龄设某保险公司投保人年龄呈正态分布,现从中抽取,10,人,其年龄分别为:,32,,,50,,,40,,,24,,,33,,,44,,,45,,,48,,,44,,,47,岁。试以,95%,的置信水平估计该保险公司投保人的平均年龄。,解:,当置信度为,95%,时,,=2.2622 2.6544=6.00(,岁),因为,40.7-6.00=34.7 40.7+6.00=46.7,所以该保险公司投保人的平均年龄的置信区间为(,34.7,,,46.7,)岁,。,29,总体比例的区间估计,在大样本条件下,若,np5,,,n(1-p)5,,则样本比例趋近于正态分布。,对于给定置信度,有,总体比例的置信区间为,小样本条件下,不作介绍。,30,例:总体比例的区间估计,【,例,】,某城市想要估计下岗职工中女性所占的比例,随机抽取了,100,个下岗职工,其中,65,人为女性职工。试以,95%,的置信水平估计该城市下岗职工中女性比例的置信区间,解:,已知,n,=100,,,p,65%,1,-,=95%,,,z,/2,=1.96,该城市下岗职工中女性比例的置信区间为,55.65%74.35%,31,例:某厂对一批产品进行质量检验,随机重复抽取样品,100,只,样本合格品率为,95,,试计算把握程度为,90,的合格品率置信区间。,解:已知,n=100,,,p=95%,,,1-=90%,,查表得,z,/2,=1.96,=0.0218,p,=z,/2,=1.960.0218=0.0359,或,3.59%,95%-3.59%=91.41%,,,95%+3.59%=98.59%,故该批产品合格率的置信区间为(,91.41%,98.59%),32,第,5,节 样本容量的确定,在重复抽样下,,所以,必要抽样单位数,在不重复抽样下,必要抽样单位数,33,例:某市进行职工家庭生活费抽样调查,已知职工家庭平均每人每月生活费收入的标准差为,110,元,允许误差范围,10,元,概率把握程度,95%,,试确定应抽选的户数。解:,34,【,例,】,拥有工商管理学士学位的大学毕业生年薪的标准差大约为,2000,元,假定想要估计年薪,95%,的置信区间,希望边际误差为,400,元,应抽取多大的样本容量?,解:,35,影响必要抽样数目的因素,(,1,)允许误差范围,。当其它条件不变时,允许误差愈小,必要的抽样单位数就需要愈多;反之,允许误差愈大,抽样单位数就可以愈少。,(,2,)总体方差,2,。其他条件不变的情况下,总体方差,2,愈大,总体单位的差异程度愈大,则样本单位数应愈多;反之,样本单位数可愈少。,(,3,)抽样估计的可靠程度,1-,。当其他条件不变时,抽样估计的可靠程度愈高,,z,/2,数值愈大,抽样数目就必须愈多;反之,抽样估计的可靠程度愈低,抽样数目就可以愈少。,(,4,)抽样方法。相同条件下,由于采用重复抽样比不重复抽样的误差大,所以,前者应比后者多抽一些样本单位。,除上述因素之外,抽样组织方式也是影响抽样单位数的一个原因。,36,本章小结,总体分布、样本分布、抽样分布,单总体参数推断时样本统计量的分布,参数估计的一般问题,一个总体参数的区间估计,样本容量的确定,37,期末考试大纲,第九章 抽样与抽样估计,抽样调查中的基本概念;总体均值与成数的简单估计;必要样本量的计算不作考试要求。,38,知识重点:,抽样方法,重置抽样,不重置抽样,注意:,不重复抽样所得样本对总体的代表性较大,抽样误差较小,所以实践中通常采用不重复抽样。,39,抽样的组织方式,简单随机抽样,:,分层抽样:,整群抽样:,系统抽样也称机械抽样。,40,误差:,误 差,登记性误差,代表性误差,系统性误差,随机性误差,41,抽样平均误差,(,1,)均值,重复抽样:,不重复抽样:,42,抽样平均误差,(,2,)比例,重复抽样:,不重复抽样:,43,影响抽样误差大小的因素是:,总体被研究标志的变异程度。,抽样单位数的多少。,抽样的方法。,抽样的组织形式,。,44,(,1,),总体方差,2,已知时,总体均值的置信区间为,区间估计,其中极限误差为,45,(,2,),总体方差,2,未知时,总体均值的置信区间为,其中极限误差为,46,总体比例的区间估计,总体比例的置信区间为,47,第,5,节 样本容量的确定,在重复抽样下,,所以,必要抽样单位数,在不重复抽样下,必要抽样单位数,48,影响必要抽样数目的因素,(,1,)允许误差范围,。当其它条件不变时,允许误差愈小,必要的抽样单位数就需要愈多;反之,允许误差愈大,抽样单位数就可以愈少。,(,2,)总体方差,2,。其他条件不变的情况下,总体方差,2,愈大,总体单位的差异程度愈大,则样本单位数应愈多;反之,样本单位数可愈少。,(,3,)抽样估计的可靠程度,1-,。当其他条件不变时,抽样估计的可靠程度愈高,,z,/2,数值愈大,抽样数目就必须愈多;反之,抽样估计的可靠程度愈低,抽样数目就可以愈少。,(,4,)抽样方法。相同条件下,由于采用重复抽样比不重复抽样的误差大,所以,前者应比后者多抽一些样本单位。,除上述因素之外,抽样组织方式也是影响抽样单位数的一个原因。,49,练习:,某电子元件厂生产,A,型号的电子管,现从,10000,件产品中,抽取,100,件进行检验,结果是,60,件合格。计算合格品率的抽样平均误差。,50,练习:对一批电子元件进行耐用性能的检查,随机重置抽样方法选取,100,件作耐用测试,所得结果的分组资料如下:,耐用时数(小时),组中值(,x,),件数(,f,),900,以下,875,1,900950,925,2,9501000,975,6,10001050,1025,35,10501100,1075,43,11001150,1125,9,11501200,1175,3,1200,以上,1225,1,合计,100,51,要求:在,95.45%,的可靠程度下对该批电子元件的平均耐用时数作出估计。,概率保证程度为,95.45%,,,t,值为,2,。,52,估计区间的下限:,1055.5,10.38=1045.12,小时,估计区间的上限:,1055.5,10.38=1065.88,小时,所以,这批电子元件的平均耐用时数在,1045.12,小时至,1065.88,小时之间,可靠程度为,95.45%,。,53,以上例的资料,设电子元件的耐用时间在,1000,小时及以上为合格品,以,95.45%,的概率估计该批电子元件的合格率。,54,区间估计:,估计的下限:,91%,5.72%=85.28%,估计的上限:,91%,5.72%=96.72%,所以,这批电子元件的合格品率在,85.28%,至,96.72%,之间,可靠程度为,95.45%,。,55,近,2,年期末试题(计算题),1,、某企业采用简单随机重复抽样,在,1000,件产品中抽查,200,件,其中不合格品,10,件,要求:,(,1,)求抽样平均误差;(,5,分),(,2,)以,95.45%,的置信度对该批产品不合格率进行区间估计。(,5,分),56,2,、某企业有,1500,个工人,用简单随机重复抽样的方法抽出,50,个工人作为样本,调查其产量水平,资料如下,根据以前经验,标准差为,35,,要求:,(,1,)计算样本平均数和抽样平均误差。(,5,分),(,2,),94.45%,的可靠性估计该厂工人的月平均产量的区间。(,5,分),产量,(件),520,530,540,550,560,580,600,660,工人数(人),4,6,9,10,8,6,4,3,57,
展开阅读全文