1、第四章 抽样分布与参数估计 思考与练习 一、单项选择题 1. 抽样平均误差与极限误差间的关系是( d )。 a. 抽样平均误差大于极限误差 b. 抽样平均误差等于极限误差 c. 抽样平均误差小于极限误差 d. 抽样平均误差可能大于、等于或小于极限误差 2. 在其它条件不变的情况下,如果允许误差缩小为原来的二分之一,则样本容量( a )。 a. 扩大为原来的4倍 b. 扩大为原来的2倍 c. 缩小为原来的二分之一 d. 缩小为原来的四分之一 3.类型抽样影响抽样平均误差的方差是( b )。 a. 组间方差 b. 组内方差 c. 总方差 d. 允许误差
2、 4.当样本单位数充分大时,样本估计量充分地靠近总体指标的可能性趋于1,称为抽样估计的( b )。 a.无偏性 b.一致性 c.有效性 d.充分性 二、多项选择题 1. 影响抽样平均误差的因素有( a b c d )。 a.总体标志变异程度 b.样本容量 c.抽样方式 d.抽样的组织形式 e.样本指标值的大小 2. 抽样估计的抽样平均误差(a c e)。 a.是不可避免要产生的 b.是可以通过改进调查方法消除的 c.是可以事先计算的 d.只有调查结束之后才能计算 e.其大小是可以控制的 3.确定样本容量时,可用以下方法取得近似的总体方差估计值(a b
3、 c )。 a.参考以往调查的经验资料 b.以试点调查的样本方差来估计 c.在做成数估计时,用成数方差最大值0.25来代替 d.假定总体不存在标志变异,方差为零 三、计算题 1.某市居民家庭人均年收入是服从m=4 000元,s=1 200元的正态分布,求该市居民家庭人均年收入: (1)在5 000~7 000元之间的概率; (2)超过8 000元的概率。 解:(1)。 (2) 2.某小组5个工人的周工资分别为140、160、180、200、220元,现在用重复抽样的方法从中抽出2个工人的工资构成样本。要求: (1)计算总体工人平均工资和标准差;
4、2)列出样本平均工资的抽样分布; (3)计算样本平均工资的平均数,并检验是否等于总体平均工资; (4)计算样本平均工资的标准差; (5)按公式计算抽样平均误差,并验证是否等于(4)的结果; (6)用不重复抽样方法抽取样本,重新计算(1)~(5)。 解:(1)总体平均=(140+160+180+200+220)/5=200。总体标准差=28.284。 (2) 平均工资 140 160 180 200 220 140 140 150 160 170 180 160 150 160 170 180 190 180 160 170 180 1
5、90 200 200 170 180 190 200 210 220 180 190 200 210 220 (3)样本平均=4500/25=180,不等于总体平均。 (4)平均工资的标准差=20.41241 (5)重复的抽样误差为,接近平均工资标准差的计算值。 (6)总体平均=(140+160+180+200+220)/5=200。标准差=28.284。 不等重复时的抽样分布 平均工资 140 160 180 200 220 140 150 160 170 180 160 170 180 190 180
6、 190 200 200 210 平均工资加总=1800,样本平均=1800/10=180,不等于总体平均 平均工资的标准差= 18.25741858。 不重复的抽样误差为,接近平均工资的标准差计算值。 3.某地区粮食播种面积5000亩,按不重复抽样方法随机抽取了100亩进行实测,调查结果,平均亩产450公斤,亩产量标准差为52公斤。试以95%的置信度估计该地区粮食平均亩产量和总产量的置信区间。 解:已知=450公斤,n=100(大样本),n/N=1/50,,不考虑抽样方式的影响,用重复抽样计算。s=52公斤,1-α=95%,α=5%。这时查标准正态分布
7、表,可得临界值: 该地区粮食平均亩产量的置信区间是: =[439.808,460.192] (公斤) 总产量的置信区间是: [439.8085000,460.1925000] (公斤) =[2199040,2300960](公斤) 4.已知某种电子管使用寿命服从正态分布。从一批电子管中随机抽取16只,检测结果,样本平均寿命为1490小时,标准差为24.77小时。试以95%的置信度估计这批电子管的平均寿命的置信区间。 解:(1)已知=1490小时,n=16,s=24.77小时,1-α=95%,α=5%。这时查t分布表,可得 该批电子管的平均寿命的置信区间是: =[
8、1476.801,1503.199](小时) 因此,这批电子管的平均寿命的置信区间在1476.801小时与1503.199小时之间。 5.回顾本章开头的引例,如果已知居民每天观看该电视台节目时间的总体方差为1小时。试求: (1)该地区内居民每天观看该电视台节目的平均时间的置信区间(置信度是95%); (2)如果要求估计的误差不超过27分钟,这时置信度是多少? 解:(1)已知=4小时,n=100,=1.5小时,1-α=95%,α=5%。这时查标准正态分布表,可得临界值: 由于样本容量在地区居民总人数中所占的比重太小,重复与不重复抽样效果相差不大,我们按重复抽样计算。 该地
9、区内居民每天看电视平均时间的置信区间是: =[3.71,4.29] (小时) 即该地区居民每天看电视时间在3.71到4.29个小时之间。 (2) 查表得到置信度是99.73%。 6.采用简单随机重复抽样的方法,从2 000件产品中抽查200件,其中合格品190件。要求: (1)计算合格品率及其抽样平均误差。 (2)以95.45%的置信度,对合格品率和合格品数量进行区间估计。 (3)如果极限误差为2.31%,则其置信度是多少? 解:(1)合格品率:P=190/200100%=95% 抽样平均误差:=0.015 (2) (3) 7.从某企
10、业工人中随机抽选部分进行调查,所得工资分布数列如下: 工资水平(元) 600 700 800 900 1000 工人数(人) 5 10 11 20 4 试求: (1)以95.45%的置信度估计该企业工人平均工资的置信区间,以及该企业工人中工资不少于800元的工人所占比重的置信区间; (2)如果要求估计平均工资的允许误差范围不超过30元,估计工资不少于800元的工人所占比重的允许误差范围不超过10%,置信度仍为95.45%,试问至少应抽多少工人? 解(1)通过EXCEL计算可得: =816元,n=50人,s=113.77元。工资不少于800元的工人所占比重:P=3
11、5/50=70%。1-α=95.45%。这时查标准正态分布表,可得临界值: 工人平均工资的置信区间: =[783.82, 848.18] 工资不少于800元的工人所占比重的置信区间: (2) 抽样平均数和成数的极限误差分别是:, 按抽样平均数与成数计算的样本容量分别是: =58(人) =84(人) 取以上计算结果中较大者,即n=84,应抽取84人作样本以保证抽样调查的准确性。 四、问答题 1.1932年美国总统大选。美国的《文摘》杂志向1000万个电话用户和文摘的订户发放了关于总统选举的民意调查问卷。结果收回了240万份问卷,根据调查结果,《文摘》杂志预测
12、共和党候选人兰登将以较大的比例战胜民主党候选人罗斯福。而刚成立的盖洛普研究所采用随机抽样的方法抽选了2000多选民进行问卷调查,得出了与《文摘》杂志相反的结论。最后大选的结果表明只调查2000户的盖洛普研究所的预测,居然比调查了成百万户的《文摘》杂志的预测更准确。请你分析其中的原因,进而考虑,应如何正确地开展抽样调查的问题。 答题要点: (1) 统计推断优良性的一个基本要求是无偏性。统计推断优良性要求包括无偏性、有效性与一致性,但无偏性统计推断的基本要求。是美国的《文摘》杂志向1000万个电话用户和文摘的订户发放了关于总统选举的民意调查问卷,显然有电话的用户和订杂志的读者是有文化的阶层,不
13、能反映全体民众的意见,存在系统偏差可能; (2) 抽样调查的误差是可控误差。在样本是随机地从总体中抽出时,样本与总体间存在密切的联系,这种联系建立了样本推断总体的桥梁。显然样本是随机地从总体中抽出来的,通过样本的统计量推断总体参数,肯定存在抽样误差,但是抽样误差是可以控制的。抽样误差受样本容量、抽样方式、总体离散性和抽样组织形式等影响。抽样设计过程中可以通过这些影响因素来控制抽样误差。特别是样本容量的控制,在给定抽样的可靠性要求与精度要求条件下,可计算出应抽取的样本容量大小。样本容量满足了这个要求,也就能控制到抽样的概率保证与精度,从而满足控制抽样误差的需要。1000万个电话用户和文摘的订户的大容量,并不说明比随机抽样的方法抽选了2000多选民进行问卷调查误差控制更好,如果前者是有偏估计的话。 (3) 抽样的组织形式的选择取决于对总体信息的了解与应用。当对总体结构缺乏充分信息的前提下,简单有机抽样是优先考虑的抽组织形式。 96






