1、第十二章 统计121抽样方法一、知识导学1抽签法:(1)将总体中的所有个体编号(号码可以从1到N);(2)将1到N这N个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等制作);(3)将号签放在同一箱中,并搅拌均匀;(4)从箱中每次抽出1个号签,并记录其编号,连续抽取k次;(5)从总体中将与抽到的签的编号相一致的个体取出.2随机数表法:(1)对总体中的个体进行编号(每个号码位数一致);(2)在随机数表中任选一个数作为开始;(3)从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过;若在编号中,则取出;如果得到的号码前面已经取出,也跳过;如此继续下去,直到取满为止;(4)根
2、据选定的号码抽取样本.3系统抽样(等距抽样):(1)采用随机的方式将总体中的个体编号;(2)将整个的编号按一定的间隔(设为k)分段,当(N为总体中的个体数,n为样本容量)是整数时,;当不是整数时,从总体中剔除一些个体,使剩下的总体中个体的个数N能被n整除,这时,并将剩下的总体重新编号;(3)在第一段中用简单随机抽样确定起始的个体编号;(4)将编号为的个体抽出.4分层抽样:(1)将总体按一定标准分层;(2)计算各层的个体数与总体的个数的比;(3)按各层个体数占总体的个体数的比确定各层应抽取的样本容量;(4)在每一层进行抽样(可用简单随机抽样或系统抽样).二疑难知识1简单随机抽样是从总体中逐个不放
3、回地抽取.2简单随机抽样和系统抽样都是一种等概率抽样,即每个个体被抽到的可能性都是相同的.3简单随机抽样适用于总体中个体较少的情况;系统抽样适用于总体中个体数较多的情形;分层抽样用于总体由几个差异明显的部分组成的情况.4 分层抽样时,在每一层内进行抽样时可根据具体情况,采用简单随机抽样或系统抽样.5 在使用分层抽样时,在每一层内抽样的比例相同.三经典例题例1某工厂生产A,B,C,D四种不同型号的产品,产品数量之比依次为2:3:5:1,现用分层抽样方法抽出一个容量为n的样本,样本中A型号有16件,那么此样本容量n是多少?错解:样本容量16=2(件)错因:混淆了A型号产品与样本容量的比例关系.正解
4、:在分层抽样中,每一层所抽的个体数的比例与总体中各层个体数的比例是一致的,所以,样本容量为答:此样本容量为88件.例2从1002名学生中选取100名进行抽样检查.请用系统抽样法设计一种方案,叙述其步骤.解:(1)将1002名学生进行编号,号码分别为1,2,1002; (2)用随机数表法剔除2个个体,并将剩下的学生重新编号,号码分别为1,2,1000;(3)将1000个号码平均分成100组,并在第一组1,2,10中用简单随机抽样法确定一个号码(如);(2) 将号码为的个体抽出.例3某学校有2005名学生,从中选取20人参加学生代表大会,采用简单随机抽样方法进行抽样,是用抽签法还是随机数表法?如何
5、具体实施?分析:由于学生人数较大,制作号签比较麻烦,所以决定用随机数表法解:采用随机数表法实施步骤:(1) 对2005名同学进行编号,0000-2004(2) 在随机数表中随机地确定一个数作为开始,如21行45列的数字9开始的4位:9706;依次向下读数,5595,4904,,如到最后一行,转向左边的四位数字号码,并向上读,凡不在0000-2004范围内的,则跳过,遇到已读过的数也跳过,最后得到号码为:0011,0570,1449,1072,1338,0076,1281,1866,1349,0864,0842,0161,1839,0895,1326,1454,0911,1642,0598,18
6、55的学生组成容量为20的样本.例4某工厂有3条生产同一产品的流水线,每天生产的产品件数分别是3000件,4000件,8000件.若要用分层抽样的方法从中抽取一个容量为150件产品的样本,应该如何抽样?解:总体中的个体数N=3000+4000+8000=15000样本容量n=150抽样比例为所以应该在第一条流水线生产的产品中随机抽取3000=30件产品在第二条流水线生产的产品中随机抽取:4000=40件产品在第三条流水线生产的产品中随机抽取:5000=50件产品这里因为每条流水线所生产的产品数都较多,所以,在每条流水线的产品中抽取样品时,宜采用系统抽样方法四典型习题1为了解某班50名同学的会考
7、及格率,从中抽取10名进行考查分析,则在这次考查中,考查的总体内个体总数为 样本容量为 .2采用系统抽样从含有2000个个体的总体(编号为0000,0001,1999)中抽取一个容量为100的样本,则第一段的编号为 若在第一段中用简单随机抽样得到起始个体编号为0013,则前6个入样编号为 . 3某市为了了解职工的家庭生活状况,先将职工所在的国民经济行业分成13类,然后每个行业抽的职工家庭进行调查,这种抽样方法是 .4用分层抽样的方法在一个企业中抽取一个样本容量为50的样本,其中在管理营销部门抽了15人,技术部门10人,其余在生产工人中抽取,已知该企业有生产工人375人,那么这个企业共有多少职工
8、?5采用简单随机抽样从含有5个人的身高的总体中抽取一个容量为2的样本,写出全部样本,并计算各个样本的平均值,各样本平均值的平均值.12.2频率分布直方图、折线图与茎叶图一、知识导学1频率分布表:反映总体频率分布的表格.2一般地,编制频率分布表的步骤如下:(1)求全距,决定组数和组距,组距=;(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;(3)登记频数,计算频率,列出频率分布表.3 频率(分布)直方图:利用直方图反映样本的频率分布规律.4 一般地,作频率分布直方图的方法为:(1)把横轴分成若干段,每一线段对应一个组的组距;(2)以此线段为底作矩形,它的高等于该组的,这样得出
9、一系列的矩形;(3)每个矩形的面积恰好是该组上的频率.5 频率折线图:如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起,就得到一条折线,称这条折线为本组数据的频率折线图.6 制作茎叶图的方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出.二、疑难知识1 在编制频率分布表时,要选择适当的组距和起始点才可以使频率分布表更好地反映数据的分布情况.2 在编制频率分布表时,如果取全距时不利于分组(如不能被组数整除),可适当增大全距,如在左右两端各增加适当范围(尽量使两端增加的量相同
10、).3 频率折线图的优点是它反映了数据的变化趋势,如果将样本容量取得足够大,分组的组距取得足够小,则这条折线将趋于一条曲线,我们称这一曲线为总体分布的密度曲线.4 茎叶图对于分布在099的容量较小的数据比较合适,此时,茎叶图比直方图更详尽地表示原始数据的信息.5 在茎叶图中,茎也可以放两位,后面位数多可以四舍五入后再制图.三、典型例题例1一个社会调查机构就某地居民的月收入调查了10000人,并根据所得数据画了样本的频率分布直方图(如下图).为了分析居民的收入与年龄、学历、职业等方面的关系,要从这10000人用再用分层抽样方法抽出100人作进一步调查,则在(元)月收入段应抽出 人.解析:由直方图
11、可得(元)月收入段共有人,按分层抽样应抽出人.故答案 25点评:频率分布直方图中,关健要理解图中数据的意义,特别是图中每个小矩形的面积才是这一组距内个体的频率.例2从有甲乙两台机器生产的零件中各随机抽取15个进行检验,相关指标的检验结果为:甲:534,517,528,522,513,516,527,526,520,508,533,524,518,522,512乙:512,520,523,516,530,510,518,521,528,532,507,516,524,526,514画出上述数据的茎叶图错解: 甲 乙 8 0 787632 1 0246688764220 2 013468 43 3
12、 02 4 错因:对于两位数是将两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出,对于三位数字,应该把前两位数字作为茎,最后一位数字作为叶,然后从图中观察数据的分布情况,而不是仍考虑两位数,尽管此题的效果一样.正解:用前两位数作为茎,茎叶图为 甲 乙 8 50 787632 51 0246688764220 52 013468 43 53 02 54 从图中可以看出,甲机床生产的零件的指标分布大致对称,平均分在520左右,中位数和众数都是522,乙机床生产的零件的指标分布也大致对称,平均分也在
13、520左右,中位数和众数分别是520和516,总的看,甲的指标略大一些.例3在绘制频率分布直方图的第三个矩形时,矩形高度 与这个矩形的宽度(组距)有关; 与样本容量n无关; 与第三个分组的频数有关; 与直方图的起始点无关.以上结论中正确的共有()A0个 B.1个 C. 2个 D.3个错解:D.错因:起始点与组距均影响第三组的频数,所以矩形高度与以上各因素均有关,正确,正解:C.例4根据中国银行的外汇牌价,2005年第一季度的60个工作日中,欧元的现汇买入价(100欧元的外汇可兑换的人民币)的分组与各组频数如下:1050,1060:1,1060,1070:7,1070,1080:20,1080,
14、1090:11,1090,1100:13,1100,1110:6,1110,1120:2.(1)列出欧元的现汇买入价的频率分布表;(2)估计欧元的现汇买入价在区间10651105内的频率;(3)如果欧元的现汇买入价不超过x的频率的估计值为0.95,求此x解:(1)欧元的现汇买入价的频率分布表为:分组频数频率1050,106010.0171060,107070.1171070,1080200.3331080,1090110.1831090,1100130.2171100,111060.1001110,112020.033合计601.000(2)欧元现汇买入价在区间10651105内的频率的估计值
15、为(3)因为0.017+0.117+0.333+0.183+0.217=0.8670.95,0.017+0.217+0.100=0.9670.95,所以在1100,1110内,且满足0.867+0.100即欧元现汇买入价不超过1108.3的频率的估计为0.95例5初一年级某班期中考试的数学成绩统计如下:分数段100909980-8970-7960-690-59人数26122172如果80分以上(包括80分)定为成绩优秀,60分以上(包括60分)定为成绩及格.那么,在这个班级的这次成绩统计中,成绩不及格的频率是多少?成绩及格的频率是多少?成绩优秀的频率是多少?解:被统计的对象(参加这次考试的本班
16、学生)共有2+6+12+21+7+2=50个.60分以上的有48个,80分以上的有20个,所以成绩不及格的频率是,成绩及格的频率是,成绩优秀的频率是.说明 要计算一组数据中某个对象的频率,要先计算数据的总的个数,再计算符合这个对象要求的数据的个数.某个对象可以是一个确定的数据,也可以是在某一范围内数据的总数.例6在英语单词frequency和英语词组relative frequency中,频数最大的各是哪个字母?它们的频数和频率各是多少?解:在frequency和英语词组relative frequency中,频数最大的字母都是e,在单词frequency中,e的频数是2,频率是;在词组rel
17、ative frequency中,e的频数是4,频率是.点评:在两组数据中,同一个对象的频数相等,但频率不一定相等,频数大,不一定频率大.在同一组数据中,某两个对象的频数相等,频率也相等;频数大,频率也大.一、 典型习题1为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为岁的男生体重,得到频率分布直方图如下:根据上图可得这100名学生中体重在的学生人数是( ).A 20 B.30 C.40 D. 502 一个容量为800的样本,某组的频率为6.25%,则这一组的频数是 3 某校随机抽取了20名学生,测量得到的视力数据如下:4.7,4.2,5.0,4.1,4.0,4.9,5.1,4
18、.5,4.8,5.2,5.0,4.0,4.5,4.8,4.7,4.8,4.6,4.9,5.3,4.0(1) 列出频率分布表(共分5组)(2) 估计该校学生的近视率(视力低于4.9)4 用一个容量为200的样本制作频率分布直方图时,共分13组,组距为6,起始点为10,第4组的频数为25,则直方图中第4个小矩形的宽和高分别是多少?5 200名学生某次考试的成绩的分组及各组频率如下表:分组频数21130528520则及格率,优秀率()的估计分别是6某地随机检查了140名成年男性红细胞(L),数据的分组及频率如下表:分组频数频率分组频数频率21761311425232127合计140(1)完成上面的频
19、率分布表(2)根据上面的图表,估计成年男性红细胞数在正常值(4.05.5)内的百分比7名著简爱的中英文版本中,第一节部分内容每句句子所含单词(字)数如下:英文句子所含单词数10,52,56,40,79,9,23,11,10,21,30,31;中文句子所含字数11,79,7,20,63,33,45,36,87,9,11,37,17,18,71,75,51.(1)作出这些数据的茎叶图;(2)比较茎叶图,你能得到什么结论?123平均数、方差与标准差一、知识导学1n 个数据,.的平均数或平均值一般记为=.2一般地,若取值的频率分别为,则其平均数为.3把一组数据的最大值与最小值的差称为极差.4 一般地,
20、设一组样本数据,其平均数为,则称为这个样本的方差,算术平方根为样本的标准差,分别简称样本方差,样本标准差.二、疑难知识1.平均数,中位数和众数都是总体的数字特征,从不同角度反映了分布的集中趋势,平均数是最常用的指标,也是数据点的“重心”位置,它易受极端值(特别大或特别小的值)的影响,中位数位于数据序列的中间位置,不受极端值的影响,在一组数据中,可能没有众数,也可能有多个众数.2.方差和标准差是总体的数字特征,反映了分布的分散程序(波动大小),标准差也会受极端值(特别大或特别小的值)的影响.3.分布的分散程序还可以用极差来描述,但较粗略.4.样本方差也可以用公式计算.三、经典例题例1某人5次上班
21、途中所花的时间(单位:分钟)分别为已知这组数据的平均数为10,方差为2,则的值为( )A1 B.2 C.3 D.4解:由平均数公式为10,得,则,又由于方差为2,则得 所以有,故选D.例2数据是一名运动员的次射击的命中环数,则他的平均命中环数的估计是( ).A样本平均数均值 B样本极差C样本方差 D样本平均差AD=错解:C.错因:后三个选项都表示了样本的波动程度,不能用于总体平均值的估计.正解:A.例3某房间中10个人的平均身高为1.74米,身高为1.85米的第11个人,进入房间后,这11个人的平均身高是多少?解:原来的10个人的身高之和为17.4米,所以,这11个人的平均身高为=1.75.即
22、这11个人的平均身高为1075米例4若有一个企业,70%的人年收入1万,25%的人年收入3万,5%的人年收入11万,求这个企业的年平均收入及年收入的中位数和众数解:年平均收入为1(万);中位数和众数均为1万例5下面是某快餐店所有工作人员的收入表:老板大厨二厨采购员杂工服务生会计3000元450元350元400元320元320元410元(1)计算所有人员的月平均收入;(2)这个平均收入能反映打工人员的月收入的一般水平吗?为什么?(3)去掉老板的收入后,再计算平均收入,这能代表打工人员的月收入的水平吗?(4)根据以上计算,以统计的观点对(3)的结果作出分析解:(1)平均收入(3000+450+35
23、0+400+320+320+410)=750元(2)这个平均收入不能反映打工人员的月收入水平,可以看出打工人员的收入都低于平均收入,因为老板收入特别高,这是一个异常值,对平均收入产生了较大的影响,并且他不是打工人员(3)去掉老板后的月平均收入(450+350+400+320+320+410)=375元.这能代表打工人员的月收入水平(4)由上可见,个别特殊数据可能对平均值产生大的影响,因此在进行统计分析时,对异常值要进行专门讨论,有时应剔除之四、典型习题1 在一次知识竞赛中,抽取20名选手,成绩分布如下:成绩678910人数分布12467则选手的平均成绩是 ( )A4 B.4.4 C.8 D.8
24、.828名新生儿的身长(cm)分别为50,51,52,55,53,54,58,54,则新生儿平均身长的估计为 ,约有一半的新生儿身长大于等于 ,新生儿身长的最可能值是 .3某医院急诊中心关于其病人等待急诊的时间记录如下:等待时间(分钟)人数48521用上述分组资料计算得病人平均等待时间的估计值= ,病人等待时间的标准差的估计值= 4样本的平均数为5,方差为7,则3的平均数、方差,标准差分别为 5下面是一个班级在一次测验时的成绩(已按从小到大的次序排列),分别计算男生和女生的成绩和平均值,中位数以及众数,试问中位数的含义是什么?对比两个平均值和中位数,你分析一下这个班级的学习情况男生:55,55
25、,61,65,68,71,72,73,74,75,78,80,81,82,87,94女生:53,66,70,71,73,73,75,80,80,82,82,83,84,85,87,88,90,93,94,976某工厂甲,乙两个车间包装同一产品,在自动包装传送带上每隔30min抽一包产品,称其重量是否合格,分别记录抽查数据如下:甲车间:102,101,99,103,98,99,98;乙车间:110,105,90,85,75,115,110.(1)这样的抽样是何种抽样方法?(2)估计甲、乙两车间的均值与方差,并说明哪个车间的产品较稳定.12.4线性回归方程一、知识导学1 变量之间的常见关系有如下两
26、类:一类是确定性函数关系,变量之间的关系可以用函数表示;一类是相关关系,变量之间有一定的联系,但不能完全用函数来表达2 能用直线方程近似表示的相关关系叫做线性相关关系3 一般地,设有(x,y)的n对观察数据如下:当a,b使取得最小值时,就称为拟合这n对数据的线性回归方程,将该方程所表示的直线称为回归直线.4线性回归方程中的系数满足:由此二元一次方程组便可依次求出的值: (*)5一般地,用回归直线进行拟合的一般步骤为:(1)作出散点图,判断散点是否在一条直线附近;(2)如果散点在一条直线附近,用公式(*)求出,并写出线性回归方程.二、疑难知识1现实世界中两个变量的关系中更多的是相关关系而不是确定
27、性关系,许多物理学中公式看起来是确定性关系,实际上由于公式的使用范围,测量误差等的影响,试验得到的数据之间是相关关系.2用最小二乘估计方法计算得到的使函数达到最小3还有其他寻找较好的回归直线的原则(如使y方向的偏差和最小,使各点到回归直线的距离之和最小等)4 比较相关关系绝对值的大小可以比较一组变量之间哪两个变量有更强的(线性)相关关系.5 “最好的”直线方程中“最好”可以有多种解释,也就有不同的求解方法,现在广泛采用的最小二乘法所用的思想是找到使散点到直线在垂直方向上的距离的平方和最小的直线,用这个方法,的求解最简单三、经典例题例1有如下一组y与x的数据3210123y9410149问y与x
28、的(样本)相关系数r是多少?这是否说明y与x没有关系?错解:所以相关系数r=0,即y与x没有关系.错因:相关系数r=0并不是说明y与x没有关系,而是说明y与x没有线性相关关系,但有可能有非线性相关关系.正解:所以相关系数r=0,即y与x没有线性相关关系,但有可能有非线性相关关系.此题中y与x之间存在着的二次相关关系的.例2某工厂在2004年的各月中,一产品的月总成本y(万元)与月产量x(吨)之间有如下数据:x4.164.244.384.564.724.965.185.365.65.745.966.14y4.384.564.64.834.965.135.385.555.715.896.046.2
29、5若2005年1月份该产品的计划产量是6吨,试估计该产品1月份的总成本.分析:可将此问题转化为下面三个问题:(1)画出散点图,根据散点图,大致判断月总成本y与月产量之间是否有线性相关关系;(2)求出月总成本y与月产量x之间的线性回归方程;(4) 若2005年1月份该产品的计划产量是6吨,试估计该产品1月份的总成本.错解:省去第一步,即把判断判断月总成本y与月产量之间是否有线性相关关系的过程舍去,想当然其具有线性相关关系,直接代入公式,求出线性回归方程.错因:此题的月总成本y与月产量x之间确实是有线性相关关系,若不具有则会导致错误.因此判断的过程不可少.正解:(1)散点图见下面,从图中可以看到,
30、各点大致在一条直线附近,说明x与y有较强的线性相关关系.(2)代入公式(*)得:a=0.9100,b=0.6477,线性回归方程是:y=0.9100x+0.6477.(3)当x=6.0时,y=0.9100(万元),即该产品1月份的总成本的估计值为6.11万元.例3变量与有线性回归方程,现在将的单位由变为的单位由变为,则在新的回归方程中. .错解:0.1错因:由 且的值变为原来的 ,的值变为原来的可得的值应为原来的.正解:0.01例4假定一个物体由不同的高度落下,并测量它落下的时间,几个测量结果如下表所示:高度s(cm)4060100130150180200220240时间t(ms)353387
31、505552579648659700725高度(距离)与时间之间的关系由公式给出,这里g是重力加速度的值.(1)画出s关于t的散点图,这些点在一条直线附近吗?(2)设,画出s关于x的散点图,这些点在一条直线附近吗?(3)求出s关于x的线性回归方程.解:(1)高度s关于时间t的散点图见下面,从图中可以看到这些点似乎在一条直线附近,也好像在一条抛物线附近(2)高度s关于x的散点图见下面,从图中可以看到这些散点大致在一条直线附近(3)可以求得s关于x的线性回归方程是s=0.0004901x18.8458例5测得某国10对父子身高(单位:英寸)如下:父亲身高(x)6062646566676870727
32、4儿子身高(y)63.565.26665.566.967.167.468.370.170(1)画出散点图;(2)求出y与x之间的线性回归方程;(3)如果父亲的身高为73英寸,估计儿子的身高.解:(1)散点图见下面:(2)从散点图可以看出,这些点都分布在一条直线附近,可求得线性回归方程为(3)当时,所以当父亲的身高为73英寸时,估计儿子的身高约为69.9英寸.四、典型习题1回归直线方程的系数a,b的最小二乘估计使函数最小,函数指( ).A B. C D.2“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,高尔顿提出的,他的研究结果是子代的平均身高向中心回归.根据他的结论在儿子的身高y与
33、父亲的身高x的线性回归方程中,b( ).A在(1,0)内 B.等于0 C在(0,1)内 D.在1,+内3在研究硝酸钠的可溶性程度时,对不同的温度观测它在水中的溶解度,得到观测结果如下:温度x010205070溶解度 y 66.776.085.0112.3128.0则由此得到的回归直线的斜率是 (保留4位有效数字)4下面的数据是年龄在40至60岁的男子中随机抽取的6个样本,分别测定了心脏功能水平y(满分100),以及每天画在看电视上的平均时间x(小时)看电视平均时间x4.44.62.75.80.24.6心脏功能水平y525369578965则x与y的样本相关系数为 .5某地区近年来冬季的降雨量x
34、(cm)与次年夏季空气中碳氢化合物的最高平均浓度y(ppm),的观测数据如下表:年份 n1988198919901991199219931994199519961997199819992000x28223123583321204531231614y4.54.14.84.24.63.63.12.83.42.62.32.22.0你认为y与x是什么关系?y与n是什么关系?6每立方米混凝土的水泥用量x(单位:kg)与28天后混凝土的托压强度(单位:kg/cm)的关系有如下数据:x150160170180190200210220230240250260Y56.958.361.664.668.171.374.177.480.282.686.489.7(1)y与x是否具有线性相关关系?(2)如果y与x具有线性相关关系,求线性回归方程.