资源描述
专题18 统计与统计案例
抽样方法
【背一背基础知识】
1. 简单随机抽样:一般地,从元素个数为N的总体中逐个不放回地抽取容量为n的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.最常用的简单随机抽样的方法:抽签法和随机数法.简单随机抽样适用范围是:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小。
2.系统抽样:假设要从容量为N的总体中抽取容量为n的样本,第一步,先将总体的N个个体编号;第二步,确定分隔间距,对编号进行分段,当(n是样本容量)是整数时,取k=;当(n是样本容量)不是整数时,先用简单随机抽样剔除-[]个个体,取k=[];第三步,在第1段用简单随机抽样确定第一个个体编号l (l≤k);第四步,按照一定的规则抽取样本,通常是将l加上间隔k得到第2个个体编号,再加k得到第3个个体编号,依次进行下去,直到获取整个样本.系统抽样的适用范围是:元素个数很多且均衡的总体;各个个体被抽到的机会均等。
3.分层抽样:当总体由有明显差别的几部分组成时,为了使抽取的样本更好地反映总体的情况,常采用分层抽样,将总体中各个个体按某种特征分成若干个互不交叉的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.分层抽样的应用范围是:总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.
【讲一讲提高技能】
1必备技能:在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为 (为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值.
2典型例题:
例1. 已知某地区中小学生人数和近视情况分别如图1和如图2所示,为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A., B., C., D.,
【分析】本题考查分层抽样与统计图,直接应用概念解题.
【答案】A
例2. 某校高一、高二、高三分别有学生1600名、1200名、800名,为了解该校高中学生的牙齿健康状况,按各年级的学生数进行分层抽样,若高三抽取20名学生,则高一、高二共抽取的学生数为 .
【分析】分层抽样即按比例分配.
【答案】70
【练一练提升能力】
1.为了了解名学生的学习情况,采用系统抽样的方法,从中抽取容量为的样本,则分段的间隔为( )
A. B. C. D.
【答案】C
【解析】由题意知,分段间隔为,故选C.
2.从3001名学生中选取50名组成参观团,现采用下面的方法选取:先用简单随机抽样从 3001人中剔除1人,剩下的3000人再按系统抽样的方法进行,则每个人被选到的机会( )
A.不全相等 B。均不相等 C。无法确定 D。都相等
3. 甲、乙两套设备生产的同类产品共4800件,采用分层抽样的方法从中抽取一个容量为80 的样本进行检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件.
【答案】1800
频率分布直方图与茎叶图
【背一背基础知识】
1. ①频率分布直方图:在频率分布直方图中,纵轴表示,数据落在各小组内的频率用各长长方形的面积表示,各小长方形的面积总和等于1.连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率分布折线图就会越来越接近于一条光滑的曲线,统计中称之为总体密度曲线,它能够更加精细的反映出总体的分布规律.
2.频率分布直方图的步骤如下:(ⅰ)求极差;(ⅱ)确定组距和组数;(ⅲ)将数据分组;(ⅳ)列频率分布表;(ⅴ)画频率分布直方图.频率分布直方图能很容易地表示大量数据,非常直观地表明分布的形状.
3.茎叶图:茎是指中间的一列数,叶是从茎的旁边生长出来的数.
茎叶图表示数据有两个突出的优点:
其一是统计图上没有原始数据的损失,所有信息都可以从这个茎叶图中得到,其二是在比赛时随时记录,方便记录与表示.
4.当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留原始信息,而且可以随时记录,给记录和表示都带来方便.
【讲一讲提高技能】
1必备技能:
(1)在频率分布直方图中估计中位数和平均数的方法
①中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.
②平均数:在频率分布直方图中,平均数等于图中每个小矩形面积乘以小矩形底边中点的横坐标之和.
(2)平均数反映了数据取值的平均水平,标准差、方差描述了一组数据波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
2典型例题:
例1。某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为
若低于60分的人数是15人,则该班的学生人数是
(A) (B) (C) (D)
【分析】首先根据频率分布直方图计算出从20到60的频率,即能计算出总从数.
例2.某车间共有名工人,随机抽取名,他们某日加工零件个数的茎叶图如图所示,其中茎为十位数,叶为个位数.
(1) 根据茎叶图计算样本平均值为 ;(2) 日加工零件个数大于样本均值的工人为优秀工人,该车间有 名优秀工人;(3) 从该车间名工人中,任取人,则恰有名优秀工人的概率是 .
【练一练提升能力】
1.为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为理一组,理二组,,理五组,右图是根据试验数据制成的频率分布直方图,已知理一组与理二组共有20人,理三组中没有疗效的有6人,则理三组中有疗效的人数为( )
A.6 B.8 C.12 D.18
【答案】
2.某学校随机抽取个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示.以组距为将数据分组成,,…,,时,所作的频率分布直方图是( )
【答案】A
变量间的相关关系与独立性检验
【背一背基础知识】
1.两个变量间的相关关系:
①有关概念:相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.如果一个变量的值由小变大时另一个变量的值由小变大,这种相关称为正相关;如果一个变量的值由小变大时另一个变量的值由大变小,这种相关称为负相关;如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系.
②回归方程: 是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数. 的计算公式.
2.独立性检验:2×2列联表
B
合计
A
n11
n12
n1+
n21
n22
n2+
总计
n+1
n+2
n
构造一个随机变量,利用随机变量χ2来判断“两个分类变量有关系”的方法称为独立性检验:
若,则有95%把握认为A与B有关;若,则有99%把握认为A与B有关;
其中是判断是否有关系的临界值,应判断为没有充分证据显示A与B有关,而不能作为小于95%的量化值来判断.
【讲一讲基本技能】
1.必备技能:
①求回归直线,使“离差平方和为最小”的方法叫做最小二乘法,用最小二乘法求得回归方程是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数.从与的计算公式与
可以看出:(ⅰ)回归直线必过点;(ⅱ)与符号相同。
②回归【分析】是对具有相关关系的两个变量进行统计分析的一种常用方法,主要判断特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式。比如线性回归分析就是分析求出的回归直线是否有意义,而判断的依据就是|r|的大小:|r|≤1,并且|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱。从散点图来看,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义。
线性相关检验的步骤如下:
(ⅰ)作统计假设:x与Y不具有线性相关关系;
(ⅱ)根据小概率0.05与n-2在附表中查出r的一个临界值;
(ⅲ)根据样本相关系数计算公式求出r的值;
(ⅳ)作统计推断,如果|r|>,表明有95%的把握认为x与Y之间具有线性相关关系;
如果|r|≤,我们没有理由拒绝原来的假设。这时寻找回归直线方程是毫无意义的。
③注意:线性回归分析以散点图为基础,具有很强的直观性,有散点图作比较时,拟合效果的好坏可由直观性直接判断,没有散点图时,只须套用公式求r,再作判断即可.独立性检验没有直观性,必须依靠作判断.
2.典型例题
例1. 根据如下样本数据:
3
4
5
6
7
8
4.0
2.5
0.5
得到的回归方程为,则( )
A. , B. , C. , D. ,
分析:根据已知样本数判断线性回归方程中的与的符号.
【答案】A
例2.已知之间的几组数据如下表:
1
2
3
4
5
6
0
2
1
3
3
4
假设根据上表数据所得线性回归直线方程为中的前两组数据和求得的直线方程为则以下结论正确的是( )
A. B. C. D.
【解析】散点图如右,显然后四个点都不在直线的左上方,所以回归直线斜率应该更小,纵截距更大,故选C.
【练一练提升能力】
1. 已知变量与正相关,且由观测数据算得样本平均数,,则由该观测的数据算得的线性回归方程可能是( )
【答案】A
2.“十一”期间,邢台市通过随机询问100名性别不同的居民是否能做到‘光盘’行动,得到如下的列联表,参照附表,得到的正确的结论是 ( )
A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”
B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”
C.有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”
D.有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”
0.10
0.05
0.025
K
2.706
3.841
5.024
(一) 选择题(12*5=60分)
1.对一个容量为的总体抽取容量为的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为,则( )
【答案】D
2.在“世界读书日”前夕,为了了解某地名居民某天的阅读时间,从中抽取了名居民的阅读时间进行统计分析.在这个问题中,名居民的阅读时间的全体是( )
A.总体 B.个体
C.样本的容量 D.从总体中抽取的一个样本
【答案】A
3.某中学有高中生3500人,初中生1500人,为了解学生的学习情况,用分层抽样的方法从该校学生中抽取一个容量为的样本,已知从高中生中抽取70人,则为( )
【答案】A
【解析】.故选A.
4.设样本数据的均值和方差分别为1和4,若(为非零常数, ),则的均值和方差分别为( )
(A) (B) (C) (D)
【答案】
【解析】
试题分析:由题得:;
5.【2013年普通高等学校招生全国统一考试(湖南卷)理】某学校有男、女学生各500名.为了解男女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是( )
A.抽签法 B.随机数法 C.系统抽样法 D.分层抽样法
6.某公司位员工的月工资(单位:元)为,,…,,其均值和方差分别为和,若从下月起每位员工的月工资增加元,则这位员工下月工资的均值和方差分别为
(A) , (B),
(C), (D),
【答案】
7.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为
(A)-1 (B)0 (C) (D)1
【答案】D
【解析】根据样子相关系数的定义可知,当所有样本点都在直线上时,相关系数为1,选D.
8.采用系统抽样方法从人中抽取人做问卷调查,为此将他们随机编号为,,……,,分组后在第一组采用简单随机抽样的方法抽到的号码为.抽到的人中,编号落入区间的人做问卷,编号落入区间的人做问卷,其余的人做问卷.则抽到的人中,做问卷的人数为 ( )
A. B. C. D.
9. 【陕西工大附中第一次适应性训练】下图是两组各名同学体重(单位:)数据的茎叶图.设,两组数据的平均数依次为和,标准差依次为和,那么( )
(注:标准差,其中为的平均数)
A., B., C., D.,
10.交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查。假设四个社区驾驶员的总人数为,其中甲社区有驾驶员96人。若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数为( )
A、101 B、808 C、1212 D、2012
【答案】B
11. 【广东省广州市“十校”2013-2014学年度高三第一次联考理】学校为了解学生在课外读物方面的支出情况,抽取了个同学进行调查,结果显示这些同学的支出都在[10,50)(单 位:元),其中支出在(单位:元)的同学有67人,其频率分布直方图如右图所示,则的值为( )
A.100 B.120 C.130 D.390
【答案】A
【解析】支出在的同学的频率为,.
12.【安徽省示范高中2014届高三上学期第一次联考数学试题】给出下列五个命题:
①某班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容易为4的样本,已知7号,33号,46号同学在样本中,那么样本另一位同学的编号为23;
②一组数据1、2、3、4、5的平均数、众数、中位数相同;
③一组数据a、0、1、2、3,若该组数据的平均值为1,则样本标准差为2;
④根据具有线性相关关系的两个变量 的统计数据所得的回归直线方程为y=ax+b中,b=2,,则a=1;
⑤如图是根据抽样检测后得出的产品样本净重(单位:克)数据绘制的频率分布直方图,已知样本中产品净重小于100克的个数是36,则样本中净重大于或等于98克,并且小于104克的产品的个数是90.
【答案】B
(二) 填空题(4*5=20分)
13.【2014高考江苏6】某种树木的底部周长的取值范围是,它的频率分布直方图如图所示,则在抽测的60株树木中,有 株树木的底部周长小于100 cm.
【答案】24
14.某大学为了解在校本科生对参加某项社会实践活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本进行调查.已知该校一年级、二年级、三年级、四年级的本科生人数之比为4:5:5:6,则应从一年级本科生中抽取_______名学生.
【答案】60.
15.某国际会议在北京召开,为了搞好对外宣传工作,会务组选聘了16名男记者和14名女记者担任对外翻译工作,调查发现,男、女记者中分别有10人和6人会俄语.(1)根据以上数据完成以下2×2列联表:
会俄语
不会俄语
总计
男
女
总计
30
并回答能否在犯错的概率不超过0.10的前提下认为性别与会俄语有关? .
参考公式:K2=,其中n=a+b+c+d
参考数据:
P(K2≥k0)
0.40
0.25
0.10
0.010
k0
0.708
1.323
2.706
6.635
(2)会俄语的6名女记者中有4人曾在俄罗斯工作过,若从会俄语的6名女记者中随机抽取2人做同声翻译,则抽出的2人都在俄罗斯工作过的概率是 .
16.某市为增强市民的环境保护意识,面向全市征召义务宣传志愿者.现从符合条件的志愿者中随机抽取100名按年龄分组:第1组,第2组,第3组,第4组,第5组,得到的频率分布直方图如图所示.(1)若从第3,4,5组中用分层抽样的方法抽取6名志愿者参广场的宣传活动,应从第3,4,5组各抽取 名志愿者?
(2) 在(1)的条件下,该市决定在第3,4组的志愿者中随机抽取2名志愿者介绍宣传经验,则第4组至少有一名志愿者被抽中的概率是 .
17
展开阅读全文