资源描述
高考数学人教A版(理科)一轮复习:统计与概率
第十一篇 统计与概率
第1讲 抽样方法与总体分布的估计
【2014年高考会这样考】
1.考查三种抽样方法及其应用.
2.考查频率分布直方图中的相关计算(求解频率、频数等).
3.考查用样本估计总体中的样本数据的数字特征(平均数、方差、标准差等).
考点梳理
1. 三种抽样方法的比较
类别
共同点
各自特点
相互联系
适用范围
简单随机抽样
抽样过程中每个个体被抽取的概率相等,均属于不放回抽样
从总体中逐个抽取
总体中的个体数较少
系统抽样
将总体均分成几部分,按事先确定的规则在各部分中抽取
在起始部分抽样时采用简单随机抽样
总体中的个体数较多
分层
抽样
将总体分成几层,分层进行抽样
各层抽样时采用简单随机抽样或系统抽样
总体由差异明显的几部分组成
2.频率分布直方图与茎叶图
(1)当总体很大或不便获得时,可以用样本的频率分布去估计总体的频率分布,我们把反映样本频率分布的表格称为频率分布表.绘制频率分布表的步骤为:①求极差;②决定组距和组数;③将数据分组;④列频率分布表.
(2)利用直方图反映样本的频率分布,这样的直方图称为频率分布直方图.画频率分布直方图的一般步骤是:①绘制频率分布表;②作直角坐标系,把横轴分成若干段,每一段对应一个组的组距;③在上面标出的各点中,分别以相邻两点为端点的线段为底作矩形,它的高等于该组的.此时,每个矩形的面积恰好就是该组的频率,显然所有矩形的面积之和为1.
3.样本的数字特征
(1)众数
在样本数据中,出现次数最多的那个数据.
(2)中位数
样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.
(3)平均数
样本数据的算术平均数,即=(x1+x2+…+xn).
(4)方差与标准差
方差:s2=[(x1-)2+(x2-)2+…+(xn-)2].
标准差:s= .
一条规律
三种抽样方法的共同点都是等概率抽样,即抽样过程中每个个体被抽到的概率相等,体现了这三种抽样方法的客观性和公平性.若样本容量为n,总体的个体数为N,则用这三种方法抽样时,每个个体被抽到的概率都是.
两个特性
(1)在频率分布表中,频数的和等于样本容量,每一小组的频率等于这一组的频数除以样本容量,各小组频率的和等于1;
(2)在频率分布直方图中,小矩形的高等于每一组的频率/组距,每个小矩形的面积等于该组的频率,所有小矩形的面积之和为1.
考点自测
1.(2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查.为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为( ).
A.7 B.9 C.10 D.15
解析 从960人中用系统抽样方法抽取32人,则每30人抽取一人,因为第一组抽到的号码为9,则第二组抽到的号码为39,第n组抽到的号码为an=9+30(n-1)=30n-21,由451≤30n-21≤750,得≤n≤,所以n=16,17,…,25,共有25-16+1=10人,选C.
答案 C
2.(2013·临沂模拟)甲校有3 600名学生,乙校有5 400名学生,丙校有1 800名学生.为统计三校学生某方面的情况,计划采用分层抽样法,抽取一个容量为90的样本,应该在这三校分别抽取的学生人数是( ).
A.30,30,30 B.30,45,15
C.20,30,10 D.30,50,10
解析 抽取比例是=,故三校分别抽取的学生人数为3 600×=30,5 400×=45,1 800×=15.
答案 B
3.10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,19,17,16,14,12,则这一天10名工人生产的零件的中位数是( ).
A.14 B.16 C.15 D.17
解析 将这组数据从小到大排列得10,12,14,14,15,15,16,17,17,19.故中位数为=15.
答案 C
4.(2013·西北工大附中测试)如图是容量为150的样本的频率分布直方图,则样本数据落在[6,10)内的频数为( ).
A.12 B.48 C.60 D.80
解析 落在[6,10)内的频率为0.08×4=0.32,故频数为0.32×150=48.
答案 B
5.(2013·长沙模拟)
如图是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.
(注:方差s2=[(x1-)2+(x2-)2+…+(xn-)2],其中为x1,x2,…,xn的平均数)
解析 =(8+9+10+13+15)=11,s2=×(9+4+1+4+16)=6.8.
答案 6.8
考向一 抽样方法
【例1】►从某厂生产的802辆轿车中抽取80辆测试某项性能.请合理选择抽样方法进行抽样,并写出抽样过程.
[审题视点] 因为802不能整除80,为了保证“等距”分段,应先剔除2个个体.
解 由于总体及样本中的个体数较多,且无明显差异,因此采用系统抽样的方法,步骤如下:
第一步:先从802辆轿车中剔除2辆轿车(剔除方法可用随机数法);
第二步:将余下的800辆轿车编号为1,2,…,800,并均匀分成80段,每段含k==10个个体;
第三步:从第1段即1,2,…,10这10个编号中,用简单随机抽样的方法抽取一个编号(如5)作为起始编号;
第四步:从5开始,再将编号为15,25,…,795的个体抽出,得到一个容量为80的样本.
解决系统抽样问题的两个关键步骤为:
(1)分段的方法应依据抽取的样本容量而定,即根据定义每段抽取一个样本.
(2)起始编号的确定应用简单随机抽样的方法,一旦起始编号确定,其他编号便随之确定了.
【训练1】 (2012·天津)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校.
解析 根据分层抽样的特点求解.从小学中抽取30×=18所学校;从中学中抽取30×=9所学校.
答案 18 9
考向二 频率分布直方图的绘制及应用
【例2】►某班同学利用国庆节进行社会实践,对[25,55]岁的人群随机抽取n人进行了一次生活习惯是否符合低碳观念的调查,若生活习惯符合低碳观念,称为“低碳族”,否则称为“非低碳族”,得到如下统计表和各年龄段人数频率分布直方图:
组数
分组
低碳族的人数
占本组的频率
第一组
[25,30)
120
0.6
第二组
[30,35)
195
p
第三组
[35,40)
100
0.5
第四组
[40,45)
a
0.4
第五组
[45,50)
30
0.3
第六组
[50,55]
15
0.3
续表
(1)补全频率分布直方图;
(2)求n,a,p的值.
[审题视点] (1)要补全频率分布直方图,关键是计算出第二组的频率;(2)灵活运用关系式:×组距=频率,=频率求解.
解 (1)第二组的频率为1-(0.04+0.04+0.03+0.02+0.01)×5=0.3,所以小长方形的高为=0.06.频率分布直方图如图所示.
(2)第一组的人数为=200,频率为0.04×5=0.2,
所以n==1 000.
由(1)知,第二组的频率为0.3,所以第二组的人数为1 000×0.3=300,所以p==0.65.第四组的频率为0.03×5=0.15,所以第四组的人数为1 000×0.15=150,所以a=150×0.4=60.
(1)绘制频率分布直方图时需注意:①制作好频率分布表后可以利用各组的频率之和是否为1来检验该表是否正确;②频率分布直方图的纵坐标是,而不是频率.
(2)由频率分布直方图进行相关计算时,需掌握下列关系式:×组距=频率.
【训练2】 (2013·烟台四校联考)据悉2012年山东省高考要将体育成绩作为参考,为此,济南市为了了解今年高中毕业生的体能状况,从本市某校高中毕业班中抽取一个班进行铅球测试,成绩在8.0 m(精确到0.1 m)以上的为合格.把所得数据进行整理后,分成6组,并画出频率分布直方图的一部分如图所示.已知从左到右前5个小组对应矩形的高分别为0.04,0.10,0.14,0.28,0.30,且第6小组的频数是7.
(1)求这次铅球测试成绩合格的人数;
(2)若由直方图来估计这组数据的中位数,指出该中位数在第几组内,并说明理由.
解 (1)由题易知,第6小组的频率为1-(0.04+0.10+0.14+0.28+0.30)×1=0.14,
∴此次测试的总人数为=50.
∴这次铅球测试成绩合格的人数为(0.28×1+0.30×1+0.14×1)×50=36.
(2)直方图中中位数两侧的矩形面积和相等,即频率和相等,前三组的频率和为0.28,前四组的频率和为0.56,
∴中位数位于第4组内.
考向三 用样本的数字特征估计总体的数字特征
【例3】►甲乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.
(1)分别求出两人得分的平均数与方差;
(2)根据图和上面算得的结果,对两人的训练成绩作出评价.
[审题视点] (1)先通过图象统计出甲、乙二人的成绩;
(2)利用公式求出平均数、方差,再分析两人的成绩,作出评价.
解 (1)由图象可得甲、乙两人五次测试的成绩分别为
甲:10分,13分,12分,14分,16分;
乙:13分,14分,12分,12分,14分.
甲==13,
乙==13,
s=[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,
s=[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.
(2)由s>s可知乙的成绩较稳定.
从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.
(1)用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,当所得数据平均数不相等时,需先分析平均水平,再计算标准差(方差)分析稳定情况.
(2)若给出图形,一方面可以由图形得到相应的样本数据,再计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小反映方差(标准差)的大小.
【训练3】
(2012·陕西)从甲乙两个城市分别随机抽取16台自动售货机,对其销售额进行统计,统计数据用茎叶图表示(如图所示).设甲乙两组数据的平均数分别为甲,乙,中位数分别为m甲,m乙,则( ).
A.甲<乙,m甲>m乙 B.甲<乙,m甲<m乙
C.甲>乙,m甲>m乙 D.甲>乙,m甲<m乙
解析 甲=(41+43+30+30+38+22+25+27+10+10+14+18+18+5+6+8)=,
乙=(42+43+48+31+32+34+34+38+20+22+23+23+27+10+12+18)=.
∴甲<乙.
又∵m甲=20,m乙=29,∴m甲<m乙.
答案 B
方法优化15——快速掌握抽样方法的技巧
【命题研究】 通过近三年的高考试题分析,考查分层抽样方法的题目较多,其次是系统抽样.题型多为选择题、填空题,有的与统计的其它知识或概率综合考查,常以解答题的形式出现,难度较低.
【真题探究】► (2012·江苏)某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.
[教你审题] 一审 等比例性质;
二审 抽取的样本容量.
[优美解法] 高二年级学生人数占总数的=.样本容量为50,则高二年级抽取:50×=15(名)学生.
[答案] 15
[反思] 用分层抽样抽样时,分成的各层标准要一致,互不重叠,各层抽取的比例都等于样本容量在总体中的比例,即.
【试一试】 (2013·徐州模拟)从某小学随机抽取100名同学,这些同学身高都不低于100厘米,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).现用分层抽样的方法从身高在[120,130),[130,140),[140,150]三组学生中,选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.
解析 由(0.005+0.010+0.020+0.035+a)×10=1,得a=0.030,因此[120,130),[130,140),[140,150]三组学生人数分别为:0.3×100=30,0.20×100=20,0.10×100=10,所以,从身高在[140,150]内的学生中选取的人数应为×18=3.
答案 3
A级 基础演练(时间:30分钟 满分:55分)
一、选择题(每小题5分,共20分)
1.(2013·西安质检)对某商店一个月内每天的顾客人数进行了统计, 得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是 ( ).
A.46,45,56 B.46,45,53
C.47,45,56 D.45,47,53
解析 样本共30个,中位数为=46;显然样本数据出现次数最多的为45,故众数为45;极差为68-12=56,故选A.
答案 A
2.(2013·南昌模拟)小波一星期的总开支分布如图(a)所示,一星期的食品开支如图(b)所示,则小波一星期的鸡蛋开支占总开支的百分比为 ( ).
A.30% B.10% C.3% D.不能确定
解析 由题图(b)可知小波一星期的食品开支共计300元,其中鸡蛋开支30元.又由题图(a)知,一周的食品开支占总开支的30%,则可知一周总开支为
1 000元,所以鸡蛋开支占总开支的百分比为×100%=3%.
答案 C
3.(2013·成都模拟)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为( ).
A.101 B.808 C.1 212 D.2 012
解析 甲社区驾驶员的抽样比例为=,四个社区驾驶员总人数的抽样比例为=,由=,得N=808.
答案 B
4.(2012·安徽)甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则 ( ).
A.甲的成绩的平均数小于乙的成绩的平均数
B.甲的成绩的中位数等于乙的成绩的中位数
C.甲的成绩的方差小于乙的成绩的方差
D.甲的成绩的极差小于乙的成绩的极差
解析 由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.所以甲、乙的成绩的平均数均为6,A错;甲、乙的成绩的中位数分别为6,5,B错;甲、乙的成绩的方差分别为×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=,C对;甲、乙的成绩的极差均为4,D错.
答案 C
二、填空题(每小题5分,共10分)
5.(2013·武夷模拟)用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生随机地从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为126,则第1组中用抽签的方法确定的号码是________.
解析 设第1组抽取的号码为b,则第n组抽取的号码为8(n-1)+b,∴8×(16-1)+b=126,∴b=6,故第1组抽取的号码为6.
答案 6
6.(2013·苏州一中月考)某学校为了解学生数学课程的学习情况,在1 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图可估计这1 000名学生在该次数学考试中成绩不低于60分的学生人数是________.
解析 低于60分学生所占频率为(0.002+0.006+0.012)×10=0.2,故低于60分的学生人数为1 000×0.2=200,所以不低于60分的学生人数为1 000-200=800.
答案 800
三、解答题(共25分)
7.(12分)某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人.上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,请具体实施抽取.
解 用分层抽样方法抽取.
具体实施抽取如下:
(1)∵20∶100=1∶5,∴=2,=14,=4,
∴从副处级以上干部中抽取2人,从一般干部中抽取14人,从工人中抽取4人.
(2)因副处级以上干部与工人的人数较少,他们分别按1~10编号与1~20编号,然后采用抽签法分别抽取2人和4人;对一般干部70人采用00,01,02,…,69编号,然后用随机数表法抽取14人.
(3)将2人,4人,14人的编号汇合在一起就取得了容量为20的样本.
8.(13分)(2012·揭阳调研)某校高一某班的某次数学测试成绩(满分为100分)的茎叶图和频率分布直方图都受了不同程度的破坏,但可见部分如图,据此解答下列问题:
(1)求分数在[50,60]的频率及全班人数;
(2)求分数在[80,90]之间的频数,并计算频率分布直方图中[80,90]间的矩形的高.
解 (1)分数在[50,60]的频率为0.008×10=0.08.
由茎叶图知,分数在[50,60]之间的频数为2,所以全班人数为=25.
(2)分数在[80,90]之间的频数为25-2-7-10-2=4,频率分布直方图中[80,90]间的矩形的高为÷10=0.016.
B级 能力突破
(时间:30分钟 满分:45分)
一、选择题(每小题5分,共10分)
1.(2013·哈尔滨模拟)一个样本容量为10的样本数据,它们组成一个公差不为0的等差数列{an},若a3=8,且a1,a3,a7成等比数列,则此样本的平均数和中位数分别是( ).
A.13,12 B.13,13 C.12,13 D.13,14
解析 设等差数列{an}的公差为d(d≠0),a3=8,a1a7=(a3)2=64,(8-2d)(8+4d)=64,(4-d)(2+d)=8,2d-d2=0,又d≠0,故d=2,故样本数据为4,6,8,10,12,14,16,18,20,22,样本的平均数为=13,中位数为=13,故选B.
答案 B
2.(2012·江西)样本(x1,x2,…,xn)的平均数为,样本(y1,y2,…,ym)的平均数为(≠).若样本(x1,x2,…,xn,y1,y2,…,ym)的平均数=α+(1-α),其中0<α<,则n,m的大小关系为 ( ).
A.n<m B.n>m C.n=m D.不能确定
解析 依题意得x1+x2+…+xn=n,y1+y2+…+ym=m,
x1+x2+…+xn+y1+y2+…+ym=(m+n)=(m+n)α+(m+n)(1-α),
∴n+m=(m+n)α+(m+n)(1-α),
∴
于是有n-m=(m+n)[α-(1-α)]=(m+n)(2α-1),
∵0<α<,∴2α-1<0,∴n-m<0,即m>n.
答案 A
二、填空题(每小题5分,共10分)
3.(2013·沈阳质检)沈阳市某高中有高一学生600人,高二学生500人,高三学生550人,现对学生关于消防安全知识了解情况进行分层抽样调查,若抽取了一个容量为n的样本,其中高三学生有11人,则n的值等于________.
解析 由=,得n=33(人).
答案 33
4.(2013·北京西城一模)某年级120名学生在一次百米测试中,成绩全部介于13秒与18秒之间.将测试结果分成5组:[13,14),[14,15),[15,16),[16,17),[17,18],得到如图所示的频率分布直方图.如果从左到右的5个小矩形的面积之比为1∶3∶7∶6∶3,那么成绩在[16,18]的学生人数是____________.
解析 成绩在[16,18]的学生的人数所占比例为=,所以成绩在[16,18]的学生人数为120×=54.
答案 54
三、解答题(共25分)
5.(12分)汽车行业是碳排放量比较大的行业之一,欧盟规定,从2012年开始,对CO2排放量超过130 g/km的MI型新车进行惩罚(视为排放量超标),某检测单位对甲、乙两类MI型品牌的新车各抽取了5辆进行CO2排放量检测,记录如下(单位:g/km):
甲
80
110
120
140
150
乙
100
120
x
Y
160
经测算发现,乙类品牌车CO2排放量的均值为乙=120 g/km.
(1)求甲类品牌汽车的排放量的平均值及方差;
(2)若乙类品牌汽车比甲类品牌汽车CO2的排放量稳定性好,求x的取值范围.
解 (1)甲类品牌汽车的CO2排放量的平均值甲==120(g/km),
甲类品牌汽车的CO2排放量的方差
s=
=600.
(2)由题意知乙类品牌汽车的CO2排放量的平均值乙==120(g/km),得x+y=220,故y=220-x,所以乙类品牌汽车的CO2排放量的方差
s=,
因为乙类品牌汽车比甲类品牌汽车CO2的排放量稳定性好,所以s<s,解得90<x<130.
6.(13分)已知某单位有50名职工,现要从中抽取10名
职工,将全体职工随机按1~50编号,并按编号顺序
平均分成10组,按各组内抽取的编号依次增加5进行
系统抽样.
(1) 若第5组抽出的号码为22,写出所有被抽出职工
(2) 的号码;
(2)分别统计这10名职工的体重(单位:公斤),获得体重数据的茎叶图如图所示,求该样本的方差;
(3)在(2)的条件下,从这10名职工中随机抽取两名体重不轻于73公斤(≥73公斤)的职工,求体重为76公斤的职工被抽取到的概率.
解 (1)由题意,第5组抽出的号码为22.
因为k+5×(5-1)=22,所以第1组抽出的号码应该为2,抽出的10名职工的号码分别为2,7,12,17,22,27,32,37,42,47.
(2)因为10名职工的平均体重为
=(81+70+73+76+78+79+62+65+67+59)=71,
所以样本方差为:s2=(102+12+22+52+72+82+92+62+42+122)=52.
(3)从10名职工中随机抽取两名体重不轻于73公斤的职工,共有10种不同的取法:(73,76),(73,78),(73,79),(73,81),(76,78),(76,79),(76,81),(78,79),(78,81),(79,81).
记“体重为76公斤的职工被抽取”为事件A,它包括的事件有(73,76),(76,78),(76,79),(76,81)共4个.
故所求概率为P(A)==.
第2讲 变量间的相关关系与统计案例
【2014年高考会这样考】
1.考查利用散点图判断变量之间的关系.
2.考查线性回归方程的计算或回归分析的思想与方法的应用问题.
3.考查独立性检验的基本思想及应用.
考点梳理
1.相关关系的判断
(1)散点图直观反映了两变量的成对观测值之间存在的某种关系,利用散点图可以初步判断两个变量之间是否线性相关.如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x和y具有线性相关关系.
(2)相关系数r=,当r>0时,两变量正相关,当r<0时,两变量负相关,当|r|≤1且|r|越接近于1,相关程度越高,当|r|≤1且|r|越接近于0,相关程度越低.
2.最小二乘法求回归直线方程
(1)设线性回归方程为=x+,其中,是回归方程的斜率,是截距.
(2)回归直线一定经过样本的中心点(,),据此性质可以解决有关的计算问题.
3.独立性检验
(1)独立性检验的有关概念
①分类变量
可用变量的不同“值”表示个体所属的不同类别的变量称为分类变量.
②2×2列联表
假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
(2)独立性检验
利用随机变量K2=(其中n=a+b+c+d为样本容量)来判断“两个变量有关系”的方法称为独立性检验.
步骤如下:
①计算随机变量K2的观测值k,查下表确定临界值k0:
P(K2≥k0)
0.50
0.40
0.25
0.15
0.10
k0
0.455
0.708
1.323
2.072
2.706
P(K2≥k0)
0.05
0.025
0.010
0.005
0.001
k0
3.841
5.024
6.635
7.879
10.828
②如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2≥k0);否则,就认为在犯错误的概率不超过P(K2≥k0)的前提下不能推断“X与Y有关系”.
一个区别
函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.
三个特征
(1)回归方程=x+中的表示x增加一个单位时,的变化量约为.
(2)R2越大,残差平方和越小,即模型的拟合效果越好;R2越小,残差平方和越大,即模型的拟合效果越差.
(3)当K2≥3.841时,则有95%的把握说事件A与B有关;
当K2≥6.635时,则有99%的把握说事件A与B有关;
当K2≤2.706时,则认为事件A与B无关.
考点自测
1.下列两个变量之间的关系是相关关系的是( ).
A.正方体的棱长与体积
B.单位面积的产量为常数时,土地面积与总产量
C.日照时间与水稻的亩产量
D.电压一定时,电流与电阻
解析 A,B,D中两个变量间的关系都是确定的,所以是函数关系;C中的两个变量间是相关关系,对于日照时间一定的水稻,仍可以有不同的亩产量,故选C.
答案 C
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断( ).
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析 由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.
答案 C
3.(2012·湖南)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( ).
A.y与x具有正的线性相关关系
B.回归直线过样本点的中心(,)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg
D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg
解析 根据线性回归方程中各系数的意义求解.由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本中心点(,),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.
答案 D
4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是( ).
A.有99%的人认为该栏目优秀
B.有99%的人认为该栏目是否优秀与改革有关系
C.有99%的把握认为电视栏目是否优秀与改革有关系
D.没有理由认为电视栏目是否优秀与改革有关系
解析 只有K2≥6.635才能有99%的把握认为电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故D正确.
答案 D
5.(2011·辽宁)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的线性回归方程:=0.254x+0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.
解析 由题意,知其回归系数为0.254,故家庭年收入每增加1万元,年饮食支出平均增加0.254万元.
答案 0.254
考向一 线性相关关系的判断
【例1】►下表是某小卖部6天卖出的热茶的杯数与当天气温的对比表.
气温/℃
26
18
13
10
4
-1
杯数y
20
24
34
38
50
64
(1)将表中的数据画成散点图;
(2)你能依据散点图指出气温与热茶杯数的关系吗?
(3)如果气温与卖出热茶杯数近似成线性相关关系的话,请画出一条直线来近似地表示这种线性相关关系.
[审题视点] (1)用x轴表示气温,y轴表示杯数,逐一画点;(2)根据散点图分析两个变量是否存在相关关系.
解 (1)画出的散点图如图.
(2)从图中可以发现气温和热茶杯数具有相关关系,气温和热茶杯数成负相关,图中的各点大致分布在一条直线的附近,因此气温和杯数近似成线性相关关系.
(3)根据不同的标准,可以画出不同的直线来近似表示这种线性相关关系,如让画出的直线上方的点和下方的点数目相等.如图.
利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
【训练1】 5个学生的数学和物理成绩如下表:
学生
学科
A
B
C
D
E
数学
80
75
70
65
60
物理
70
66
68
64
62
画出散点图,并判断它们是否有相关关系.
解 把数学成绩作为横坐标,把相应的物理成绩作为纵坐标,在直角坐标系中描点(xi,yi)(i=1,2,…,5),作出散点图如图.
从图中可以直观地看出数学成绩和物理成绩具有相关关系,且当数学成绩增大时,物理成绩也在由小变大,即它们正相关.
考向二 线性回归方程及其应用
【例2】►(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x/元
8
8.2
8.4
8.6
8.8
9
销量y/件
90
84
83
80
75
68
(1)求回归直线方程=x+,其中=-20,=- ;
(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)
[审题视点] (1)分别计算,,利用线性回归方程过点(,),代入方程可得解;
(2)将已知条件代入可得关于单价x的二次函数,配方可得最大值.
解 (1)由于=(8+8.2+8.4+8.6+8.8+9)=8.5,
=(90+84+83+80+75+68)=80,又=-20,
所以=- =80+20×8.5=250,
从而回归直线方程为=-20x+250.
(2)设工厂获得的利润为L元,依题意得
L=x(-20x+250)-4(-20x+250)
=-20x2+330x-1 000
=-202+361.25.
当且仅当x=8.25时,L取得最大值.
故当单价定为8.25元时,工厂可获得最大利润.
求回归直线方程的步骤:
(1)依据样本数据画出散点图,确定两个变量具有线性相关关系;(2)计算出,,,iyi的值;(3)计算回归系数,;(4)写出回归直线方程=x+.
【训练2】 (2013·南昌模拟)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.
房屋面积x/m2
115
110
80
135
105
销售价格y/万元
24.8
21.6
18.4
29.2
22
(1)求线性回归方程;
(2)据(1)的结果估计当房屋面积为150 m2时的销售价格.
解 (1)=×(115+110+80+135+105)=109,
=×(24.8+21.6+18.4+29.2+22)=23.2.
设所求回归直线方程为=x+,则
==≈0.196 2,
∴=- =23.2-109×≈1.816 6.
∴所求回归直线方程为=0.196 2x+1.816 6.
(2)由第(1)问可知,当x=150 m2时,销售价格的估计值为
=0.196 2×150+1.816 6=31.246 6(万元).
考向三 独立性检验的基本思想及应用
【例3】►在调查男女乘客是否晕机的事件中,已知男乘客晕机为28人,不晕机的也是28人,而女乘客晕机为28人,不晕机的为56人.
(1)根据以上数据建立一个2×2的列联表;
(2)能否在犯错误的概率不超过0.05的前提下认为晕机与性别有关系?
(可能用到的公式:K2=,可能用到的数据:P(K2≥3.841)=0.05,P(K2≥5.024)=0.025)
[审题视点] (1)列2×2列联表;(2)假设是否晕机与性别无关,代入公式求K2的观测值.
解 (1)2×2列联表如下:
晕机
不晕机
合计
男乘客
28
28
56
女乘客
28
56
84
合计
56
84
140
(2)假设是否晕机与性别无关,则K2的观测值k==≈3.889,P(K2≥3.841)=0.05.
所以可以在犯错误的概率不超过0.05的前提下认为晕机与性别有关系.
解决独立性检验的应用问题,首先要根据题目条件列出两个变量的2×2列联表,通过计算随机变量K2的观测值k,依据临界值与犯错误的概率得出结论.注意观测值的临界值与概率间的对应关系.
【训练3】 (2013·东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主)
展开阅读全文