资源描述
考点十九 统计与统计案例
一、选择题
1.对四组数据进行统计,获得如下图的散点图,关于其相关系数的比拟,正确的选项是( )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
答案 A
解析 易知题中图(1)和图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,那么r2<r4<0<r3<r1.
2.(2022·全国卷Ⅱ)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A.中位数 B.平均数 C.方差 D.极差
答案 A
解析 中位数是将9个数据从小到大或从大到小排列后,处于中间位置的数据,因而去掉1个最高分和1个最低分,不变的是中位数,平均数、方差、极差均受影响.应选A.
3.(2022·南阳市一中第九次目标考试)为考察A,B两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图.根据图中信息,在以下各项中,说法最正确的一项为哪一项( )
A.药物B的预防效果优于药物A的预防效果
B.药物A的预防效果优于药物B的预防效果
C.药物A,B对该疾病均有显著的预防效果
D.药物A,B对该疾病均没有预防效果
答案 B
解析 由题图可得服用药物A的患病人数少于服用药物B的患病人数,而服用药物A的未患病人数多于服用药物B的未患病人数,所以药物A的预防效果优于药物B的预防效果.应选B.
4.(2022·沈阳市东北育才学校高三一模)甲、乙两名同学6次考试的成绩统计如图,甲、乙两名同学成绩的平均数分别为甲、乙,标准差分别为σ甲,σ乙,那么( )
A.甲<乙,σ甲<σ乙 B.甲<乙,σ甲>σ乙
C.甲>乙,σ甲<σ乙 D.甲>乙,σ甲>σ乙
答案 C
解析 甲、乙两名同学6次考试的成绩统计如图,
甲、乙两名同学成绩的平均数分别为甲,乙,标准差分别为σ甲,σ乙,由折线图得甲>乙,σ甲<σ乙.应选C.
5.(2022·湖南张家界三模)变量x,y之间的线性回归方程为y=-0.7x+10.3,且变量x,y之间的一组相关数据如表所示,那么以下说法错误的选项是( )
x
6
8
10
12
y
6
m
3
2
A.变量x,y之间呈现负相关关系
B.可以预测,当x=20时,y=-3.7
C.m=4
D.由表格数据可知,该回归直线必过点(9,4)
答案 C
解析 由题意得,由-0.7<0,得变量x,y之间呈负相关,故A正确;当x=20时,那么=-0.7×20+10.3=-3.7,故B正确;由数据表格可知=×(6+8+10+12)=9,=×(6+m+3+2)=,那么=-0.7×9+10.3,解得m=5,故C错误;由数据表易知,数据中心为(9,4),故D正确.应选C.
6.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:
男
女
总计
爱好
40
20
60
不爱好
20
30
50
总计
60
50
110
由K2=算得,
K2=≈7.8.
附表:
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.有99%以上的把握认为“爱好该项运动与性别有关〞
B.有99%以上的把握认为“爱好该项运动与性别无关〞
C.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关〞
D.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关〞
答案 A
解析 由K2≈7.8>6.635可知,我们有99%以上的把握认为“爱好该项运动与性别有关〞.
7.(2022·湖南师大附中月考七)以下说法错误的选项是( )
A.在回归模型中,预报变量y的值不能由解释变量x唯一确定
B.假设变量x,y满足关系y=-0.1x+1,且变量y与z正相关,那么x与z也正相关
C.在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高
D.以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=ln y,将其变换后得到线性方程z=0.3x+4,那么c=e4,k=0.3
答案 B
解析 对于A,y除了受自变量x的影响之外还受其他因素的影响,故A正确;对于B,变量x,y满足关系y=-0.1x+1,那么变量x与y负相关,又变量y与z正相关,那么x与z负相关,故B错误;对于C,由残差图的意义可知正确;对于D,∵y=cekx,∴两边取对数,可得ln y=ln (cekx)=ln c+ln ekx=ln c+kx,令z=ln y,可得z=ln c+kx,∵z=0.3x+4,
∴ln c=4,k=0.3,∴c=e4.即D正确,应选B.
8.(2022·福建泉州第二次质检)某样本的容量为50,平均数为70,方差为75.现发现在收集这些数据时,其中的两个数据记录有误,一个错将80记录为60,另一个错将70记录为90.在对错误的数据进行更正后,重新求得样本的平均数为,方差为s2,那么( )
A.=70,s2<75 B.=70,s2>75
C.>70,s2<75 D.<70,s2>75
答案 A
解析 ==70,
设收集的48个准确数据分别记为x1,x2,…,x48,
那么75=[(x1-70)2+(x2-70)2+…+(x48-70)2+(60-70)2+(90-70)2]=[(x1-70)2+(x2-70)2+…+(x48-70)2+500],
s2=[(x1-70)2+(x2-70)2+…+(x48-70)2+(80-70)2+(70-70)2]
=[(x1-70)2+(x2-70)2+…+(x48-70)2+100]<75,应选A.
二、填空题
9.某同学一个学期内各次数学测验成绩的茎叶图如下图,那么该组数据的中位数是________.
答案 83
解析 根据茎叶图可知,中位数是82与84的平均数,所以答案为83.
10.总体由编号为01,02,…,19,20的个体组成,利用下面的随机数表选取7个个体,选取方法是从随机数表第1行的第3列和第4列数字开始由左到右依次选取两个数,那么选出的第7个个体的编号为________.
7816 6572 0802 6314 0702 4369 9728 0198
3204 9234 4935 8200 8623 4869 6938 7481
答案 04
解析 由随机数表可看出所选的数字依次为16,08,02,14,07,02,01,04,去掉重复数字02,那么第7个个体的编号为04,故答案为04.
11.(2022·河南新乡三模)某校有高一学生n名,其中男生数与女生数之比为6∶5,为了解学生的视力情况,现要求按分层抽样的方法抽取一个样本容量为的样本,假设样本中男生比女生多12人,那么n=________.
答案 1320
解析 依题意可得×=12,解得n=1320.
12.(2022·河南安阳十一模)通常,总分值为100分的试卷,60分为及格线,假设某次总分值为100分的测试卷,100人参加测试,将这100人的卷面分数按照[24,36),[36,48),…,[84,96]分组后绘制的频率分布直方图如下图.由于及格人数较少,某老师准备将每位学生的卷面分采用“开方乘以10取整〞的方式进行换算以提高及格率(实数a的取整等于不超过a的最大整数),如:某位学生卷面49分,那么换算成70分作为他的最终考试成绩,那么按照这种方式,这次测试的及格率将变为________.
答案 0.82
解析 先考虑不进行换算前36分以上(含36分)的学生的频率,该频率为1-0.015×12=0.82,换算后,原来36分以上(含36分)的学生都算及格,故这次测试的及格率将变为0.82.
三、解答题
13.(2022·内蒙古一模)在某外国语学校举行的HIMCM(高中生数学建模大赛)中,参与大赛的女生与男生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按女生、男生用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如下图.
(1)求a的值,并计算所抽取样本的平均值(同一组中的数据用该组区间的中点值作代表);
(2)填写下面的2×2列联表,并判断在犯错误的概率不超过0.05的前提下能否认为“获奖与女生、男生有关〞.
女生
男生
总计
获奖
5
不获奖
总计
200
附表及公式:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
其中K2=,n=a+b+c+d.
解 (1)a=×[1-(0.01+0.015+0.03+0.015+0.005)×10]=0.025,
=45×0.1+55×0.15+65×0.25+75×0.3+85×0.15+95×0.05=69.
(2)由频率分布直方图知样本中获奖的人数为40,不获奖的人数为160,
2×2列联表如下:
女生
男生
总计
获奖
5
35
40
不获奖
45
115
160
总计
50
150
200
因为K2=≈4.167>3.841,所以在犯错误的概率不超过0.05的前提下能认为“获奖与女生、男生有关.〞
14.(2022·聊城市高三一模)某小学为了了解四年级学生的家庭作业用时情况,从本校四年级随机抽取了一批学生进行调查,并绘制了学生作业用时的频率分布直方图,如下图.
(1)估算这批学生的作业平均用时情况;
(2)作业用时不能完全反映学生学业负担情况,这与学生自身的学习习惯有很大关系,如果用时四十分钟之内评价为优异,一个小时以上为一般,其他评价为良好.现从优异和良好的学生里面用分层抽样的方法抽取300人,其中女生有90人(优异20人).请完成列联表,并根据列联表分析能否在犯错误的概率不超过0.05的前提下认为学习习惯与性别有关系?
男生
女生
合计
良好
优异
合计
附:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.100
0.050
0.025
0.010
0.001
k0
2.706
3.841
5.024
6.635
10.828
解 (1)=10×(35×0.01+45×0.02+55×0.03+65×0.025+75×0.01+85×0.005)=57.
所以批学生作业用时的平均数为57.
(2)优异学生数与良好学生数之比为0.01∶(0.02+0.03)=1∶5,
按照分层抽样得300人中优异50人,良好250人;女生90人,男生210人;女生优异20,良好70人,男生优异30人,良好180人,
列联表如下:
男生
女生
合计
良好
180
70
250
优异
30
20
50
合计
210
90
300
K2=≈2.857<3.841,
故不能在犯错误的概率不超过0.05的前提下认为学习习惯与性别有关系.
一、选择题
1.在一次数学测试中,数学老师对班上7名同学在20题(12分),21题(12分)的得分情况进行统计,得到的得分率如下图,其中20题的得分率为图中虚线局部、21题的得分率为图中实线局部,记第20题、21题的平均得分分别为1,2,第20题、21题得分的标准差分别为s1,s2,那么( )
A.1>2,s1>s2 B.1<2,s1>s2
C.1>2,s1<s2 D.1<2,s1<s2
答案 C
解析 由于20题、21题的分值相同,且20题的得分率高于21题的得分率,那么20题的得分高于21题的得分;又由图可知,21题的得分率离散程度相对较大,那么21题得分的标准差大于20题得分的标准差,故1>2,s1<s2,应选C.
2.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入[1,450]的人做问卷A,编号落入[451,750]的人做问卷B,其余的人做问卷C,那么抽到的人中,做问卷B的人数为( )
A.8 B.10 C.12 D.14
答案 B
解析 由题意得系统抽样的抽样间隔为=30,又因为第一组内抽取的号码为9,那么由451≤9+30k≤750(k∈N*)得14.7≤k≤24.7,所以做问卷B的人数为10.
3.一个频率分布表(样本容量为30)不小心被损坏了一局部,只记得样本中数据在[20,60)上的频率为0.8,那么估计样本在[40,50),[50,60)内的数据个数共为( )
A.19 B.17 C.16 D.15
答案 D
解析 由题意得样本数据在[20,60)内的频数为30×0.8=24,那么样本在[40,50)和[50,60)内的数据个数之和为24-4-5=15,应选D.
4.为了解学生在课外活动方面的支出情况,抽取了n个同学进行调查,结果显示这些学生的支出金额(单位:元)都在[10,50],其中支出金额在[30,50]的学生有117人,频率分布直方图如下图,那么n=( )
A.180 B.160 C.150 D.200
答案 A
解析 [30,50]对应的概率为1-(0.01+0.025)×10=0.65,所以n==180.
5.x与y之间的几组数据如下表:
x
1
2
3
4
5
6
y
0
2
1
3
3
4
假设根据上表数据所得线性回归方程为=x+,假设某同学根据上表中的前两组数据(1,0)和(2,2),求得的直线方程为y=b′x+a′,那么以下结论正确的选项是( )
A.>b′,>a′ B.>b′,<a′
C.<b′,>a′ D.<b′,<a′
答案 C
解析 描出散点图,易观察出<b′,>a′,应选C.
6.(2022·四川乐山第三次调研)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,那么以下结论中不一定正确的选项是( )
注:90后指1990年及以后出生,80后指1980~1989年之间出生,80前指1979年及以前出生.
A.互联网行业从业人员中90后占一半以上
B.互联网行业中从事技术岗位的人数超过总人数的20%
C.互联网行业中从事运营岗位的人数90后比80前多
D.互联网行业中从事技术岗位的人数90后比80后多
答案 D
解析 对于选项A,互联网行业从业人员中90后占56%,占一半以上,所以正确;对于选项B,互联网行业中90后从事技术岗位的人数占总人数的39.6%×56%=22.176%,超过总人数的20%,所以正确;对于选项C,互联网行业中从事运营岗位的人数90后占总人数的56%×17%=9.52%,比80前多,所以正确;对于选项D,互联网行业中从事运营岗位的人数90后占总人数的56%×17%=9.52%,80后占总人数的41%,所以互联网行业中从事运营岗位的人数90后不一定比80后多,所以不一定正确,应选D.
7.针对“中学生追星问题〞,某校团委对“学生性别和中学生追星是否有关〞作了一次调查,其中女生人数是男生人数的,男生追星的人数占男生人数的,女生追星的人数占女生人数的.假设有95%的把握认为是否追星和性别有关,那么男生至少有( )
A.11人 B.12人 C.18人 D.24人
附表及公式:K2=,n=a+b+c+d.
P(K2≥k0)
0.050
0.025
0.010
0.005
k0
3.841
5.024
6.635
7.879
答案 B
解析 设男生人数为x,依题意可得列联表如下:
喜欢追星
不喜欢追星
总计
男生
x
女生
总计
x
假设在犯错误的概率不超过95%的前提下认为是否喜欢追星和性别有关,那么K2>3.841,由K2==>3.841,解得x>10.24,∵,为整数,∴假设在犯错误的概率不超过95%的前提下认为是否喜欢追星和性别有关,那么男生至少有12人,应选B.
8.(2022·江西南昌一模)具有线性相关的五个样本点A1(0,0),A2(2,2),A3(3,2),A4(4,2),A5(6,4),用最小二乘法得到回归直线方程l1:y=bx+a,过点A1,A2的直线方程l2:y=mx+n,那么以下四个命题中:
①m>b,a>n;②直线l1过点A3;③ (yi-bxi-a)2≥ (yi-mxi-n)2;④|yi-bxi-a|≥|yi-mxi-n|.
正确命题有( )
A.1个 B.2个 C.3个 D.4个
答案 B
解析 由所给的数据计算可得=3,=2,回归方程为y=0.6x+0.2,过点A1,A2的直线方程为y=x,逐一考查所给的结论:①m>b,a>n,该说法正确;②直线l1过点A3即回归方程过样本中心点,该说法正确;③ (yi-bxi-a)2=0.8, (yi-mxi-n)2=9,说法错误;④|yi-bxi-a|=1.6,|yi-mxi-n|=5,说法错误,综上可得正确命题的个数有2个,应选B.
二、填空题
9.空气质量指数(Air Quality Index,简称AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.一环保人士从当地某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数为________.(该年为365天)
答案 146
解析 该样本中AQI大于100的频数为4,频率为,以此估计此地全年AQI大于100的频率为,故此地该年AQI大于100的天数约为365×=146.
10.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.
答案 185
解析 设父亲身高为x cm,儿子身高为y cm,那么
x
173
170
176
y
170
176
182
=173,=176,==1,=- =176-1×173=3,所以=x+3,当x=182时,=185.
11.甲、乙两人要竞争一次大型体育竞技比赛射击工程的参赛资格,如图是在测试中甲、乙各射靶10次的条形图,那么参加比赛的最正确人选为________.
答案 乙
解析 甲的平均数1=4×0.2+5×0.1+7×0.3+8×0.1+9×0.2+10×0.1=7.0,乙的平均数2=5×0.1+6×0.2+7×0.4+8×0.2+9×0.1=7.0,所以1=2;甲的方差s=×[(7-4)2×2+(7-5)2×1+(7-7)2×3+(7-8)2×1+(7-9)2×2+(7-10)2×1]=4,乙的方差s=×[(7-5)2×1+(7-6)2×2+(7-7)2×4+(7-8)2×2+(7-9)2×1]=1.2,所以s>s,即参加比赛的最正确人选为乙.
12.某学校开展一次“五·四〞知识竞赛活动,共有三个问题,其中第1、2题总分值都是15分,第3题总分值是20分.每个问题或者得总分值,或者得0分.活动结果显示,每个参赛选手至少答对一道题,有6名选手只答对其中一道题,有12名选手只答对其中两道题.答对第1题的人数与答对第2题的人数之和为26,答对第1题的人数与答对第3题的人数之和为24,答对第2题的人数与答对第3题的人数之和为22.那么参赛选手中三道题全答对的人数是________;所有参赛选手得分的平均数是________.
答案 2 29.5
解析 设x1,x2,x3分别表示答对第1题、第2题、第3题的人数,那么有解得x1=14,x2=12,x3=10,又只答对一道题的人数为6,只答对两道题的人数为12,设答对三道题的人数为x,那么全班人数为6+12+x,∴6×1+12×2+3x=36,解得x=2,∴三道题全答对的人数是2,所有参赛选手得分的平均数是=×(14×15+12×15+10×20)=29.5.
三、解答题
13.(2022·长沙一模)某互联网公司为了确定下一季度的前期广告投入方案,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如下表:
月份
1
2
3
4
5
6
广告投入量/万元
2
4
6
8
10
12
收益/万元
14.21
20.31
31.8
31.18
37.83
44.67
他们用两种模型①y=bx+a,②y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如下图的残差图及一些统计量的值:
xiyi
x
7
30
1464.24
364
(1)根据残差图,比拟模型①,②的拟合效果,应选择哪个模型?并说明理由;
(2)残差绝对值大于2的数据被认为是异常数据,需要剔除:
(ⅰ)剔除异常数据后,求出(1)中所选模型的回归方程;
(ⅱ)广告投入量x=18时,(1)中所选模型收益的预报值是多少?
附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归直线=x+的斜率和截距的最小二乘估计分别为:==,=- .
解 (1)应该选择模型①,因为模型①的残差点比拟均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.
(2)(ⅰ)剔除异常数据,即3月份的数据后,得
=×(7×6-6)=7.2,
=×(30×6-31.8)=29.64.
xiyi=1464.24-6×31.8=1273.44,
x=364-62=328.
====3,
=- =29.64-3×7.2=8.04.
所以y关于x的回归方程为=3x+8.04.
(ⅱ)把x=18代入(ⅰ)中所求回归方程得=3×18+8.04=62.04,
故预报值为62.04万元.
14.(2022·云南省第二次高三统一检测)在某市创立全国文明城市的过程中,创文专家组对该市的中小学进行了抽检,其中抽检的一个环节是对学校的教师和学生分别进行问卷测评.下表是被抽检到的五所学校A,B,C,D,E的教师和学生的测评成绩(单位:分):
学校
A
B
C
D
E
教师测评成绩x
90
92
93
94
96
学生测评成绩y
87
89
89
92
93
(1)建立y关于x的回归方程=x+;
(2)现从A,B,C,D,E这五所学校中随机选两所派代表参加座谈,求A,B两所学校至少有一所被选到的概率P.
附:=,=- .
解 (1)依据题意计算得
==93,
==90,
(xi-)2=(-3)2+(-1)2+02+12+32=20,
(xi-)(yi-)=(-3)×(-3)+(-1)×(-1)+0×(-1)+1×2+3×3=21,
==,
=- =90-×93=-.
∴所求回归方程为=x-.
(2)从A,B,C,D,E这5所学校中随机选2所,具体情况为(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),(C,D),(C,E),(D,E),共有10种等可能的结果.
A,B两所学校至少有一所被选到的为(A,B),(A,C),(A,D),(A,E),(B,C),(B,D),(B,E),共有7种.
所以A,B两所学校至少有一所被选到的概率P=.
- 13 -
展开阅读全文