资源描述
第4节 变量间的相关关系与统计案例
考纲要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.
知识梳理
1.相关关系与回归分析
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.
(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.
2.线性回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则==,=-.其中,是回归方程的斜率,是在y轴上的截距.
回归直线一定过样本点的中心(,).
3.回归分析
(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其中(,)称为样本点的中心.
(3)相关系数
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的绝对值越接近于1,表明两个变量的线性相关性越强.
r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.
(4)相关指数:R2=1-.其中(yi-i)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.
4.独立性检验
(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
则随机变量K2=,其中n=a+b+c+d为样本容量.
1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本点的中心(,).
2.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.
3.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
诊断自测
1.判断下列结论正误(在括号内打“√”或“×”)
(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )
(2)通过回归直线方程=x+可以估计预报变量的取值和变化趋势.( )
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( )
(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( )
答案 (1)√ (2)√ (3)√ (4)√
2.为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( )
A.回归分析 B.均值与方差
C.独立性检验 D.概率
答案 C
解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断.
3.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )
A.模型1的相关指数R2为0.98
B.模型2的相关指数R2为0.80
C.模型3的相关指数R2为0.50
D.模型4的相关指数R2为0.25
答案 A
解析 在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.
4.(2020·贵阳期末)已知关于变量x,y的线性回归方程为=0.25x+0.55,且x,y的相关数据如下表所示,则表格中m的值为( )
x
1
2
3
4
y
0.8
m
1.4
1.5
A.1 B.1.05 C.1.2 D.2
答案 A
解析 由题意知==2.5,
==,
所以样本点的中心为,
代入线性回归方程=0.25x+0.55,得=0.25×2.5+0.55,解得m=1.
5.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:
由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )
A.y=a+bx B.y=a+bx2
C.y=a+bex D.y=a+bln x
答案 D
解析 由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D.
6.(2021·衡阳八中月考)某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:
喜欢“应用统计”课程
不喜欢“应用统计”课程
男生
20
5
女生
10
20
附表:
P(K2≥k0)
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.706
3.841
5.024
6.635
7.879
10.828
参考公式:K2=,其中n=a+b+c+d.参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关
B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关
C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关
D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关
答案 A
解析 ∵K2=≈11.978>10.828,
所以有99.9%的把握认为喜欢“应用统计”课程与性别有关,即在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关.
考点一 相关关系的判断
1.下列四个散点图中,变量x与y之间具有负的线性相关关系的是( )
答案 D
解析 观察散点图可知,只有D选项的散点图表示的是变量x与y之间具有负的线性相关关系.故选D.
2.(2020·昆明诊断)某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:
月份
1
2
3
4
5
6
人均销售额
6
5
8
3
4
7
利润率(%)
12.6
10.4
18.5
3.0
8.1
16.3
根据表中数据,下列说法正确的是( )
A.利润率与人均销售额成正相关关系
B.利润率与人均销售额成负相关关系
C.利润率与人均销售额成正比例函数关系
D.利润率与人均销售额成反比例函数关系
答案 A
解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C和D;其属于正相关关系,A正确,B错误.
3.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0 C.- D.1
答案 A
解析 完全的线性关系,且为负相关,故其相关系数为-1,故选A.
感悟升华 判断相关关系的两种方法:
(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.
(2)相关系数法:利用相关系数判定,|r|越趋近于1,相关性越强.
考点二 回归分析
角度1 线性回归方程及应用
【例1】 下面给出了根据我国2012~2018年水果人均占有量y(单位:kg)和年份代码x绘制的散点图和线性回归方程的残差图.(2012年~2018年的年份代码x分别为1~7)
(1)根据散点图分析y与x之间的相关关系;
(2)根据散点图相应数据计算得yi=1 074,xiyi=4 517,求y关于x的线性回归方程;(精确到0.01)
(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果.
附:回归方程=+x中斜率和截距的最小二乘估计公式分别为==,=-.
解 (1)从散点图可以看出,这些点的分布整体上在一条直线附近,且当x由小变大时,y也由小变大,
所以y与x之间具有线性相关关系,且是正相关.
(2)由题意可知,==4,
=yi=,
x=12+22+32+42+52+62+72=140,
∴===≈7.89,
∴=-=-7.89×4≈121.87,
∴y关于x的线性回归方程为=7.89x+121.87.
(3)由残差图可以看出历年数据的残差均分布在-2~2之间,且图中各点比较均匀地分布在数值0所在直线附近,带状区域很窄,说明对应的回归直线拟合效果较好.
角度2 非线性回归方程及应用
【例2】 (2021·四川七市一诊)已知某地区某种昆虫产卵数和温度有关.现收集了一只该品种昆虫的产卵数y(个)和温度x(℃)的7组观测数据,其散点图如图所示:
根据散点图,结合函数知识,可以发现产卵数y和温度x可用方程y=ebx+a来拟合,令z=ln y,结合样本数据可知z与温度x可用线性回归方程来拟合.
根据收集到的数据,计算得到如下值:
(xi-)2
(zi-)2
(xi-)(zi-)
27
74
3.537
182
11.9
46.418
表中zi=ln yi,=zi.
(1)求z和温度x的回归方程(回归系数结果准确到0.001);
(2)求产卵数y关于温度x的回归方程;若该地区一段时间内的气温在26 ℃~36 ℃之间(包括26 ℃与36 ℃),估计该品种一只昆虫的产卵数的范围.(参考数据e3.282≈27,e3.792≈44,e5.832≈341,e6.087≈440,e6.342≈568)
附:对于一组数据(ω1,v1),(ω2,v2),……,(ωn,vn),其回归直线=+ω的斜率和截距的最小二乘估计分别为=,=-.
解 (1)由题意,z和温度x可以用线性回归方程拟合,设=x+,则==≈0.255,
=-=3.537-0.255×27=-3.348,
故z关于x的线性回归方程为=0.255x-3.348.
(2)由(1)可得,ln y =0.255x-3.348,
于是产卵数y关于温度x的回归方程为y=e0.255x-3.348.
当x=26时,y=e0.255×26-3.348=e3.282≈27;
当x=36时,y=e0.255×36-3.348=e5.832≈341.
∵函数y=e0.255x-3.348为增函数,
∴气温在26 ℃~36 ℃之间时,
估计该品种一只昆虫的产卵数的范围是[27,341]内的正整数.
感悟升华 回归分析问题的类型及解题方法
(1)求回归方程
①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.
②利用公式,求出回归系数.
③待定系数法:利用回归直线过样本点的中心求系数.
(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.
(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.
(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.
【训练1】 (2021·榆林模拟)根据统计,某蔬菜基地西红柿亩产量的增加量y(百千克)与某种液体肥料每亩使用量x(千克)之间的对应数据的散点图如图所示:
(1)依据数据的散点图可以看出,可用线性回归模型拟合y与x的关系,请计算相关系数并加以说明(若|r|>0.75,则线性相关程度很高,可用线性回归模型拟合);
(2)求y关于x的回归方程,并预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为多少.
附:相关系数r=
=,
回归直线=x+的斜率和截距的最小二乘估计分别为==,=-.
解 (1)==5,
==5.
(xi-)(yi-)=(-3)×(-2)+(-1)×(-1)+0×0+1×1+3×2=14,
(xi-)2=(-3)2+(-1)2+02+12+32=20,
(yi-)2=(-2)2+(-1)2+02+12+22=10.
∴r===>0.75,
∴可用线性回归模型拟合y与x的关系.
(2)===0.7,
则=-=5-0.7×5=1.5,
∴=0.7x+1.5.
当x=12时,=0.7×12+1.5=9.9,
∴预测液体肥料每亩使用量为12千克时,西红柿亩产量的增加量约为9.9百千克.
考点三 独立性检验
【例3】 (2020·全国Ⅲ卷)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):
锻炼人次
空气质量等级
[0,200]
(200,400]
(400,600]
1(优)
2
16
25
2(良)
5
10
12
3(轻度污染)
6
7
8
4(中度污染)
7
2
0
(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;
(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);
(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?
人次≤400
人次>400
空气质量好
空气质量不好
附:K2=,
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
解 (1)由所给数据,得该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:
空气质量等级
1
2
3
4
概率的估计值
0.43
0.27
0.21
0.09
(2)一天中到该公园锻炼的平均人次的估计值为
(100×20+300×35+500×45)=350.
(3)根据所给数据,可得2×2列联表:
人次≤400
人次>400
空气质量好
33
37
空气质量不好
22
8
根据列联表得
K2的观测值k=≈5.820.
由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
感悟升华 1.在2×2列联表中,如果两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.
2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:
(1)根据样本数据制成2×2列联表:
(2)根据公式K2=计算K2的观测值k;
(3)通过比较观测值k与临界值的大小关系来作统计推断.
【训练2】 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:
理科
文科
男
13
10
女
7
20
已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844.则认为选修文科与性别有关系出错的可能性为________.
答案 5%
解析 K2的观测值k≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.
A级 基础巩固
一、选择题
1.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )
A.r2<r4<0<r3<r1 B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1 D.r2<r4<0<r1<r3
答案 A
解析 由散点图知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2<r4<0<r3<r1,故选A.
2.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R2来刻画回归的效果,R2值越接近于1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( )
A.①② B.②③ C.①③ D.①②③
答案 D
3.如表是2×2列联表:
y
x
y1
y2
总计
x1
a
21
73
x2
2
25
27
总计
b
46
则表中a,b处的值分别为( )
A.94,96 B.52,50 C.52,54 D.54,52
答案 C
解析 由2×2列联表知解得
4.(2021·南昌模拟)已知一组样本数据点(x1,y1),(x2,y2),(x3,y3),…,(x6,y6),用最小二乘法求得其线性回归方程为=-2x+4.若x1,x2,x3,…,x6的平均数为1,则y1+y2+y3+…+y6=( )
A.10 B.12 C.13 D.14
答案 B
解析 由题意,设样本点的中心为(1,),将其代入回归直线方程,可得=-2×1+4=2,则y1+y2+y3+y4+y5+y6=6×2=12,故选B.
5.(2021·广东百校联盟联考)下表是我国某城市在2019年1月份至10月份期间各月最低温度与最高温度(单位:℃)的数据一览表.
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
已知该城市的各月最低温度与最高温度具有相关关系,根据该一览表,则下列结论错误的是( )
A.最低温度与最高温度为正相关
B.每月最高温度与最低温度的平均值在前8个月逐月增加
C.月温差(最高温度减最低温度)的最大值出现在1月
D.1月至4月的月温差(最高温度减最低温度)相对于7月至10月,波动性更大
答案 B
解析 将最高温度、最低温度、温差列表如下:
月份
1
2
3
4
5
6
7
8
9
10
最高温度/℃
5
9
9
11
17
24
27
30
31
21
最低温度/℃
-12
-3
1
-2
7
17
19
23
25
10
温差度/℃
17
12
8
13
10
7
8
7
6
11
由表格可知,最低温度大致随最高温度的升高而升高,A正确;
每月最高温度与最低温度的平均值在前8个月不是逐月增加,B错误;
月温差的最大值出现在1月,C正确;
1月至4月的月温差相对于7月至10月,波动性更大,D正确.
6.2018世界特色魅力城市200强新鲜出炉,包括黄山市在内的28个中国城市入选,美丽的黄山风景和人文景观迎来众多宾客.现在很多人喜欢“自助游”,某调查机构为了了解“自助游”是否与性别有关,在黄山旅游节期间,随机抽取了100人,得如下所示的列联表:
赞成“自助游”
不赞成“自助游”
总计
男性
30
15
45
女性
45
10
55
总计
75
25
100
参考公式:K2=,其中n=a+b+c+d.
P(K2≥k0)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
2.072
2.706
3.841
5.024
6.635
7.879
10.828
参照公式,得到的正确结论是( )
A.有99.5%以上的把握认为“赞成‘自助游’与性别无关”
B.有99.5%以上的把握认为“赞成‘自助游’与性别有关”
C.在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别无关”
D.在犯错误的概率不超过0.1的前提下,认为“赞成‘自助游’与性别有关”
答案 D
解析 将2×2列联表中的数据代入计算,得K2=≈3.030,
∵2.706<3.030<3.841,
∴在犯错误的概率不超过0.1的前提下,可以认为“赞成‘自助游’与性别有关”.
二、填空题
7.已知x和y的散点图如图所示,在相关关系中,若用y=c1ec2x拟合时的相关指数为R,用=x+拟合时的相关指数为R,则R,R中较大的是________.
答案 R
解析 由散点图知,用y=c1ec2x拟合的效果比=x+拟合的效果要好,所以R>R,故较大者为R.
8.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).
①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%;
②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;
③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%;
④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%.
答案 ②
解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.
9.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.
答案 ①
解析 K2≈3.918≥3.841,而P(K2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.
三、解答题
10.(2020·全国Ⅱ卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得
xi=60,yi=1 200, (xi-)2=80, (yi-)2=9 000, (xi-)(yi-)=800.
(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);
(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);
(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.
附:相关系数r=,≈1.414.
解 (1)由已知得样本平均数=yi=60,从而该地区这种野生动物数量的估计值为60×200=12 000.
(2)样本(xi,yi)(i=1,2,…,20)的相关系数
r===≈0.94.
(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.
理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关性.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.
11.某公司为了准确地把握市场,做好产品生产计划,对过去四年的数据进行整理得到了第x年与年销售量y(单位:万件)之间的关系如下表:
x
1
2
3
4
y
12
28
42
56
(1)在图中画出表中数据的散点图;
(2)根据散点图选择合适的回归模型拟合y与x的关系(不必说明理由);
(3)建立y关于x的回归方程,预测第5年的销售量.
参考公式:回归直线x的斜率和截距的最小二乘估计分别为
==,=-.
解 (1)作出的散点图如图:
(2)根据散点图观察,可以用线性回归模型拟合y与x的关系.
(3)观察(1)中散点图可知各点大致分布在一条直线附近,列出表格:
i
xi
yi
x
xiyi
1
1
12
1
12
2
2
28
4
56
3
3
42
9
126
4
4
56
16
224
∑
10
138
30
418
可得=,=,
所以===,
=-=-×=-2.
故回归直线方程为=x-2.
当x=5时,=×5-2=71.
故预测第5年的销售量大约为71万件.
B级 能力提升
12.在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )
A.若K2的观测值为k=6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌
B.由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌
C.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误
D.以上三种说法都不正确
答案 C
解析 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C.
13.在一组样本数据(x1,y1),(x2,y2),…,(x6,y6)的散点图中,若所有样本点(xi,yi)(i=1,2,…,6)都在曲线y=bx2-附近波动.经计算xi=12,yi=14,x=23,则实数b的值为________.
答案
解析 令t=x2,则曲线的回归方程变为线性的回归方程,即y=bt-,此时==,==,代入y=bt-,得=b×-,解得b=.
14.某城市地铁将于2022年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下:
月收入(单
位:百元)
[15,25)
[25,35)
[35,45)
[45,55)
[55,65)
[65,75]
赞成定价
者人数
1
2
3
5
3
4
认为价格偏
高者人数
4
8
12
5
2
1
(1)若以区间的中点值为该区间内的人均月收入,求参与调查的人员中“赞成定价者”与“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);
(2)由以上统计数据填下面2×2列联表,分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
月收入不低于
55百元的人数
月收入低于
55百元的人数
总计
认为价格偏高者
赞成定价者
总计
附:K2=,其中n=a+b+c+d.
解 (1)“赞成定价者”的月平均收入为
x1=
≈50.56.
“认为价格偏高者”的月平均收入为
x2=
=38.75,
∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x1-x2=50.56-38.75=11.81(百元).
(2)根据条件可得2×2列联表如下:
月收入不低于
55百元的人数
月收入低于
55百元的人数
总计
认为价格偏高者
3
29
32
赞成定价者
7
11
18
总计
10
40
50
K2=≈6.27<6.635,
∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.
展开阅读全文