资源描述
第六单元第3讲 变量间的相关关系与统计案例(3课时)
一基础知识
1.相关关系的分类
从散点图上看,点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关;点散布在从左上角到右下角的区域内,两个变量的这种相关关系称为负相关.
2.线性相关
从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫回归直线.
3.回归方程
(1)最小二乘法:使得样本数据的点到回归直线的距离平方和最小的方法叫最小二乘法.
(2)回归方程:两个具有线性相关关系的变量的一组数据:
(x1,y1),(x2,y2),…,(xn,yn),其回归方程为=x+,则
其中,b是回归方程的斜率,a是在y轴上的截距.
4.样本相关系数
r=,用它来衡量两个变量间的线性相关关系.
(1)当r>0时,表明两个变量正相关;
(2)当r<0时,表明两个变量负相关;
(3)r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.
(4)相关性检验的步骤:
① 作统计假设
② 根据小概率0.05与n-2在附表中找出r的一个临界值r0.05
③ 根据样本相关系数计算公式算出r值
④ 用统计判断,如果,那么可以认为y与x之间的线性相关关系不显著,从而接受统计假设. 如果,表明一个发生的概率不到5%的事件在一次试验中竟发生了.这个小概率事件的发生使我们有理由认为y与x之间不具有线性相关关系的假设是不成立的,拒绝这一统计假设也就是表明可以认为y与x之间具有线性相关关系.
5.线性回归模型
(1)y=bx+a+e中,a、b称为模型的未知参数;e称为随机误差.
(2)相关指数
用相关指数R2来刻画回归的效果,其计算公式是: ,的值越大(接近1),R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归效果越好.
(2) r具有以下性质:
(1)当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关;
(2)当|r|≤1,并且|r|越接近1时,两个变量的线性相关程度越强;当|r|越接近0时,两个变量的线性相关程度越弱;
(3)相关性检验的步骤:
① 作统计假设
② 根据小概率0.05与n-2在附表中找出r的一个临界值r0.05
③ 根据样本相关系数计算公式算出r值
④ 用统计判断,如果,那么可以认为y与x之间的线性相关关系不显著,从而接受统计假设. 如果,表明一个发生的概率不到5%的事件在一次试验中竟发生了.这个小概率事件的发生使我们有理由认为y与x之间不具有线性相关关系的假设是不成立的,拒绝这一统计假设也就是表明可以认为y与x之间具有线性相关关系.
6.独立性检验
(1)用变量的不同“值”表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.
(2)列出的两个分类变量的频数表,称为列联表.
(3)一般地,假设有两个分类变量X和Y,它们的值域分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
2×2列联表
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d为样本容量),可利用独立性检验判断表来判断“x与y的关系”.
这种利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.
当K2≥3.841时,则有95%的把握说事A与B有关;
当K2≥6.635时,则有99%的把握说事件A与B有关;
当K2≤2.706时,则认为事件A与B无关.
三.题型分析
题型1 相关关系的判断
题1.某棉业公司的科研人员在7块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量x对产量y影响的试验,得到如下表所示的一组数据(单位:kg):
施化肥量x
15
20
25
30
35
40
45
棉花产量y
330
345
365
405
445
450
455
(1)画出散点图;
(2)判断是否具有相关关系.
[审题视点] (1)用x轴表示化肥施用量,y轴表示棉花产量,逐一画点.
(2)根据散点图,分析两个变量是否存在相关关系.
解 (1)散点图如图所示
(2)由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量x与产量y具有线性相关关系.
利用散点图判断两个变量是否有相关关系是比较简便的方法.在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系.即变量之间具有函数关系.如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.
题2. 根据两个变量x,y之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).
解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系.
答案 否
题型2. 独立性检验
题3为调查某地区老人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:
是否需要志愿 性别
男
女
需要
40
30
不需要
160
270
(1) 估计该地区老年人中,需要志愿者提供帮助的老年人的比例;
(2) 能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?
(3) 根据(2)的结论,能否提供更好的调查方法来估计该地区老年人,需要志愿帮助的老年人的比例?说明理由
[审题视点] 第(2)问由a=40,b=30,c=160,d=270,代入公式可求K2,由K2的值与6.635比较断定.第(3)问从抽样方法说明.
解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为=14%.
(2)K2=≈9.967.
由于9.967>6.635,所以有99%的把握认为该地区老年人是否需要帮助与性别有关.
(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层,采用分层抽样方法,这要比采用简单随机抽样方法更好.
独立性检验的步骤:
(1)根据样本数据制成2×2列联表;
(2)根据公式K2=计算K2的观测值;
(3)比较K2与临界值的大小关系作统计推断.
题4. 甲乙两个学校高三年级分别有1100人和1000人,为了了解这两个学校全体高三年级学生在该地区二模考试中的数学成绩情况,采用分层抽样方法从两个学校一共抽取了105名学生的数学成绩,并作出了如下的频数分布统汁表,规定考试成绩在[120,150]内为优秀.
(I)试求x,y的值;
(II)由以上统计数据填写右面2×2列联表,
若按是否优秀来判断,是否有97.5%的把握
认为两个学校的数学成绩有差异。
(III)根据抽样结果分别估计甲校和乙校的
优秀率,若把频率视为概率,现从乙校学生
中任取3人,求优秀学生人数ξ的分布列和数学期望。
题型3. 线性回归方程
题5(2012·菏泽模拟)下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据.
x
3
4
5
6
y
2.5
3
4
4.5
(1)请画出上表数据的散点图;
(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程=x+;
(3)已知该厂技改前生产100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程.预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?
(参考数值:3×2.5+4×3+5×4+6×4.5=66.5)
[审题视点] (2)问利用公式求、,即可求出线性回归方程.
(3)问将x=100代入回归直线方程即可.
解 (1)由题设所给数据,可得散点图如图所示.
(2)由对照数据,计算得:=86,
==4.5(吨),==3.5(吨).
已知iyi=66.5,
所以,由最小二乘法确定的回归方程的系数为:
===0.7,
=-=3.5-0.7×4.5=0.35.
因此,所求的线性回归方程为=0.7x+0.35.
(3)由(2)的回归方程及技改前生产100吨甲产品的生产能耗,得降低的生产能耗为:
90-(0.7×100+0.35)=19.65(吨标准煤).
在解决具体问题时,要先进行相关性检验,通过检验确认两个变量是否具有线性相关关系,若它们之间有线性相关关系,再求回归直线方程.
题6. 有10名同学高一(x)和高二(y)的数学成绩如下:
高一成绩x
74
71
72
68
76
73
67
70
65
74
高二成绩y
76
75
71
70
76
79
65
77
62
72
(1)y与x是否具有相关关系?
(2)如果y与x具有相关关系,求回归直线方程.
参考数据:
分析:判断两变量之间是否具有相关关系,首先要求出其相关系数r,然后根据显著性水平及自由度查相关系数临界值表找临界值,当时认为不具有相关关系;当时认为具有相关关系,求回归直线方程则比较简单,只要求出a与b的值即可.
解:(1):由已知表格中所给数据进行计算,得:
于是
又查得附表3中相应在于显著性水平0.05和的相关系数临界值
由知,y与x具有相关关系.
说明:这类问题思路一般不是很复杂,掌握比较容易,但往往运算量较大,很容易出现计算错误,这就需要在计算时仔细准确,还要能熟练地使用科学计算器,从而解题速度和准确性.
第六单元第3讲作业
1.(人教A版教材习题改编)下面哪些变量是相关关系( ).
A.出租车车费与行驶的里程 B.房屋面积与房屋价格
C.身高与体重 D.铁块的大小与质量
解析 A,B,D都是函数关系,其中A一般是分段函数,只有C是相关关系.
答案 C
2.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图(1);对变量u,v有观测数据(ui、vi)(i=1,2,…,10),得散点图(2).由这两个散点图可以判断
( ).
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
解析 由题图(1)可知,各点整体呈递减趋势,x与y负相关;由题图(2)可知,各点整体呈递增趋势,u与v正相关.
答案 C
3.(2012·南昌模拟)某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( ).
A.=-10x+200 B.=10x+200
C.=-10x-200 D.=10x-200
解析 因为销量与价格负相关,由函数关系考虑为减函数,又因为x,y不能为负数,再排除C,故选A.
答案 A
4.(2012·枣庄模拟)下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( ).
A.94,72 B.52,50 C.52,74 D.74,52
解析 ∵a+21=73,∴a=52,又a+22=b,∴b=74.
答案 C
5.在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k=27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关).
解析 由观测值k=27.63与临界值比较,我们有99%的把握说打鼾与患心脏病有关.
答案 有关
6. 某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:
日 期
1月10日
2月10日
3月10日
4月10日
5月10日
6月10日
昼夜温差x(°C)
10
11
13
12
8
6
就诊人数y(个)
22
25
29
26
16
12
该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行检验.
(Ⅰ) 求选取的2组数据恰好是相邻两个月的概率;
(Ⅱ)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程;
(Ⅲ)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?
(参考公式: )
解:(Ⅰ)设抽到相邻两个月的数据为事件A.因为从6组数据中选
取2组数据共有15种情况,每种情况都是等可能出现的,其中,抽到相邻两个月的数据的情况有5种 ,所以
(Ⅱ)由数据求得 由公式求得
再由 所以关于的线性回归方程为 (Ⅲ)当时,, ;
同样, 当时,,
所以,该小组所得线性回归方程是理想的.
7.某食品厂为了检查甲乙两条自动包装流水线的生产情况,随即在这两条流水线上各抽取件产品作为样本称出它们的重量(单位:克),重量值落在的产品为合格品,否则为不合格品.图是甲流水线样本的频率分布直方图,表是乙流水线样本频数分布表.
(Ⅰ) 若以频率作为概率,试估计从甲流水线上任取件产品,求其中合格品的件数的数学期望;
(Ⅱ)从乙流水线样本的不合格品中任意取件,求其中超过合格品重量的件数的分布列;
(Ⅲ)由以上统计数据完成下面列联表,并回答有多大的把握认为“产品的包装质量与两条自动包装流水线的选择有关” .
甲流水线
乙流水线
合计
合格品
不合格品
合 计
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024[来源:Zxxk.Com]
6.635
7.879
10.828
附:下面的临界值表供参考:
(参考公式:,其中)
解:(Ⅰ)由图1知,甲样本中合格品数为,
则的取值为;且,于是有:
0
1
2[来源:Z_xx_k.Com]
∴的分布列为
……………10分
(Ⅲ)列联表如下:
∵=
∴ 有90%的把握认为产品的包装质量与两条自动包装流水线的选择有关.……13分
补例. 为了解某班学生喜爱打篮球是否与性别有关,对本班50人进行了问卷调查得到了如下的列联表:
喜爱打篮球
不喜爱打篮球
合计
男生
5
女生
10
合计
50
已知在全部50人中随机抽取1人抽到喜爱打篮球的学生的概率为.
(1)请将上面的列联表补充完整(不用写计算过程);
(2)能否在犯错误的概率不超过0.005的前提下认为喜爱打篮球与性别有关?说明你的理由;
(3)现从女生中抽取2人进一步调查,设其中喜爱打篮球的女生人数为,求的分布列与期望.
下面的临界值表供参考:
0.15
0.10
0.05
0.025
0.010
0.005
0.001
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(参考公式:,其中)
解:(1) 列联表补充如下:----------------------------------------3分
喜爱打篮球
不喜爱打篮球
合计
男生
20
5
25
女生
10
15
25
合计
30
20
50
(2)∵------------------------6分
∴在犯错误的概率不超过0.005的前提下,认为喜爱打篮球与性别有关.---------------------7分
(3)喜爱打篮球的女生人数的可能取值为.-------------------------9分
其概率分别为,,
--------------------------12分
故的分布列为:
--------------------------13分
的期望值为: ---------------------14分
14
展开阅读全文