资源描述
§15.3 相关关系与统计案例
(对应答案分册第59~60页)
1.相关关系与回归方程
(1)相关关系的分类
①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;
②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,那么称这两个变量之间具有线性相关关系,这条直线叫作回归直线.
(3)回归方程
①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫作最小二乘法.
②回归方程:两个具有线性相关关系的变量的一组数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程为y^=b^x+a^,则b^=∑ i=1 n(xi-x−)(yi-y−)∑ i=1 n(xi-x−)2=∑ i=1 nxiyi-nx−y−∑ i=1 nxi2-nx−2,a^=y−-b^ x−.其中, b^是回归直线的斜率, a^是在y轴上的截距,x−=1n i=1nxi,y−=1n i=1nyi, (x−,y−)称为样本点的中心.
回归直线y^=b^x+a^必过样本点的中心(x−,y−),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
(4)样本相关系数
r=∑ i=1 n(xi-x−)(yi-y−)∑ i=1 n(xi-x−)2∑ i=1 n(yi-y−)2,用它来衡量两个变量间的线性相关关系.
①当r>0时,表明两个变量正相关;
②当r<0时,表明两个变量负相关;
③r的绝对值越接近1,表明两个变量的线性相关性越强;r的绝对值接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r|>0.75时,认为两个变量有很强的线性相关关系.
2.残差分析
(1)残差:对于样本点(x1,y1),(x2,y2),…,(xn,yn),它们的随机误差为ei=yi-bxi-a,i=1,2,…,n,其估计值为e^i=yi-y^i=yi-b^xi-a^,i=1,2,…,n,e^i称为相应于点(xi,yi)的残差.
(2)残差平方和为 i=1n(yi-y^i)2.
(3)相关指数:R2=1- i=1n(yi-y^i)2 i=1n(yi-y−)2.
3.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
(1)求解回归方程的关键是确定回归系数a^,b^,应充分利用回归直线过样本点的中心(x−,y−).
(2)根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.
(3)根据回归方程计算的y^值,仅是一个预报值,不是真实发生的值.
【概念辨析】
1.判断下面结论是否正确.(对的打“√”,错的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )
(2)“名师出高徒”可以解释为教师的教学水平与学生水平成正相关关系.( )
(3)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.( )
(4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
【对接教材】
2.下面是2×2列联表:
y1
y2
合计
x1
a
21
73
x2
22
25
47
合计
b
46
120
则表中a,b的值分别为( ).
A.94,72 B.52,50
C.52,74 D.74,52
3.某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:
x
6
8
10
12
y
2
3
5
6
则y对x的线性回归直线方程为( ).
A.y^=2.3x-0.7 B.y^=2.3x+0.7
C.y^=0.7x-2.3 D.y^=0.7x+2.3
【易错自纠】
4.某医疗机构通过抽样调查(样本容量n=1000),利用2×2列联表和K2统计量研究患肺病是否与吸烟有关.计算得K2=4.453,经查阅临界值表知P(K2≥3.841)≈0.05,现给出四个结论,其中正确的是( ).
A.在100个吸烟的人中约有95个人患肺病
B.若某人吸烟,则他有95%的可能性患肺病
C.有95%的把握认为“患肺病与吸烟有关”
D.只有5%的把握认为“患肺病与吸烟有关”
5.(2022·内蒙古呼和浩特质检)已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且经验回归方程为y^=0.95x+a^,则a^= .预测当x=5时,y= .
x
0
1
3
4
y
2.2
4.3
4.8
6.7
相关关系的判断 【题组过关】
1.(2022·山西太原月考)有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其横断面直径与高度之间的关系.
其中有相关关系的是( ).
A.①②③ B.①②
C.②③ D.①③④
2.(2022·黑龙江大庆月考)对四组数据进行统计,获得以下散点图,关于其线性相关系数比较,正确的是( ).
A.r2<r4<0<r3<r1
B.r4<r2<0<r1<r3
C.r4<r2<0<r3<r1
D.r2<r4<0<r1<r3
3.某公司在2019年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:
月份
1
月份
2
月份
3
月份
4
月份
5
月份
6
月份
收入x
12.3
14.5
15.0
17.0
19.8
20.6
支出y
5.63
5.75
5.82
5.89
6.11
6.18
根据统计资料,则( ).
A.月收入的中位数是15,x与y有正线性相关关系
B.月收入的中位数是17,x与y有负线性相关关系
C.月收入的中位数是16,x与y有正线性相关关系
D.月收入的中位数是16,x与y有负线性相关关系
点拨 判断相关关系的两种方法:(1)散点图法,如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系;如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,当|r|越趋近于1时,相关性越强.
回归分析 【考向变换】
考向1 由回归方程求参数
(1)(2022·甘肃武威段考)一车间为规定工时定额,需要确定加工零件所花费的时间,为此进行了4次试验,测得的数据如下:
零件数x(个)
2
3
4
5
加工时间y(分钟)
26
a
49
54
根据上表可得回归方程y^=9.4x+9.1,则实数a的值为( ).
A.37.3 B.38 C.39 D.39.5
(2)(2022·福建莆田测试)已知变量x,y的关系可以用模型y=cekx拟合,设z=ln y,其变换后得到一组数据如下表所示:
x
16
17
18
19
z
50
34
41
31
由上表可得线性回归方程z^=-4x+a^,则c=( ).
A.-4 B.e-4 C.109 D.e109
点拨 有关求参数问题,一般根据回归直线方程过样本点的中心(x−,y−),建立方程求解,涉及指数形式的非线性回归问题,通常采用两边取对数,然后对比系数得结论.
【追踪训练1】(1)(2022·甘肃庆阳模拟)以模型y=cekx去拟合一组数据时,为了求出回归方程,设z=ln y,其变换后得到线性回归方程z=0.5x+3,则c=( ).
A.3 B.e3 C.0.5 D.e0.5
(2)(2022·江西南昌月考)已知x,y取值如下表所示:
x
0
1
3
5
6
y
1
m
3m
5.6
7.4
画散点图分析可知,y与x线性相关,且求得回归方程为y^=x+1,则m= .
考向2 线性回归方程及其应用
(2022·河南联考)某研究机构为调查人的最大可视距离y(单位:米)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:
x
20
25
30
35
40
y
167
160
150
143
130
(1)根据上表提供的数据,求出y关于x的线性回归方程y^=b^x+a^;
(2)根据(1)中求出的线性回归方程,估计年龄为50岁的人的最大可视距离.
参考公式:回归方程y^=b^x+a^中斜率和截距的最小二乘估计公式分别为b^=∑i=1n(xi-x−)(yi-y−)∑i=1n(xi-x−)2=∑i=1nxiyi-nx−y−∑i=1nxi2-nx−2,a^=y−-b^ x−.
点拨 线性回归分析问题的解题策略
1.利用公式,求出回归系数b^,a^.
2.待定系数法:利用线性回归直线过样本点的中心求系数.
3.利用线性回归方程进行预测,把线性回归方程看作一次函数,求函数值.
【追踪训练2】(2022·安徽合肥模拟)树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A树木,某农科所为了研究A树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A树木,调查得到A树木根部半径x(单位:米)与A树木高度y(单位:米)的相关数据如表所示:
x
0.1
0.2
0.3
0.4
0.5
0.6
y
1.1
1.3
1.6
1.5
2.0
2.1
(1)求y关于x的线性回归方程;
(2)对(1)中得到的回归方程进行残差分析,若某A树木的残差为零,则认为该树木“长势标准”,在此片树木中随机抽取1棵A树木,估计这棵树木“长势标准”的概率.
参考公式:回归直线方程为y^=b^x+a^,其中b^=∑i=1nxiyi-nx−y−∑i=1nxi2-nx−2=∑i=1n(xi-x−)(yi-y−)∑i=1n(xi-x−)2,a^=y−-b^x−.
考向3 非线性回归模型的应用
(2022·江苏扬州开学测试)某企业新研发了一种产品,产品的成本由原料成本及非原料成本组成.每批产品的非原料总成本y(元)与生产该产品的数量x(千件)有关,经统计得到如下数据:
x
1
2
3
4
5
6
7
y
6
11
21
34
66
101
196
根据以上数据,绘制如图所示的散点图.
观察散点图,两个变量不具有线性相关关系,现考虑用对数函数模型y=a+bln x和指数函数模型y=cdx分别对两个变量的关系进行拟合.
(1)根据散点图判断,y=a+bln x与y=cdx(c,d均为大于零的常数)哪一个适宜作为非原料总成本y关于生产该产品的数量x的回归方程类型;(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中的数据,建立y关于x的回归方程;
(3)已知每件产品的原料成本为10元,若该产品的总成本不得高于123470元,请估计最多能生产多少千件产品.
参考数据:
y−
v−
i=17xiyi
i=17xivi
100.54
62.14
1.54
2535
50.12
3.47
其中vi=lg yi,v−=17i=1nvi.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线v^=a^+β^u的斜率和截距的最小二乘估计公式分别为β^=i=1nuivi-nu−v−i=1nui2-nu−2,a^=v−-β^u−.
点拨 非线性回归方程的求法:(1)根据原始数据(x,y)作出散点图;(2)根据散点图选择恰当的拟合函数;(3)作恰当的变换,将其转化成线性函数,求线性回归方程;(4)在(3)的基础上通过相应变换,即可得非线性回归方程.
【追踪训练3】(2022·河南郑州期末)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y(个)和温度x(℃)的8组观测数据,制成图1所示的散点图.现用①y=a·bx(a>0,b>0),②y=cx2+d两种模型分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.根据收集到的数据,计算得到如下值:
x−
z−
t−
∑i=18(xi-x−)2
∑i=18(ti-t−)2
25
2.89
646
168
422688
∑i=18(zi-z−)(xi-x−)
∑i=18(yi-y−)(ti-t−)
48.48
70308
表中zi=ln yi;z−=18∑i=18zi;ti=xi2;t−=18∑i=18ti.
(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型,并说明理由;
(2)根据(1)中所选择的模型,求出y关于x的回归方程(计算过程中四舍五入保留两位小数),并求温度为35 ℃时,产卵数y的预报值.
参考数据:e5.61≈273,e5.70≈299,e5.79≈327.
独立性检验 【题组过关】
1.(2022·山东潍坊模拟)某公园管理人员为提升服务效能,随机调查了近三个月(每个月按30天计)中每天的空气质量等级和当天到某公园锻炼的人次,整理数据如下表(单位:天).
锻炼人次
质量等级
[0,100]
(100,200]
(200,300]
1(优)
3
13
20
2(良)
4
10
12
3(轻度污染)
6
6
8
4(中度污染)
7
1
0
若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量差”.
(1)估计该公园一天的“空气质量好”的概率;
(2)根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.
人次(≤200)
人次(>200)
合计
空气质量好
空气质量差
合计
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),
P(K2≥k0)
0.050
0.010
0.001
k0
3.841
6.635
10.828
2.(2022·河南高三调研)为了调查一款电视机的使用寿命(单位:年),研究人员对该款电视机进行了相应的调查,得到的数据如下图所示.
并对不同年龄层的市民对这款电视机的购买意愿作出调查,得到的数据如下表所示.
愿意购买
该款电视机
不愿意购买
该款电视机
合计
40岁及以上
800
1000
40岁以下
600
合计
1200
(1)根据图中数据,试估计该款电视机的平均使用寿命;
(2)根据表中数据判断,是否有99.9%的把握认为“是否愿意购买该款电视机”与“市民的年龄”有关;
(3)若按照电视机的使用寿命进行分层抽样,从使用寿命在[0,4)和[4,20]内的电视机中抽取5台,再从这5台中随机抽取2台进行配件检测,求被抽取的2台电视机的使用寿命都在[4,20]内的概率.
附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.
P(K2≥k0)
0.25
0.15
0.10
0.05
k0
1.323
2.072
2.706
3.841
P(K2≥k0)
0.025
0.010
0.005
0.001
k0
5.024
6.635
7.879
10.828
点拨 (1)独立性检验的一般步骤:①根据样本数据制成2×2列联表;②根据公式 K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)计算K2的值;③查表比较K2与临界值的大小关系,作出统计判断.(2)解独立性检验的应用问题的关注点:①两个明确:明确两类主体;明确研究的两个问题.②两个准确:准确画出2×2列联表;准确理解K2.
线性回归分析的方法
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法.
(2022·黑龙江哈尔滨四模)某企业坚持以市场需求为导向,合理配置生产资源,不断改革、探索销售模式.下表是该企业每月生产的一种核心产品的产量x(吨)与相应的生产总成本y(万元)的五组对照数据.
产量x(吨)
1
2
3
4
5
生产总成本y(万元)
3
7
8
10
12
(1)根据上述数据,若用最小二乘法进行线性模拟,试求y关于x的线性回归直线方程y^=b^x+a^.
参考公式:b^=i=1nxiyi-nx−y−i=1nxi2-nx−2,a^=y−-b^x−.
(2)记第(1)问中所求y与x的线性回归直线方程y^=b^x+a^为模型①,同时该企业科研人员利用计算机根据数据又建立了y与x的回归模型②:y^=12x2+1.其中模型②的残差图(残差=实际值-预报值)如图所示:
请列出模型①的残差表及完善残差图,并根据残差图,判断哪一个模型更适宜作为y关于x的回归方程,并说明理由.
(3)根据模型①中y与x的线性回归方程,预测产量为6吨时生产总成本为多少万元.
作回归分析时,一般从以下几个方面予以说明:(1)散点图;(2)相关指数;(3)残差图中的异常点和样本点的带状分布区域的宽窄.
【突破训练】(2022·河南洛阳三模)随着生活水平的逐步提高,人们对文娱活动的需求与日俱增,其中观看电视就是一种老少皆宜的娱乐活动.但是我们在观看电视娱乐身心的同时,也要注意把握好观看时间,近期研究显示,一项久坐的生活指标——看电视时间,是导致视力下降的重要因素,即看电视时间越长,视力下降的风险越大.研究者在某小区统计了每天看电视时间x(单位:小时)与视力下降人数y的相关数据如下:
编号
1
2
3
4
5
x
1
1.5
2
2.5
3
y
12
16
22
24
26
(1)请根据上面的数据求y关于x的线性回归方程.
(2)我们用(1)问求出的线性回归方程y^=b^x+a^的y^估计回归方程y=bx+a,由于随机误差e=y-(bx+a),所以e^=y-y^是e的估计值,e^i称为点(xi,yi)的残差.
①填写下面的残差表,并绘制残差图;
编号
1
2
3
4
5
x
1
1.5
2
2.5
3
y
12
16
22
24
26
e^i
②若残差图所在带状区域宽度不超过4,我们则认为该模型拟合精度比较高,回归方程的预报精度较高,试根据①绘制的残差图分析该模型拟合精度是否比较高.
附:回归直线y^=b^x+a^的斜率和截距的最小二乘估计分别为b^=i=1n(xi-x−)(yi-y−)i=1n(xi-x−)2=i=1nxiyi-nx−y−i=1nxi2-nx−2,a^=y−-b^x−.
链接《精练案》分册P109
展开阅读全文