资源描述
第3讲 变量间的相关关系、统计案例
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关
(1)从散点图上看,假如这些点从整体上看大致分布在通过散点图中心的一条直线四周,称两个变量之间具有线性相关关系,这条直线叫回归直线.
(2)回归方程为=x+,其中=,=-.
(3)通过求Q= (yi-bxi-a)2的最小值而得出回归直线的方法,即求回归直线,使得样本数据的点到它的距离的平方和最小,这一方法叫做最小二乘法.
(4)相关系数:
当r>0时,表明两个变量正相关;
当r<0时,表明两个变量负相关.
r的确定值越接近于1,表明两个变量的线性相关性越强.r的确定值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.
3.独立性检验
假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
K2=(其中n=a+b+c+d为样本容量).
[做一做]
1.有关线性回归的说法,不正确的是( )
A.具有相关关系的两个变量是非确定关系
B.散点图能直观地反映数据的相关程度
C.回归直线最能代表线性相关的两个变量之间的关系
D.散点图中的点越集中,两个变量的相关性越强
答案:D
2.(2021·山西省第三次四校联考)已知x、y的取值如下表所示,从散点图分析,y与x线性相关,且=0.83x+a,则a=( )
x
0
1
3
4
y
0.9
1.9
3.2
4.4
A.0.8 B.0.94
C.1.2 D.1.5
解析:选B.由题意,==2,==2.6,而样本点的中心点(,)必在回归直线上,代入得2.6=0.83×2+a,从而有a=0.94.
1.辨明三个易误点
(1)易混淆相关关系与函数关系,两者的区分是函数关系是一种确定的关系,而相关关系是一种非确定的关系,函数关系是一种因果关系,而相关关系不愿定是因果关系,也可能是伴随关系.
(2)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(,)点,可能全部的样本数据点都不在直线上.
(3)利用回归方程分析问题时,所得的数据易误认为精确 值,而实质上是猜想值(期望值).
2.求线性回归直线方程的方法
求解回归方程关键是确定回归系数,,因求解的公式计算量太大,一般题目中给出相关的量,如,,x,xiyi等,便可直接代入求解.充分利用回归直线过样本中心点(,),即有y=+,可确定.
[做一做]
3.在2022索契冬奥会期间,某网站针对性别是否与看冬奥会直播有关进行了一项问卷调查,得出如下表格:
性别
是否看冬奥会直播
男
女
看冬奥会直播
6 000
2 000
不看冬奥会直播
2 000
2 000
(附:K2=),则K2=( )
A.700 B.750
C.800 D.850
解析:选B.由题意知,
K2==750.
__相关关系的推断______________________
(1)在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若全部样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )
A.-1 B.0
C. D.1
(2)(2021·高考湖北卷)四名同学依据各自的样本数据争辩变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:
①y与x负相关且=2.347x-6.423;
②y与x负相关且=-3.476x+5.648;
③y与x正相关且=5.437x+8.493;
④y与x正相关且=-4.326x-4.578.
其中确定不正确的结论的序号是( )
A.①② B.②③
C.③④ D.①④
[解析] (1)全部样本点均在直线上,则样本相关系数最大,即为1.
(2)由回归直线方程=x+,知当>0时,x与y正相关,当<0时,x与y负相关,所以①④确定错误.
[答案] (1)D (2)D
[规律方法] 推断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,依据散点图很简洁看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.
1. (2021·河北石家庄市质量检测)设(x1,y1),(x2,y2),…,(xn,yn)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归方程(如图),以下结论中正确的是( )
A.x和y正相关
B.x和y的相关系数为直线l的斜率
C.x和y的相关系数在-1到0之间
D.当n为偶数时,分布在l两侧的样本点的个数确定相同
解析:选C.由题图知,回归直线的斜率为负值,所以x与y是负相关,且相关系数在-1到0之间,所以C正确.
__线性回归方程及其应用(高频考点)______
线性回归问题是高考中的热点问题,考查形式可以是小题,也可以是解答题.
高考中对线性回归问题的考查主要有以下两个命题角度:
(1)求回归直线方程;
(2)利用回归方程进行猜想.
(2022·高考课标全国卷Ⅱ)某地区2007年至2021年农村居民家庭人均纯收入y(单位:千元)的数据如下表:
年份
2007
2008
2009
2010
2011
2022
2021
年份代
号t
1
2
3
4
5
6
7
人均纯
收入y
2.9
3.3
3.6
4.4
4.8
5.2
5.9
(1)求y关于t的线性回归方程;
(2)利用(1)中的回归方程,分析2007年至2021年该地区农村居民家庭人均纯收入的变化状况,并猜想该地区2021年农村居民家庭人均纯收入.
附:回归直线的斜率和截距的最小二乘估量公式分别为:
=,=-
扫一扫 进入91导学网()
线性回归方程的求法
[解] (1)由所给数据计算得=(1+2+3+4+5+6+7)=4,
=(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,
(t i-)=9+4+1+0+1+4+9=28
(t i-)( yi-)=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,
===0.5,
=-=4.3-0.5×4=2.3,
所求回归方程为=0.5t+2.3.
(2)由(1)知,=0.5>0,故2007年至2021年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.
将2021年的年份代号t=9代入(1)中的回归方程,得
=0.5×9+2.3=6.8,
故猜想该地区2021年农村居民家庭人均纯收入为6.8千元.
[规律方法] (1)求回归直线方程前应通过散点图或相关系数进行相关性检验,确定是否有必要依据公式求回归直线方程,从而有依据地进行猜想.
(2)求线性回归方程的步骤:
①计算,;
②计算x i y i , x i
③计算==.
=-;
④写出回归方程=x+.
2.(1)(2022·高考湖北卷)依据如下样本数据
x
3
4
5
6
7
8
y
4.0
2.5
-0.5
0.5
-2.0
-3.0
得到的回归方程为=bx+a,则( )
A.a>0,b>0 B.a>0,b<0
C.a<0,b>0 D.a<0,b<0
(2)(2021·石家庄市第一次模拟)登山族为了了解某山高y(km)与气温x(℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对比表:
气温(℃)
18
13
10
-1
山高(km)
24
34
38
64
由表中数据,得到线性回归方程=-2x+(∈R).由此估量山高为72(km)处气温的度数为( )
A.-10 B.-8
C.-6 D.-4
解析:(1)选B.作出散点图如下:
观看图象可知,回归直线=bx+a的斜率b<0,当x=0时,=a>0.故a>0,b<0.
(2)选C.∵=10, =40,∴样本中心点为(10,40),∵回归直线过样本中心点,∴40=-20+,即=60,∴线性回归方程为=-2x+60,∴山高为72(km)处气温的度数为-6,故选C.
__独立性检验____________________________
(2022·高考辽宁卷节选)某高校餐饮中心为了解新生的饮食习惯,在全校一班级同学中进行了抽样调查,调查结果如下表所示:
宠爱甜品
不宠爱甜品
合计
南方同学
60
20
80
北方同学
10
10
20
合计
70
30
100
依据表中数据,问是否有95%的把握认为“南方同学和北方同学在选用甜品的饮食习惯方面有差异”.
附:K2=
P(K2≥k)
0.100
0.050
0.010
k
2.706
3.841
6.635
[解] 将2×2列联表中的数据代入公式计算,得
K2==≈4.762.
由于4.762>3.841,所以有95%的把握认为“南方同学和北方同学在选用甜品的饮食习惯方面有差异”.
[规律方法] 独立性检验的一般步骤:
(1)依据样本数据制成2×2列联表;
(2)依据公式K2=计算K2的值;
(3)查表比较K2与临界值的大小关系,作统计推断.
3.2022年世界杯期间,某一电视台对年龄高于40岁和不高于40岁的人是否宠爱德国队进行调查,40岁以上调查了50人,不高于40岁调查了50人,所得数据制成如下列联表:
不宠爱德国队
宠爱德国队
总计
40岁以上
p
q
50
不高于40岁
15
35
50
总计
a
b
100
已知工作人员从全部统计结果中任取一个,取到宠爱德国队的人的概率为,则有超过________的把握认为年龄与德国队的被宠爱程度有关.
附:K2=
P(K2≥k)
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
2.072
2.706
3.841
5.024
6.635
7.879
10.828
解析:设“从全部人中任意抽取一个,取到宠爱德国队的人”为大事A,由已知得P(A)==,所以p=25,q=25,a=40,b=60,K2===≈4.167>3.841,故有超过95%的把握认为年龄与德国队的被宠爱程度有关.
答案:95%
1.(2021·泸州模拟)为争辩变量x和y的线性相关性,甲、乙二人分别做了争辩,利用回归分析的方法得到回归直线l1和l2,两人计算得相同,也相同,则下列结论正确的是( )
A.l1与l2重合
B.l1与l2确定平行
C.l1与l2相交于点(,)
D.无法推断l1和l2是否相交
解析:选C.由于回归直线经过样本点的中心(,),故两直线都经过点(,),而,相同不能得到,确定相同,故选C.
2.(2021·大连市双基测试)对于下列表格所示的五个散点,已知求得的线性回归直线方程为=0.8x-155.
x
196
197
200
203
204
y
1
3
6
7
m
则实数m的值为( )
A.8 B.8.2
C.8.4 D.8.5
解析:选A.依题意得=(196+197+200+203+204)=200,=(1+3+6+7+m)=,回归直线必经过样本中心点,于是有=0.8×200-155,由此解得m=8.故选A.
3.通过随机询问110名性别不同的高校生是否爱好某项运动,得到如下的列联表:
男
女
合计
爱好
40
20
60
不爱好
20
30
50
合计
60
50
110
由K2=,
算得K2=≈7.8.
附表:
P(K2≥k)
0.050
0.010
0.001
k
3.841
6.635
10.828
参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”
B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”
C.有99%以上的把握认为“爱好该项运动与性别有关”
D.有99%以上的把握认为“爱好该项运动与性别无关”
解析:选C.依据独立性检验的定义,由K2≈7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
4.(2021·郑州市其次次质量猜想)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:
单价x(元)
4
5
6
7
8
9
销量y(件)
90
84
83
80
75
68
由表中数据,求得线性回归方程为=-4x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为( )
A. B.
C. D.
解析:选B.由表中数据得=6.5,=80,由=-4+a,得a=106,故线性回归方程为=-4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入回归方程可知有6个基本大事,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在直线的左下方,满足条件的只有2个,故所求概率为=.
5.(2021·山东东营模拟)已知变量x与y之间的回归直线方程为=-3+2x,若xi=17,则yi的值等于( )
A.3 B.4
C.0.4 D.40
解析:选B.依题意x==1.7,
而直线=-3+2x确定经过样本点的中心(,),
所以=-3+2=-3+2×1.7=0.4,
∴yi=0.4×10=4.
6.(2021·山东济南市模拟考试)为了均衡训练资源,加大对偏远地区的训练投入,调查了某地若干户家庭的年收入x(单位:万元)和年训练支出y(单位:万元),调查显示年收入x与年训练支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:=0.15x+0.2.由回归直线方程可知,家庭年收入每增加1万元,年训练支出平均增加________万元.
解析:由题意知,0.15(x+1)+0.2-(0.15x+0.2)=0.15.
答案:0.15
7.某高校“统计初步”课程的老师随机调查了选该课的一些同学状况,具体数据如下表:
专业
性别
非统计专业
统计专业
男
13
10
女
7
20
为了检验主修统计专业是否与性别有关系,依据表中的数据,得到K2=≈4.84.由于K2>3.841,所以断定主修统计专业与性别有关系,这种推断出错的可能性为________.
解析:由于K2>3.841,所以有95%的把握断定主修统计专业与性别有关系,所以这种推断出错的可能性为5%.
答案:5%
8.已知数组(x1,y1),(x2,y2),…,(x10,y10)满足线性回归方程=x+,则“(x0,y0)满足线性回归方程=x+”是“x0=(x1+x2+…+x10),y0=(y1+y2+…+y10)”的________条件(填“充分不必要”“必要不充分”或“充要”).
解析:当x0,y0为这10组数据的平均值,即x0=,y0=时,由于线性回归方程=x+必过样本点的中心(,),因此(x0,y0)确定满足线性回归方程,但满足线性回归方程的除了(,)外,可能还有其他样本点,所以“(x0,y0)满足线性回归方程=x+”是“x0=,y0=”的必要不充分条件.
答案:必要不充分
9.(2021·贵阳市适应性考试)一次考试中,五名同学的数学、物理成果如下表所示:
同学
A1
A2
A3
A4
A5
数学成果x(分)
89
91
93
95
97
物理成果y(分)
87
89
89
92
93
(1)要从5名同学中选2人参与一项活动,求选中的同学中至少有一人的物理成果高于90分的概率;
(2)依据上表数据,用变量y与x的相关系数和散点图说明物理成果y与数学成果x之间线性相关关系的强弱.假如具有较强的线性相关关系,求y与x的线性回归方程(系数精确到0.01);假如不具有线性相关关系,请说明理由.
参考公式:
相关系数r=
回归直线的方程是:=x+,
其中=,=y-bx;
i是与xi对应的回归估量值.
参考数据:
x=93,y=90,
(xi-)2=40,
(yi-)2=24,
(xi-)(yi-)=30,
≈6.32,≈4.90.
解:(1)从5名同学中任取2名同学的全部状况为:(A1,A2),(A1,A3),(A1,A4),(A1,A5),(A2,A3),(A2,A4),(A2,A5),(A3,A4),(A3,A5),(A4,A5),共10种状况.
其中至少有一人的物理成果高于90分的状况有:
(A1,A4),(A1,A5),(A2,A4),(A2,A5),(A3,A4),(A3,A5),(A4,A5),共7种状况,
故选中的同学中至少有一人的物理成果高于90分的概率P=.
(2)变量y与x的相关系数是r=≈≈0.97.
可以看出,物理成果与数学成果呈正相关,散点图如图所示:
从散点图可以看出这些点大致分布在一条直线四周,并且在逐步上升,故物理成果与数学成果正相关.
设y与x的线性回归方程是=x+,依据所给的数据,可以计算出==0.75,=90-0.75×93=20.25,
所以y与x的线性回归方程是=0.75x+20.25.
展开阅读全文