资源描述
3.1 回归分析的基本思想
回归分析(regression analysis)是对具有相关关系的两个变量进行统计分析的一种常用方法。
对于一组具有线性相关关系的数据
其中 , ,称为样本点的中心,回归直线过样本点的中心。
回归方程:
线性回归模型:
其中a和b为模型的未知参数,e是y与bx+a之间的误差。通常e为随机变量,称为随机误差
与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。
随机误差e的方差越小,用bx+a预报真实值y的精度越高。随机误差是引起预报值与真实值y之间存在误差的原因之一,其大小取决于随机误差的方差。
另一方面,和为斜率和截距的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间存在误差的另一个原因。
由于随机误差,所以是e的估计量。
对于样本点
它们的随机误差为
其估计值为
称为相应于点的残差(residual)。
可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。
以样本编号为横坐标,残差为纵坐标,可作出残差图。
检查残差较大的样本点,确认采集该样本点过程中是否有人为错误,如有,应予以纠正,再重新利用线性回归模型拟合数据;如没有,则需寻找其它原因。
另外,对于已经获取的样本数据,
中的为确定的数。因此越大,意味着残差平方和越小,即模型拟合效果越好;越小,残差平方和越大,即模型拟合效果越差。
表示解释变量对于预报变量变化的贡献率,越接近于1,表示回归的效果越好。
一般地,建立回归模型的基本步骤:
(1) 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
(2) 画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)
(3) 有经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)
(4) 按一定规则(如最小二乘法)估计回归方程中的参数;
(5) 得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。
回归模型的适用范围:
(1) 回归方程只适用于我们所研究的样本的总体;
(2) 我们所建立的回归方程一般都有时间性;
(3) 样本取值的范围会影响回归方程的适用范围;
(4) 不能期望回归方程得到的预报值就是预报变量的精确值。
般地,比较两个函数模型的拟合程度的步骤如下:
(1) 分别建立对应于两个模型的回归方程与 ,其中和分别是参数a和b的估计值
(2) 分别计算两个模型的R2值
(3) 若 ,则模型1比模型2拟合效果更好;若 ,则模型2比模型1拟合效果更好。
3.2 独立性检验的基本思想
不同的“值”表示不同类别的变量叫做分类变量。列出两个分类变量的频数表称为列联表(contingency table)。常用等高条形图展示列联表数据的频率特征。
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验(test of independence)。
反证法原理与独立性检验原理的比较
反证法原理
在假设H0下,如果推出一个矛盾,就证明了H0不成立
独立性检验原理
在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率
一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
假设H0: X与Y没有关系,即X与Y独立。
则有P(XY)=P(X)P(Y) ;
根据频率近似于概率,故有
化简得
因此,越小,两者关系越弱;越大,两者关系越强;
基于以上分析,构造随机变量
,其中为样本容量
K2的值越小则关系越小,K2的值越大则关系越大。(实际应用中通常要求a,b,c,d都不小于5)
计算K2的观测值k并与K2作比较。
统计学研究发现,在H0成立的情况下,
即在H0成立的情况下,K2的观测值超过6.635的概率非常小,近似为0.01,是一个小概率事件。
若观测值k大于6.635,则有理由判定H0不成立,即“X与Y有关系”。但这种判断会犯错误,犯错误的概率不会超过0.01 .
*(这里概率计算的前提是H0成立,即H0:两个分类变量没有关系)
若要推断的论述为H1:“X与Y有关系”。可以通过频率直观地判断两个条件概率P(Y=y1|X=x1)和P(Y=y1|X=x2)是否相等。如果判断它们相等,就意味着X和Y没有关系;否则就认为它们有关系。由上表可知,在X=x1的情况下,Y=y1的频率为 ;在X=x2的情况下,Y=y1的频率为 。因此,如果通过直接计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系。
利用独立性检验原理可以进一步给出推断“两个分类变量有关系”犯错误的概率。具体做法是:
(1) 根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α ,然后查下表确定临界值k0.
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k0
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
(2) 利用公式计算随机变量K2的观测值k.
(3) 如果K2的观测值k大于判断规则的临界值k0,即k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α ;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”。
按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过.
定义:
则
若“X和Y没有关系”则有
有可推出
即可取
于是有以下判断规则:
当W的观测值时,就判断“X和Y有关系” ;否则,判断“X和Y没有关系”。这里为正实数,且满足在“X和Y没有关系”的前提下
随堂练习
1.(2010·宁夏银川模拟)下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4.5
4
3
2.5
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是=-0.7x+a,则a等于( )
A.10.5 B.5.15 C.5.2 D.5.25
2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( )
A.b与r的符号相同 B.a与r的符号相同 C.b与r的符号相反 D.a与r的符号相反
3.有下列说法:
①随机误差是引起预报值与真实值之间的误差的原因之一;
②残差平方和越小,预报精度越高;
③在独立性检验中,通过二维条形图和三维柱形图可以粗略判断两个分类变量是否有关系.
其中真命题的个数是( )
A.0 B.1 C.2 D.3
4.有甲、乙两种钢材,从中各取等量样品检验它们的抗拉强度指标如下:
甲
X
110
120
125
130
135
P
0.1
0.2
0.4
0.1
0.2
乙
X
100
115
125
130
145
P
0.1
0.2
0.4
0.1
0.2
现要比较两种钢材哪一种抗拉强度较好,应考察哪项指标( )
A.期望与方差 B.正态分布 C.卡方K2 D.概率
5.为调查中学生近视情况,测得某校男生150名中有80名近视,女生140名中有70名近视.在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.期望与方差 B.排列与组合 C.独立性检验 D.概率
6.(2009·海南宁夏理,3)对变量x,y观测数据(x1,y1)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(u1,v1)(i=1,2,…,10),得散点图2.由这两个散点图可以判断.( )
A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关
7.某地2010年第一季度应聘和招聘人数排行榜前5个行业的情况列表如下:
行业名称
计算机
机械
营销
物流
贸易
应聘人数
215830
200250
154676
74570
65280
行业名称
计算机
营销
机械
建筑
化工
招聘人数
124620
102935
89115
76516
70436
若用同一行业中应聘人数与招聘人数比值的大小来衡量该行业的就业情况,则根据表中数据,就业形势一定是( )
A.计算机行业好于化工行业 B.建筑行业好于物流行业
C.机械行业最紧张 D.营销行业比贸易行业紧张
8.工人月工资y(单位:元)关于劳动生产率x(单位:千元)的回归方程为=650+80x,下列说法中正确的个数是( )
①劳动生产率为1000元时,工资约为730元;
②劳动生产率提高1000元时,则工资约提高80元;
③劳动生产率提高1000元时,则工资约提高730元;
④当月工资为810元时,劳动生产率约为2000元.
A.1 B.2 C.3 D.4
9.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是( )
A.由样本数据得到的回归方程为=x+必过样本点的中心(,)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数r=-0.9362,则变量y和x之间具有线性相关关系
10.判断两个分类变量是彼此相关还是相互独立的常用方法中,最为精确的是( )
A.三维柱形图 B.二维条形图 C.等高条形图 D.独立性检验
11.在建立两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合得最好的模型为( )
A.模型1的相关指数R2为0.75 B.模型2的相关指数R2为0.90
C.模型3的相关指数R2为0.25 D.模型4的相关指数R2为0.55
12.下面是某市场农产品的调查表.
市场供应量表:
单价(元/千克)
2
2.4
2.8
3.2
3.6
4
供应量(1000千克)
50
60
70
75
80
90
市场需求量表:
单价(元/千克)
4
3.4
2.9
2.6
2.3
2
供应量(1000千克)
50
60
70
75
80
90
根据以上信息,市场供需平衡点(即供应量和需求量相等的单价)应在区间( )
A.(2.3,2.6) B.(2.4,2.6) C.(2.6,2.8) D.(2.8,2.9)
二、填空题(本大题共4个小题,每小题4分,共16分,将正确答案填在题中横线上)
13.当且仅当r满足________时,数据点(xi,yi)(i=1,2,…,n)在一条直线上.
14.已知一个回归直线方程为=1.5x+45,x∈{1,7,5,13,19},则=__________.
15.对具有线性相关关系的变量x和y,测得一组数据如下表.若已求得它们的回归直线方程的斜率为6.5,则这条回归直线的方程为________.
x
2
4
5
6
8
y
30
40
60
50
70
16.(2010·广东文,12)某市居民2005~2009年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表所示:
年份
2005
2006
2007
2008
2009
收入x
11.5
12.1
13
13.3
15
支出Y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭平均收入的中位数是__________,家庭年平均收入与年平均支出有__________线性相关关系.
三、解答题(本大题共6个小题,共70分,解答应写出文字说明、证明过程或演算步骤)
17.(本题满分10分)为了调查胃病是否与生活规律有关,调查某地540名40岁以上的人得结果如下:
患胃病
未患胃病
合计
生活不规律
60
260
320
生活有规律
20
200
220
合计
80
460
540
根据以上数据回答40岁以上的人患胃病与生活规律有关吗?
18.(本题满分12分)一台机器可以按各种不同的速度运转,其生产的物件有一些会有问题,每小时生产有问题物件的多寡,随机器运转的速度而变化,下面表格中的数据是几次试验的结果.
速度(转/秒)
每小时生产有问题物件数
8
5
12
8
14
9
16
11
(1)求出机器速度影响每小时生产有问题物件数的回归直线方程;
(2)若实际生产中所允许的每小时最大问题物件数为10,那么机器的速度不得超过多少转/秒?
19.(本题满分12分)在从烟台—大连的某次航运中,海上出现恶劣气候.随机调查男、女乘客在船上晕船的情况如下表所示:
晕船
不晕船
合计
男人
32
51
73
女人
8
24
32
合计
40
75
115
根据此资料你是否认为在恶劣气候航行中,男人比女人更容易晕船?
20.(本题满分12分)有两个分类变量X与Y,其一组观测的2×2列联表如下表.其中a,15-a均为大于5的整数,则a取何值时有90%以上的把握认为“X与Y之间有关系”?
y1
y2
x1
a
20-a
x2
15-a
30+a
21.(本题满分12分)某超市为了了解热茶销售与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对比表如下表:
气温x(℃)
26
18
13
10
4
-1
杯数y
20
24
34
38
50
64
画出散点图并计算相关系数r,判断热茶销售量与气温之间是否具有线性相关关系.
22.(本题满分14分)在一个文娱网络中,点击观看某个节目的累积人次和播放天数如下表:
播放天数
1
2
3
4
5
点击观看的累积人次
51
134
213
235
262
播放天数
6
7
8
9
10
点击观看的累积人次
294
330
378
457
533
(1)画出散点图;
(2)判断两变量之间是否具有线性相关关系,求回归直线方程是否有意义?
答案
一、选择题(本大题共12个小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的)
1.(2010·宁夏银川模拟)下表是某厂1~4月份用水量(单位:百吨)的一组数据:
月份x
1
2
3
4
用水量y
4.5
4
3
2.5
由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是=-0.7x+a,则a等于( )
A.10.5 B.5.15
C.5.2 D.5.25
[答案] D
[解析] =2.5,=3.5,
∵回归直线方程过定点(,),
∴3.5=-0.7×2.5+a,∴a=5.25.故选D.
2.设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有( )
A.b与r的符号相同
B.a与r的符号相同
C.b与r的符号相反
D.a与r的符号相反
[答案] A
[解析] 因为b>0时,两变量正相关,此时,r>0;b<0时,两变量负相关,此时r<0.
3.有下列说法:
①随机误差是引起预报值与真实值之间的误差的原因之一;
②残差平方和越小,预报精度越高;
③在独立性检验中,通过二维条形图和三维柱形图可以粗略判断两个分类变量是否有关系.
其中真命题的个数是( )
A.0 B.1
C.2 D.3
[答案] D
4.有甲、乙两种钢材,从中各取等量样品检验它们的抗拉强度指标如下:
甲
X
110
120
125
130
135
P
0.1
0.2
0.4
0.1
0.2
乙
X
100
115
125
130
145
P
0.1
0.2
0.4
0.1
0.2
现要比较两种钢材哪一种抗拉强度较好,应考察哪项指标( )
A.期望与方差 B.正态分布
C.卡方K2 D.概率
[答案] A
5.为调查中学生近视情况,测得某校男生150名中有80名近视,女生140名中有70名近视.在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力( )
A.期望与方差 B.排列与组合
C.独立性检验 D.概率
[答案] C
6.(2009·海南宁夏理,3)对变量x,y观测数据(x1,y1)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(u1,v1)(i=1,2,…,10),得散点图2.由这两个散点图可以判断.( )
A.变量x与y正相关,u与v正相关
B.变量x与y正相关,u与v负相关
C.变量x与y负相关,u与v正相关
D.变量x与y负相关,u与v负相关
[答案] C
[解析] 本题主要考查了变量的相关知识,考查学生分析问题和解决问题的能力.
用散点图可以判断变量x与y负相关,u与v正相关.
7.某地2010年第一季度应聘和招聘人数排行榜前5个行业的情况列表如下:
行业名称
计算机
机械
营销
物流
贸易
应聘人数
215830
200250
154676
74570
65280
行业名称
计算机
营销
机械
建筑
化工
招聘人数
124620
102935
89115
76516
70436
若用同一行业中应聘人数与招聘人数比值的大小来衡量该行业的就业情况,则根据表中数据,就业形势一定是( )
A.计算机行业好于化工行业
B.建筑行业好于物流行业
C.机械行业最紧张
D.营销行业比贸易行业紧张
[答案] B
[解析] 建筑行业的比值小于,物流行业的比值大于,故建筑好于物流.
8.工人月工资y(单位:元)关于劳动生产率x(单位:千元)的回归方程为=650+80x,下列说法中正确的个数是( )
①劳动生产率为1000元时,工资约为730元;
②劳动生产率提高1000元时,则工资约提高80元;
③劳动生产率提高1000元时,则工资约提高730元;
④当月工资为810元时,劳动生产率约为2000元.
A.1 B.2
C.3 D.4
[答案] C
[解析] 代入方程计算可判断①②④正确.
9.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(xn,yn),则下列说法中不正确的是( )
A.由样本数据得到的回归方程为=x+必过样本点的中心(,)
B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数r=-0.9362,则变量y和x之间具有线性相关关系
[答案] C
[解析] R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C.
10.判断两个分类变量是彼此相关还是相互独立的常用方法中,最为精确的是( )
A.三维柱形图 B.二维条形图
C.等高条形图 D.独立性检验
[答案] D
[解析] 前三种方法只能直观地看出两个分类变量x与y是否相关,但看不出相关的程度.独立性检验通过计算得出相关的可能性,较为准确.
11.在建立两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合得最好的模型为( )
A.模型1的相关指数R2为0.75
B.模型2的相关指数R2为0.90
C.模型3的相关指数R2为0.25
D.模型4的相关指数R2为0.55
[答案] B
[解析] 相关指数R2的值越大,意味着残差平方和越小,也就是说模型的拟合效果越好,故选B.
12.下面是某市场农产品的调查表.
市场供应量表:
单价(元/千克)
2
2.4
2.8
3.2
3.6
4
供应量(1000千克)
50
60
70
75
80
90
市场需求量表:
单价(元/千克)
4
3.4
2.9
2.6
2.3
2
供应量(1000千克)
50
60
70
75
80
90
根据以上信息,市场供需平衡点(即供应量和需求量相等的单价)应在区间( )
A.(2.3,2.6) B.(2.4,2.6)
C.(2.6,2.8) D.(2.8,2.9)
[答案] C
[解析] 以横轴为单价,纵轴为市场供、需量,在同一坐标系中描点,用近似曲线观察可知选C.
二、填空题(本大题共4个小题,每小题4分,共16分,将正确答案填在题中横线上)
13.当且仅当r满足________时,数据点(xi,yi)(i=1,2,…,n)在一条直线上.
[答案] |r|=1
[解析] 当数据点(xi,yi)在一条直线上时,y只受x的影响,即数据点完全线性相关,此时|r|=1.
14.已知一个回归直线方程为=1.5x+45,x∈{1,7,5,13,19},则=__________.
[答案] 58.5
[解析] 因为=(1+7+5+13+19)=9,且=1.5+45,所以=1.5×9+45=58.5.
本题易错之处是根据x的值及=1.5x+45求出y的值再求,由=1.5x+45求得的y值不是原始数据,故错误.
15.对具有线性相关关系的变量x和y,测得一组数据如下表.若已求得它们的回归直线方程的斜率为6.5,则这条回归直线的方程为________.
x
2
4
5
6
8
y
30
40
60
50
70
[答案] =17.5+6.5x
[解析] 由数据表得=5,=50,所以=-6.5=17.5,即回归直线方程为=17.5+6.5x.
16.(2010·广东文,12)某市居民2005~2009年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表所示:
年份
2005
2006
2007
2008
2009
收入x
11.5
12.1
13
13.3
15
支出Y
6.8
8.8
9.8
10
12
根据统计资料,居民家庭平均收入的中位数是__________,家庭年平均收入与年平均支出有__________线性相关关系.
[答案] 13 正
[解析] 中位数的定义的考查,奇数个时按大小顺序排列后中间一个是中位数,而偶数个时须取中间两数的平均数.由统计资料可以看出,当平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.
三、解答题(本大题共6个小题,共70分,解答应写出文字说明、证明过程或演算步骤)
17.(本题满分10分)为了调查胃病是否与生活规律有关,调查某地540名40岁以上的人得结果如下:
患胃病
未患胃病
合计
生活不规律
60
260
320
生活有规律
20
200
220
合计
80
460
540
根据以上数据回答40岁以上的人患胃病与生活规律有关吗?
[解析] k=
=≈9.638
∵9.638>6.635
∴40岁以上的人患胃病与生活是否有规律有关,有99%的把握认为生活不规律的人易患胃病.
18.(本题满分12分)一台机器可以按各种不同的速度运转,其生产的物件有一些会有问题,每小时生产有问题物件的多寡,随机器运转的速度而变化,下面表格中的数据是几次试验的结果.
速度(转/秒)
每小时生产有问题物件数
8
5
12
8
14
9
16
11
(1)求出机器速度影响每小时生产有问题物件数的回归直线方程;
(2)若实际生产中所允许的每小时最大问题物件数为10,那么机器的速度不得超过多少转/秒?
[解析] (1)用x表示机器速度,y表示每小时生产有问题物件数,那么4个样本数据为:(8,5)、(12,8)、(14,9)、(16,11),则=12.5,=8.25.于是回归直线的斜率为==≈0.7286,=-=-0.8575,所以所求的回归直线方程为y=0.7286x-0.8575.
(2)根据公式=0.7286x-0.8575,要使y≤10,则就需要0.7286x-0.8575≤10,x≤14.9019,即机器的旋转速度不能超过14.9019转/秒.
19.(本题满分12分)在从烟台—大连的某次航运中,海上出现恶劣气候.随机调查男、女乘客在船上晕船的情况如下表所示:
晕船
不晕船
合计
男人
32
51
73
女人
8
24
32
合计
40
75
115
根据此资料你是否认为在恶劣气候航行中,男人比女人更容易晕船?
[解析] 男人晕船所占比例为×100%=0.386,
女人晕船所占比例为×100%=0.25,虽然0.386远大于0.25,但我们不能用此判断在恶劣气候中航行,男人比女人更容易晕船,而应根据独立性检验进行分析.
由公式得:
K2=≈1.870.
因为1.870<2.706,所以我们没有充分的证据说晕船跟男女性别有关.
20.(本题满分12分)有两个分类变量X与Y,其一组观测的2×2列联表如下表.其中a,15-a均为大于5的整数,则a取何值时有90%以上的把握认为“X与Y之间有关系”?
y1
y2
x1
a
20-a
x2
15-a
30+a
[解析] 查表可知,要使有90%以上的把握认为X与Y之间有关系,则K2>2.706,
而其观测值k=
==,解k>2.706得a>7.19或a<2.04.又因为a>5且15-a>5,a∈Z,所以a=8,9,故当a取8或9时有90%以上的把握认为“X与Y之间有关系”.
[点拨] 首先计算K2值,由题意K2>2.706,求得a的范围,再结合a>5且15-a>5,a∈Z,即可求得a的值.
21.(本题满分12分)某超市为了了解热茶销售与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对比表如下表:
气温x(℃)
26
18
13
10
4
-1
杯数y
20
24
34
38
50
64
画出散点图并计算相关系数r,判断热茶销售量与气温之间是否具有线性相关关系.
[解析] 由表中数据画出散点图如图所示.
由表中数据得=(26+18+13+10+4-1)≈11.67,
=(20+24+34+38+50+64)≈38.33,
iyi=26×20+18×24+13×34+10×38+4×50-1×64=1910,=262+182+132+102+42+(-1)2=1286,=202+242+342+382+502+642=10172,所以r≈-0.97,因为|r|≈0.97>0.75,所以热茶销售量与气温之间具有很强的线性相关关系.
22.(本题满分14分)在一个文娱网络中,点击观看某个节目的累积人次和播放天数如下表:
播放天数
1
2
3
4
5
点击观看的累积人次
51
134
213
235
262
播放天数
6
7
8
9
10
点击观看的累积人次
294
330
378
457
533
(1)画出散点图;
(2)判断两变量之间是否具有线性相关关系,求回归直线方程是否有意义?
[解析] (1)散点图如图所示.
(2)由散点图知两变量线性相关,故求回归直线方程有意义.或借助科学计算器,完成下表中的有关计算.
i
1
2
3
4
5
6
7
8
9
10
xi
1
2
3
4
5
6
7
8
9
10
yi
51
134
213
235
262
294
330
378
457
533
xiyi
51
268
639
940
1310
1764
2310
3024
4113
5330
=5.5,=288.7,
=385,=1020953,iyi=19749
利用上表的结果,计算累积人次与播放天数之间的相关系数
r=
≈0.984>0.75.
这说明累积人次与播放天数之间存在着线性相关关系,自然求回归直线方程有意义.
展开阅读全文