资源描述
第十二章 相关与回归分析
第一节 变量之间的相关关系
相关程度与方向·因果关系与对称关系
第二节 定类变量的相关
双变量交互分类(列联表)·削减误差比例(PRE)·λ系数与τ系数
第三节 定序变量的相关分析
同序对、异序对和同分对·Gamma系数·肯德尔等级相关系数(τa系数、τb与τc系数)·萨默斯系数(d系数)·斯皮尔曼等级相关(ρ相关)·肯德尔和谐系数
第四节 定距变量的相关分析
相关表和相关图·积差系数的导出和计算·积差系数的性质
第五节 回归分析
线性回归·积差系数的PRE性质·相关指数R
第六节 曲线相关与回归
可线性化的非线性函数·实例分析(二次曲线指数曲线)
一、填空
1.对于表现为因果关系的相关关系来说,自变量一般都是确定性变量,因变量则一般是( )变量。
2.变量间的相关程度,可以用不知Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量,这就是( )。
3.依据数理统计原理,在样本容量较大的情况下,可以作出以下两个假定:(1)实际观察值Y围绕每个估计值是服从( );(2)分布中围绕每个可能的值的( )是相同的。
4.在数量上表现为现象依存关系的两个变量,通常称为自变量和因变量。自变量是作为( )的变量,因变量是随( )的变化而发生相应变化的变量。
5.根据资料,分析现象之间是否存在相关关系,其表现形式或类型如何,并对具有相关关系的现象之间数量变化的议案关系进行测定,即建立一个相关的数学表达式,称为( ),并据以进行估计和预测。这种分析方法,通常又称为( )。
6.积差系数r是( )与X和Y的标准差的乘积之比。
二、单项选择
1.当x按一定数额增加时,y也近似地按一定数额随之增加,那么可以说x与y之间
存在( )关系。
A 直线正相关 B 直线负相关 C 曲线正相关 D 曲线负相关
2.评价直线相关关系的密切程度,当r在0.5~0.8之间时,表示( )。
A 无相关 B 低度相关 C 中等相关 D 高度相关
3.相关分析和回归分析相辅相成,又各有特点,下面正确的描述有( )。
A在相关分析中,相关的两变量都不是随机的;
B在回归分析中,自变量是随机的,因变量不是随机的;
C在回归分析中,因变量和自变量都是随机的;
D在相关分析中,相关的两变量都是随机的。
4.关于相关系数,下面不正确的描述是( )。
A当01时,表示两变量不完全相关;
B当r=0时,表示两变量间无相关;
C两变量之间的相关关系是单相关;
D如果自变量增长引起因变量的相应增长,就形成正相关关系。
5.欲以图形显示两变量X和Y的关系,最好创建( )。
A 直方图 B 圆形图 C 柱形图 D 散点图
6.两变量X和Y的相关系数为0.8,则其回归直线的判定系数为( )。
A 0.50 B 0.80 C 0.64 D 0.90
7.在完成了构造与评价一个回归模型后,我们可以( )。
A 估计未来所需样本的容量
B 计算相关系数和判定系数
C 以给定的因变量的值估计自变量的值
D 以给定的自变量的值估计因变量的值
8.两变量的线性相关系数为0,表明两变量之间( )。
A 完全相关 B 无关系 C 不完全相关 D 不存在线性相关
9.身高和体重之间的关系是( )。
A 函数关系 B 无关系 C 共变关系 D 严格的依存关系
10.在相关分析中,对两个变量的要求是( )。
A 都是随机变量 B 都不是随机变量
C 其中一个是随机变量,一个是常数 D 都是常数
11.在回归分析中,两个变量( )。
A 都是随机变量 B 都不是随机变量
C 自变量是随机变量 D 因变量是随机变量
12.一元线性回归模型和多元线性回归模型的区别在于只有一个( )。
A 因变量 B 自变量 C 相关系数 D 判定系数
13.以下指标恒为正的是( )。
A 相关系数r B 截距a C 斜率b D 复相关系数
14.下列关系中,属于正相关关系得是( )。
A 身高与体重 B 产品与单位成本
C 正常商品的价格和需求量 D 商品的零售额和流通费率
三、多项选择
1.关于积差系数,下面正确的说法是( )。
A 积差系数是线性相关系数
B 积差系数具有PRE性质
C 在积差系数的计算公式中,变量X和Y是对等关系
D 在积差系数的计算公式中,变量X和Y都是随机的
2.关于皮尔逊相关系数,下面正确的说法是( )。
A 皮尔逊相关系数是线性相关系数
B 积差系数能够解释两变量间的因果关系
C r公式中的两个变量都是随机的
D r的取值在1和0之间
E 皮尔逊相关系数具有PRE性质,但这要通过r2加以反映
3.简单线性回归分析的特点是( )。
A 两个变量之间不是对等关系
B 回归系数有正负号
C 两个变量都是随机的
D 利用一个回归方程,两个变量可以互相推算
E 有可能求出两个回归方程
4.反映某一线性回归方程y=a+bx好坏的指标有( )。
A 相关系数 B 判定系数
C b的大小 D 估计标准误 E a的大小
5.模拟回归方程进行分析适用于( )。
A 变量之间存在一定程度的相关系数
B 不存在任何关系的几个变量之间
C 变量之间存在线性相关
D 变量之间存在曲线相关
E 时间序列变量和时间之间
6.判定系数r2=80%和含义如下( )。
A 自变量和因变量之间的相关关系的密切程度
B 因变量y的总变化中有80%可以由回归直线来解释和说明
C 总偏差中有80%可以由回归偏差来解释
D 相关系数一定为0.64
E 判定系数和相关系数无关
7.回归分析和相关分析的关系是( )。
A 回归分析可用于估计和预测
B 相关分析是研究变量之间的相互依存关系的密切程度
C 回归分析中自变量和因变量可以互相推导并进行预测
D 相关分析需区分自变量和因变量
E 相关分析是回归分析的基础
8.以下指标恒为正的是( )。
A 相关系数 B 判定系数 C 复相关系数
D 偏相关系数 E 回归方程的斜率
9.一元线性回归分析中的回归系数b可以表示为( )。
A 两个变量之间相关关系的密切程度
B 两个变量之间相关关系的方向
C 当自变量增减一个单位时,因变量平均增减的量
D 当因变量增减一个单位时,自变量平均增减的量
E 回归模型的拟合优度
10.关于回归系数b,下面正确的说法是( )。
A b也可以反映X和Y之间的关系强度。;
B 回归系数不解释两变量间的因果关系;
C b公式中的两个变量都是随机的;
D b的取值在1和-1之间;
E b也有正负之分。
四、名词解释
1.消减误差比例
2. 确定性关系
3.非确定性关系
4.因果关系
5.单相关和复相关
6.正相关与负相关
7.散点图
8.皮尔逊相关系数r
9.同序对
10.异序对
11.同分对
五、判断题
1.由于削减误差比例的概念不涉及变量的测量层次,因此它的优点很明显,用它来定义相关程度可适用于变量的各测量层次。 ( )
2.不管相关关系表现形式如何,当=1时,变量X和变量Y都是完全相关。( )
3.不管相关关系表现形式如何,当=0时,变量X和变量Y都是完全不相关。( )
4.通过列联表研究定类变量之间的关联性,这实际上是通过相对频数条件分布的比较进行的。而如果两变量间是相关的话,必然存在着Y的相对频数条件分布相同,且和它的相对频数边际分布相同。 ( )
5.如果众数频数集中在条件频数分布列联表的同一行中,系数便会等于0,从而无法显示两变量之间的相关性。 ( )
6.从分析层次上讲,相关分析更深刻一些。因为相关分析具有推理的性质,而回归分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。 ( )
六、计算题
1.对某市市民按老中青进行喜欢民族音乐情况的调查,样本容量为200人,调查结果示于下表,试把该频数列联表:①转化为相对频数的联合分布列联表②转化为相对频数的条件分布列联表;③指出对于民族音乐的态度与被调查者的年岁有无关系,并说明理由。
对于民族音乐的
态度(Y)
年岁(X)
Σ
老 中 青
喜 欢
不喜欢
38 38 30
15 33 46
Σ
2.已知十名学生身高和体重资料如下表,(1)根据下述资料算出身高和体重的皮尔逊相关系数和斯皮尔曼相关系数;(2)根据下述资料求出两变量之间的回归方程(设身高为自变量,体重为因变量)。
身高(cm)
171
167
177
154
169
体重(kg)
53
56
64
49
55
身高(cm)
175
163
152
172
162
体重(kg)
66
52
47
58
50
3.某市有12所大专院校,现组织一个评审委员会对各校校园及学生体质进行评价,结果如下,试求环境质量与学生体质的关系的斯皮尔曼相关系数和肯得尔等级相关系数。
环境名次
3
9
7
5
12
8
10
2
11
4
1
6
体质名次
5
9
6
7
12
8
11
1
10
3
2
4
4.以下是婚姻美满与文化程度的抽样调查的结果,请计算婚姻美满与文化程度之Gamma系数和肯德尔相关系数τc。
文化程度
婚姻美满
大学
中学
小学
美 满
9
16
5
一 般
8
30
18
不美满
3
4
7
5.以下为两位评判员对10名参赛人名次的打分。试用斯皮尔曼等级相关系数来描述两评判员打分的接近程度。
参赛人
A
B
C
D
E
F
G
H
I
J
评判员1
评判员2
1
1
2
2
4
3
3
4
5
5
8
6
6
7
7
8
9
9
10
10
6.某原始资料为:
X
65
73
91
88
76
53
96
67
82
85
Y
5
7
13
13.5
7
4.5
15
6.7
10
11
要求:(1)求回归方程;(2)这是正相关还是负相关;(3)求估计标准误差;
(4)用积差法求相关系数。
7.根据下述假设资料求回归方程。
X
1
2
3
4
5
6
7
Y
23.0
23.4
24.1
25.2
26.1
26.9
27.3
8.某10户家庭样本具有下列收入(元)和食品支出(元/周)数据:
收入(X)
20
30
33
40
15
13
26
38
25
43
支出(Y)
7
9
8
11
5
4
8
10
9
10
要求:1)写出最小平方法计算的回归直线方程;
2)在95.46%把握下,当X=45时,写出Y的预测区间。
9.根据下述假设资料,试用积差法求相关系数。
输出X(亿元)
12
10
6
16
8
9
10
输出Y(亿元)
12
8
6
11
10
8
11
10.下面是对50名被调查者的英语成绩和法语成绩的抽样调查:求Gamma系数。
英语
法语
优 中 差
优
中
差
10 5 3
4 10 6
2 6 4
11.青年歌手大奖赛评委会对10名决赛选手的演唱水平(X)和综合素质(Y)进行打分,评价结果如下表(表中已先将选手按演唱水平作了次序排列)所示,试计算选手的演唱水平和综合素质间的斯皮尔曼等级相关系数。(10分)
选手名
A B C D E F G H I J
演唱水平(X)
综合素质(Y)
1 2 3 4 5 6 7 8 9 10
2 1 5 3 7 4 9 10 6 8
七、问答题
1.简述积差系数的特性。
2.简述回归分析和相关分析之间的密切联系。
参考答案
一、填空
1.随机性 2.削减误差比例 3. 4.变化根据 自变量 5. 回归方程 回归分析 6. 协方差
二、单项选择
1.A 2.C 3.D 4.B 5.D 6.C 7.D 8.D 9.C 10.A 11.D 12.B 13.D 14. A
三、多项选择
1.ABCD 2.ACE 3.ABE 4.ABD 5.ACDE 6.ABC 7.ABE 8.BC 9.BC 10.AE
四、名词解释
1.消减误差比例
变量间的相关程度,可以用不知Y与X有关系时预测Y的误差,减去知道Y与X有关系时预测Y的误差,再将其化为比例来度量。将削减误差比例记为PRE。
2. 确定性关系
当一个变量值确定后,另一个变量值夜完全确定了。确定性关系往往表现成函数形式。
3.非确定性关系
在非确定性关系中,给定了一个变量值,另一个变量值还可以在一定范围内变化。
4.因果关系
变量之间的关系满足三个条件,才能断定是因果关系。1)连个变量有共变关系,即一个变量的变化会伴随着另一个变量的变化;2)两个变量之间的关系不是由其他因素形成的,即因变量的变化是由自变量的变化引起的;3)两个变量的产生和变化有明确的时间顺序,即一个在前,另一个在后,前者称为自变量,后者称为因变量。
5.单相关和复相关
单相关只涉及到两个变量,所以又称为二元相关。三个或三个以上的变量之间的相关关系则称为复相关,又称多元相关。
6.正相关与负相关
正相关与负相关:正相关是指一个变量的值增加时,另一变量的值也增加;负相关是指一个变量的值增加时,另一变量的值却减少。
7.散点图
散点图:将相关表所示的各个有对应关系的数据在直角坐标系上画出来,以直观地观察X与Y的相互关系,即得相关图,又称散点图。
8.皮尔逊相关系数r
皮尔逊相关系数是协方差与两个随机变量X、Y的标准差乘积的比率。
9.同序对
在观察X序列时,如果看到,在Y中看到的是,则称这一配对是同序对。
10.异序对
在观察X序列时,如果看到,在Y中看到的是,则称这一配对是异序对。
11.同分对
如果在X序列中,我们观察到(此时Y序列中无),则这个配对仅是X方向而非Y方向的同分对;如果在Y序列中,我们观察到(此时X序列中无),则这个配对仅是Y方向而非X方向的同分对;我们观察到,也观察到,则称这个配对为X与Y同分对。
五、判断题
1.( √ ) 2.( √ ) 3.( × ) 4.( × ) 5.( √ ) 6.( × )
六、计算题
1.①相对频数的联合分布列联表
对于民族音乐的
态度(Y)
年岁(X)
Σ
老 中 青
喜 欢
不喜欢
0.19 0.19 0.15
0.075 0.165 0.23
Σ
②转化为相对频数的条件分布列联表
对于民族音乐的
态度(Y)
年岁(X)
Σ
老 中 青
喜 欢
不喜欢
0.53 0.54 0.39
0.47 0.46 0.61
Σ
③民族音乐的态度与被调查者的年岁有关系
2.
编号
身高(cm)x
体重
(kg)y
xy
1
171
53
29241
2809
9063
2
167
56
27889
3136
9352
3
177
64
31329
4096
11328
4
154
49
23716
2401
7546
5
169
55
28561
3025
9295
6
175
66
30625
4356
11550
7
163
52
26569
2704
8476
8
152
47
23104
2209
7144
9
172
58
29584
3364
9976
10
162
50
26244
2500
8100
合计
1662
550
276862
30600
91830
斯皮尔曼相关系数
【皮尔逊相关系数:0.889,斯皮尔曼相关系数:0.94,回归方程:Y=-54.48+0.66X】
3.
4.
=9×(30+18+4+7)+16×(18+7)+8×(4+7)+30×7=1229
=5×(30+8+3+4)+18×(3+4)+16×(8+3)+30×3=617
0.18
5.
6.
7.根据下述假设资料求回归方程。
8.
9.
10.
11.
七、问答题
1.简述积差系数的特性。
答:(1)皮尔逊相关系数是线性相关系数。下一节在学习回归分析后我们将了解,积差相关系数的平方()才是对于最小平方直线的拟合性量度。当X和Y之间无相关时,散点图上是随机分布的点,r必等于0。但反过来r=0,并不能肯定X和Y无相关,因为这时它们之间可能存在着非线性相关关系。
(2) r的取值在-1和-1之间。绝对值越大,相关程度越高;绝对值越小,相关程度越小。但必须指出,对于判断相关关系的密切程度,是r2而不是r有着直观的解释意义。例如,当r2=0.75时,表示当知道X和Y有线性相关关系后,可以改善预测程度75%或可以用X削减Y的75%的误差。所以,对于以积差系数的大小表示关联程度,一般认为:相关系数r值在0.3以下为无相关,0.3∽ 0.5表示低度相关,0.5∽ 0.8表示中等相关,0.8以上表示高度相关。当然.相关程度理解还与不同的研究目的和得到它的环境有关。
(3)皮尔逊相关系数具有PRE性质,但这也要通过r2加以反映。对此,下一节我们学习回归分析时再行推导。
(4) 积差系数不解释两变量间的因果关系。在r公式中,变量X和Y的关系是对等的。所以对两个定距变量来说,X和Y的相关也就是Y和X的相关,不分彼此。但下面回归分析中,则要根据研究目的分别确定其中的自变量和因变量,因而回归系数b是非对称的。
(5) r公式中的两个变量都是随机的,因而改变两者的位置并不影响r的数值。而在下面的回归分析中,通过回归方程,我们要以自变量X的值去预测因变量Y的值,因而自变量不是随机的,只有因变量才是随机的。
2.简述回归分析和相关分析之间的密切联系。
答:一般说来,只有当两个变量之间存在着较高程度的相关关系时,回归分析才变得有意义和有价值。相关程度越高,回归预测越准确。因此,往往先进行相关分析,然后才选用有明显相关关系的变量作回归分析。与此同时,相关关系往往要通过回归分析才能阐释清楚,例如皮尔逊相关系数的PRE性质。回归分析具有推理的性质,而相关分析从本质上讲只是对客观事物的一种描述,知其然而不知其所以然。因而从分析层次上讲,回归分析更深刻一些。
11
展开阅读全文