资源描述
一般线性回归分析案例
1、案例
为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康的影响,随机抽取了30个观测数据,基于多员线性回归分析的理论方法,对儿童体内几种必需元素与血红蛋白浓度的关系进行分析研究。这里,被解释变量为血红蛋白浓度(y),解释变量为钙(ca)、铁(fe)、铜(cu)。
表一 血红蛋白与钙、铁、铜必需元素含量
(血红蛋白单位为g;钙、铁、铜元素单位为ug)
case
y(g)
ca
fe
cu
1
7.00
76.90
295.30
0.840
2
7.25
73.99
313.00
1.154
3
7.75
66.50
350.40
0.700
4
8.00
55.99
284.00
1.400
5
8.25
65.49
313.00
1.034
6
8.25
50.40
293.00
1.044
7
8.50
53.76
293.10
1.322
8
8.75
60.99
260.00
1.197
9
8.75
50.00
331.21
0.900
10
9.25
52.34
388.60
1.023
11
9.50
52.30
326.40
0.823
12
9.75
49.15
343.00
0.926
13
10.00
63.43
384.48
0.869
14
10.25
70.16
410.00
1.190
15
10.50
55.33
446.00
1.192
16
10.75
72.46
440.01
1.210
17
11.00
69.76
420.06
1.361
18
11.25
60.34
383.31
0.915
19
11.50
61.45
449.01
1.380
20
11.75
55.10
406.02
1.300
21
12.00
61.42
395.68
1.142
22
12.25
87.35
454.26
1.771
23
12.50
55.08
450.06
1.012
24
12.75
45.02
410.63
0.899
25
13.00
73.52
470.12
1.652
26
13.25
63.43
446.58
1.230
27
13.50
55.21
451.02
1.018
28
13.75
54.16
453.00
1.220
29
14.00
65.00
471.12
1.218
30
14.25
65.00
458.00
1.000
2、回归分析
表2 变量说明表
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
cu, fe, cab
.
输入
a. 因变量: y
b. 已输入所有请求的变量。
表2说明了应变量和自变量及自变量进入方程的情况
表3 模型总体参数表(1)
模型汇总b
模型
R
R 方
调整 R 方
标准 估计的误差
1
.902a
.813
.792
.993
a. 预测变量: (常量), cu, fe, ca。
b. 因变量: y
由表3可知,相关系数R为0.902,说明自变量与因变量有比较好的相关性。R方为0.813,接近于1,说明总体回归效果较好。++++
表4 回归方差分析表(1)
Anovaa
模型
平方和
df
均方
F
Sig.
1
回归
111.587
3
37.196
37.743
.000b
残差
25.623
26
.986
总计
137.210
29
a. 因变量: y
b. 预测变量: (常量), cu, fe, ca。
表4是用方差分析对整个回归方程做了显著性检验,其中F=37.743,对应的概率P值近似为0。若显著性水平ᵅ为0.05,则因概率小于ᵅ,拒绝回归方程显著性检验的原假设,即回归系数不同时为0,解释变量全体与被解释变量存在显著的线性关系,选择线性模型具有合理性。
表5 回归系数及显著性检验表(1)
系数a
模型
非标准化系数
标准系数
t
Sig.
相关性
共线性统计量
B
标准 误差
试用版
零阶
偏
部分
容差
VIF
1
(常量)
1.368
1.479
.925
.364
ca
-.050
.021
-.223
-2.370
.026
-.006
-.421
-.201
.808
1.238
fe
.029
.003
.888
9.846
.000
.879
.888
.834
.883
1.132
cu
.930
.888
.103
1.047
.305
.305
.201
.089
.744
1.344
a. 因变量: y
表5用方差分析对每个因变量做了偏回归分析,是关于回归系数及显著性检验的计算结果如下:
在表中,常数项的t的显著性概率0.364大于0.05,表示常数项与0没有显著性差异,它不应出现在方程中。
钙含量的t的显著性概率0.026小于0.05,表示钙含量的系数与0有显著性差异,钙含量应作为解释变量存在于方程中。
铁含量的t的显著性概率0.000小于0.05,表示钙含量的系数与0有显著性差异,钙含量应作为解释变量存在于方程中。
铜含量的t的显著性概率0.305大于0.05,表示铜含量的系数与0有显著性差异,铜含量应作为解释变量存在于方程中。
由此可见,钙含量和铁含量可以作为解释变量在方程中来解释血红蛋白含量的变化,而铜含量则应该被剔除。
将铜含量从解释变量中剔除再次做回归分析,的到如下分析结果:
表6 模型总体参数表(2)
模型汇总b
模型
R
R 方
调整 R 方
标准 估计的误差
1
.897a
.805
.791
.995
a. 预测变量: (常量), fe, ca。
b. 因变量: y(g)
自变量减少了一个“铜”含量后,R方由0.813变为0.805,由此可见,去掉铜元素含量后,线性回归方程中的自变量对因变量的影响变化不大;
表7 回归方差分析表(2)
Anovaa
模型
平方和
df
均方
F
Sig.
1
回归
110.506
2
55.253
55.865
.000b
残差
26.704
27
.989
总计
137.210
29
a. 因变量: y(g)
b. 预测变量: (常量), ca, fe。
由表7看出,F值由原来的37.743上升为55.865,F值越大越好,表明整体回归效果更好。
表8 回归系数及显著性检验表(2)
系数a
模型
非标准化系数
标准系数
t
Sig.
相关性
共线性统计量
B
标准 误差
试用版
零阶
偏
部分
容差
VIF
1
(常量)
1.528
1.474
1.037
.309
fe
.030
.003
.915
10.570
.000
.879
.897
.897
.962
1.039
ca
-.041
.020
-.184
-2.124
.043
-.006
-.378
-.180
.962
1.039
a. 因变量: y(g)
表7 多重共线性检验的特征值及条件指数
共线性诊断a
模型
维数
特征值
条件索引
方差比例
(常量)
fe
ca
1
1
2.969
1.000
.00
.00
.00
2
.021
12.016
.01
.72
.47
3
.010
17.185
.99
.28
.53
a. 因变量: y(g)
表6中,最大特征值为2.969,其余依次快速减小。第三列各个条件指数均不大,可认为多重共线性较弱。
图1:
图1是残差正态性的图形结果,可以看到参数围绕基准线仍存在一定规律性。
图2 回归方程标准化预测值与标准化残差散点图
图2表明,不存在明显的异方差现象。
最终的回归方程为:
Z=-0.184X+0.915Y
其中,Z表示儿童梅100毫升血中的血红蛋白的含量,单位为g;
X表示儿童每100毫升血中钙元素的含量,单位为ug;
Y表示儿童每100毫升血中铁元素的含量,单位为ug。
方程表明,铁元素含量与血红蛋白含量存在正相关,而钙元素含量与血红蛋白含量存在负相关性,由此,当人体内血红蛋白浓度偏低时,就需要补充铁元素,减少钙元素的摄入量,铜元素则没有显著性影响。
【本文档内容可以自由复制内容或自由编辑修改内容期待你的好评和关注,我们将会做得更好】
精选范本,供参考!
展开阅读全文