资源描述
spss多元线性回归分析
SPSS多元线性回归分析试验
在科学研究中,我们会发现某些指标通常受到多个因素的影响,如血压值除了受年龄影响之外,还受到性别、体重、饮食习惯、吸烟情况等因素的影响,用方程定量描述一个因变量y与多个自变量x1、x2、x3.......之间的线性依存关系,称为多元线性回归。
有学者认为血清中低密度脂蛋白增高是引起动脉硬化的一个重要原因。现测量30名怀疑患有动脉硬化的就诊患者的载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C、低密度脂蛋白中的胆固醇含量。资料如下表所示。求低密度脂蛋白中的胆固醇含量对载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白C的线性回归方程。
表1 30名就诊患者资料表
序号
载脂蛋白A
载脂蛋白B
载脂蛋白E
载脂蛋白C
低密度蛋白
1
173
106
7.0
14.7
137
2
139
132
6.4
17.8
162
3
198
112
6.9
16.7
134
4
118
138
7.1
15.7
188
5
139
94
8.6
13.6
138
6
175
160
12.1
20.3
215
7
131
154
11.2
21.5
171
8
158
141
9.7
29.6
148
9
158
137
7.4
18.2
197
10
132
151
7.5
17.2
113
11
162
110
6.0
15.9
145
12
144
113
10.1
42.8
81
13
162
137
7.2
20.7
185
14
169
129
8.5
16.7
157
15
129
138
6.3
10.1
197
16
166
148
11.5
33.4
156
17
185
118
6.0
17.5
156
18
155
121
6.1
20.4
154
19
175
111
4.1
27.2
144
20
136
110
9.4
26.0
90
21
153
133
8.5
16.9
215
22
110
149
9.5
24.7
184
23
160
86
5.3
10.8
118
24
112
123
8.0
16.6
127
25
147
110
8.5
18.4
137
26
204
122
6.1
21.0
126
27
131
102
6.6
13.4
130
28
170
127
8.4
24.7
135
29
173
123
8.7
19.0
188
30
132
131
13.8
29.2
122
spss数据处理步骤:
(1)打开spss输入数据后,点击“分析”-“回归”-“线性”。然后将“低密度脂蛋白”选入因变量框,将“载脂蛋白A”“载脂蛋白B”“载脂蛋白E”“载脂蛋白C”依次选入自变量框。方法选为“逐步”。
(2)单击“统计量”选项,原有选项基础上选择“R方变化”。在残差中选“Durbin-Watson”,单击“继续”。
(3)单击“绘制”,将“DEPENDNT”选入“X2”中,将“*SRESID”选入“Y”中,在标准残差图选项中选择“直方图”和“正态概率图”。单击“继续”。
(4)单击“选项”,在原有选项的基础上单击“继续”,最后单击“确定”,就完成了。
数据处理结果如下:
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
载脂蛋白B
.
步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
2
载脂蛋白C
.
步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
a. 因变量: 低密度脂蛋白
上图为统计的基本信息。
模型汇总c
模型
R
R 方
调整 R 方
标准 估计的误差
更改统计量
Durbin-Watson
R 方更改
F 更改
df1
df2
Sig. F 更改
1
.562a
.316
.291
28.331
.316
12.924
1
28
.001
2
.733b
.538
.503
23.715
.222
12.960
1
27
.001
2.532
a. 预测变量: (常量), 载脂蛋白B。
b. 预测变量: (常量), 载脂蛋白B, 载脂蛋白C。
c. 因变量: 低密度脂蛋白
上图列出了模型的R、R方 、调整R方。R方 值越大所反映的两变量的共变量比率越高,模型与数据的拟合程度越好。结果显示:自变量和因变量之间的相关系数为0.733,拟合线性回归的确定性系数为0.538,经调整后的确定性系数为0.503。
Anovac
模型
平方和
Df
均方
F
Sig.
1
回归
10373.178
1
10373.178
12.924
.001a
残差
22473.489
28
802.625
总计
32846.667
29
2
回归
17661.794
2
8830.897
15.702
.000b
残差
15184.873
27
562.403
总计
32846.667
29
a. 预测变量: (常量), 载脂蛋白B。
b. 预测变量: (常量), 载脂蛋白B, 载脂蛋白C。
c. 因变量: 低密度脂蛋白
上图是对拟合的两个模型的方差分析检验结果,两个 SIG都小于0.05,说明两个模型都有统计学意义,模型有统计学意义不等于模型内所有的变量都有统计学意义,还需要进一步对各自变量进行检验。
系数a
模型
非标准化系数
标准系数
t
Sig.
B
标准 误差
试用版
1
(常量)
20.680
36.801
.562
.579
载脂蛋白B
1.043
.290
.562
3.595
.001
2
(常量)
41.841
31.361
1.334
.193
载脂蛋白B
1.254
.250
.676
5.019
.000
载脂蛋白C
-2.341
.650
-.485
-3.600
.001
a. 因变量: 低密度脂蛋白
上图为对两个模型中各个系数检验的结果,蛋白B、C其后的 SIG都小于0.05,均有统计学意义。所以最后的回归方程为y=41.841+1.254x2-2.341x4
其后的标准系数可以用来比较自变量对因变量的影响强度,标准系数的绝对值越大说明说明对因变量的贡献越大,本例中B对因变量的影响最大,其次是C。
已排除的变量c
模型
Beta In
t
Sig.
偏相关
共线性统计量
容差
1
载脂蛋白A
.128a
.801
.430
.152
.962
载脂蛋白E
-.308a
-1.788
.085
-.325
.762
载脂蛋白C
-.485a
-3.600
.001
-.569
.945
2
载脂蛋白A
.166b
1.255
.221
.239
.957
载脂蛋白E
-.060b
-.346
.732
-.068
.582
a. 模型中的预测变量: (常量), 载脂蛋白B。
b. 模型中的预测变量: (常量), 载脂蛋白B, 载脂蛋白C。
c. 因变量: 低密度脂蛋白
上表为残差的直方图,可见残差分布比较均匀,近似服从正态分布,符合多元回归的条件。
上图为残差的正态pp图,可见残差基本呈直线趋势,可以认为因变量呈正态分布。
上图为低密度脂蛋白胆固醇对学生化残差的散点图,可见残差围绕均线均匀分布,把部分残差绝对值在2以内,提示方差齐。
展开阅读全文