资源描述
11-多因素实验资料的方差分析
11-3
(1)本题为4个处理组的2×2析因涉及,因分成3天进行,若将每天的实验结果设为一个区组,先进行随机区组的方差分析:
方差分析表1
变异来源
df
SS
MS
F
Sig.
总变异
11
818.369
区组间
2
3.762
1.881
.230
.801
处理组间
3
765.529
255.176
31.196
.000
误差
6
49.078
8.180
从上表可以看出,各区组间差异无统计学意义,即各天的实验结果间无差异。
(3)依据完全随机设计析因试验方法进行方差分析
方差齐性检验表
F
df1
df2
Sig.
1.429
3
8
0.304
P值大于0.05,尚不能认为方差不齐。
方差分析表2
变异来源
df
SS
MS
F
Sig.
总变异
11
818.37
试样处理方式(A)
1
716.11
716.11
108.42
0.000
试样重量(B)
1
36.40
36.40
5.51
0.047
AB
1
13.02
13.02
1.97
0.198
误差
8
52.84
6.605
结局:可以认为高锰酸盐处理及试样重量均会对甘蓝叶核黄素浓度测定产生影响,尚不能认为高猛酸盐及试样重量的交互作用会对甘蓝叶核黄素浓度测量有影响。
11-4
假定不存在高阶交互作用,仅对A、B、C、D、E5个因素的主效应进行分析,采用正交设计的方差分析法:
正交设计的方差分析
变异来源
df
SS
MS
F
Sig.
总变异
15
3495.366
A
1
540.911
540.911
21.714
.001
B
1
1743.689
1743.689
69.998
.000
C
1
787.223
787.223
31.602
.000
D
1
82.038
82.038
3.293
.100
E
1
92.400
92.400
3.709
.083
误差
10
249.104
24.910
从上表可以看出,A、B、C三个因素的主效应有统计学意义(P<0.05),即A、B、C三个参数对高频呼吸机的通气量有影响。
11-5
随机区组的裂区设计,一级实验单位的变异来自于A因素主效应、区组变异及个体间误差,二级实验单位的变异来自于B因素的主效应、AB的交互效应以及个体内的误差,见下表。
随机区组裂区设计的方差分析
变异来源
df
SS
MS
F
Sig.
二级单位总计
19
146.1375
家兔间(一级单位总计)
9
81.013
注射药物(A)
1
63.013
63.013
47.557
.002
区组
4
12.700
3.175
2.396
.209
个体间误差
4
5.300
1.325
部位间(一级单位总计)
10
65.125
毒素浓度(B)
1
63.013
63.013
252.050
.000
A * B
1
.113
.113
.450
.521
个体内误差
8
2.000
0.25
从上表结果可以看出:无论是低浓度毒素还是高浓度毒素所致的皮肤损伤,抗毒素注射后的皮肤受损直接均小于对照组,全身注射抗毒素对皮肤损伤有保护作用。
12-重复测量设计资料的方差分析
12-2
数据为重复测量资料,方差分析表如下:
方差分析表
变异来源
SS
df
MS
F
Sig.
时间主效应
4500.000
1
4500.000
238.095
.000
时间×处理
28.800
1
28.800
1.524
.252
个体内误差
151.200
8
18.900
处理主效应
45.000
1
45.000
1.837
.212
个体间误差
196.000
8
24.500
从上表可以看出:
(1)两种方法治疗前后中度甲亢患者心率测量结果有差别(P<0.05)
(2)不考虑时间,两种方法心率的主效应未见差别(P>0.05)
(3)测量前后与处理不存在交互作用(P>0.05),即两种方法治疗前后心率的变化幅度相同。
12-5
(1)进行球型检验
within subjects effcet
Mauchly ' W
approx.chi-square
df
Sig.
Epsilonb
Greenhouse-Geisser
Huynh-Feldt
lower-bound
t
.119
27.028
5
.000
.675
.847
.333
P<0.05,不满足球形检验,需进行校正
(2)重复测量资料方差分析结果
测量时间及其与药物剂型交互作用的方差分析表
source
SS
df
MS
F
Sig.
t
sphericity assumed
26560.05
3
8853.349
74.972
.000
Greenhouse-Geisser
26560.05
2.026
13107.070
74.972
.000
Huynh-Feldt
26560.05
2.541
10453.519
74.972
.000
lower-bound
26560.05
1
26560.046
74.972
.000
t * G
sphericity assumed
16614.53
3
5538.177
46.898
.000
Greenhouse-Geisser
16614.53
2.026
8199.076
46.898
.000
Huynh-Feldt
16614.53
2.541
6539.158
46.898
.000
lower-bound
16614.53
1
16614.532
46.898
.000
error (t)
sphericity assumed
4959.76
42
118.089
Greenhouse-Geisser
4959.76
28.369
174.827
Huynh-Feldt
4959.76
35.571
139.433
lower-bound
4959.76
14
354.268
新旧剂型患者血药浓度比较的方差分析表
source
SS
df
MS
F
Sig.
intercept
493771.9
1
493771.870
729.972
.000
G
59.9
1
59.916
0.089
.770
error
9470.0
14
676.425
结论:使用不同剂型患者血药浓度没有差别;使用前后患者血药浓度存在明显差别;不同剂型使用前后血药浓度的变化幅度不同。
15-多元线性回归分析
(1)以低密度脂蛋白中的胆固醇(Y1)为应变量:
方差分析表1
变异来源
平方和
df
均方
F
P
回归
18530.408
4
4632.602
8.090
0.00025
残差
14316.258
25
572.650
总计
32846.667
29
回归参数估计及其检验结果1
变量
B
Sb
b'
t
Sig.
(常量)
-0.829
47.773
-0.017
0.986
载脂蛋白A1
0.233
0.197
0.165
1.181
0.249
载脂蛋白B
1.325
0.282
0.714
4.699
0.0001
载脂蛋白E
-0.124
2.783
-0.008
-0.045
0.965
载脂蛋白C
-2.385
0.765
-0.494
-3.119
0.005
决定系数:R2=0.564 调整的决定系数:R2=0.494
按α=0.05检验水平,回归方程中X2和X4有统计学意义,即低密度脂蛋白中的胆固醇与载脂蛋白B及C之间存在线性关系。
以高密度脂蛋白中的胆固醇(Y2)为应变量:
方差分析表2
变异来源
平方和
df
均方
F
P
回归
4392.581
4
1098.145
22.487
<0.0001
残差
1220.886
25
48.835
总计
5613.467
29
回归参数估计及其检验结果2
变量
B
Sb
b'
t
Sig.
(常量)
-2.1323
13.9511
-0.1528
0.87975
载脂蛋白A1
0.48331
0.05764
0.82547
8.38546
0.00000
载脂蛋白B
-0.0527
0.08235
-0.0687
-0.6401
0.52794
载脂蛋白E
-0.2944
0.81278
-0.0457
-0.3622
0.72027
载脂蛋白C
-0.415
0.22331
-0.2078
-1.8583
0.07494
决定系数:R2=0.783 调整的决定系数:R2=0.748
按α=0.05检验水平,回归方程中X1有统计学意义,即高密度脂蛋白中的胆固醇与载脂蛋白A1之间存在线性关系。
(2)自变量筛选
设定进入、剔除标准分别为α入=0.05和α出=0.10
以低密度脂蛋白中的胆固醇(Y1)为应变量,向前法纳入变量为X2、X4,向后法纳入变量为X2、X4,逐步回归法纳入变量为X2、X4,三者结果无差异;
以高密度脂蛋白中的胆固醇(Y2)为应变量,向前法纳入变量为X2、X4,向后法纳入变量为X1、X4,逐步回归法纳入变量为X1、X4,三者结果无差异;
(3)以X1-X4为自变量,Y2/Y1为应变量,使用逐步回归法分析,设定进入、剔除标准分别为α入=0.05和α出=0.10,结果如下:
方差分析表3
变异来源
平方和
df
均方
F
P
回归
0.2833527
3
0.09445
46.8465
0.0000
残差
0.0524207
26
0.00202
总计
0.3357734
29
回归参数估计及其检验结果3
变量
B
Sb
b'
t
Sig.
(常量)
0.35543
0.08847
4.01775
0.0004
载脂蛋白A1
0.00264
0.00036
0.58288
7.35716
0.0000
载脂蛋白B
-0.0036
0.00048
-0.6116
-7.5074
0.0000
载脂蛋白C
0.00333
0.00123
0.21586
2.70002
0.012
决定系数:R2=0.844 调整的决定系数:R2=0.826
与前面的分析结果相比,用Y2/Y1作为应变量,与单独使用Y1或者Y2的回归方程决定系数及调整的决定系数更高,说明高、低密度脂蛋白中的胆固醇含量的比值,较单纯的低密度脂蛋白中胆固醇的含量或者单纯高密度脂蛋白中胆固醇的含量,对诊断动脉硬化lemme个更有意义。
(4)残差分析
由标准化残差分析图可以看出,散点分布不是十分均匀,存在先下后上的趋势,并不满足回归分析的条件,且有一个点超过了2,属于离群值。
(5)分析结果
血清低密度脂蛋白中的胆固醇含量与载脂蛋白B和C有关,与载脂蛋白B成正相关,载脂蛋白C成负相关;
高密度脂蛋白与载脂蛋白A1成正相关,载脂蛋白C成负相关;
与高、低密度脂蛋白中的胆固醇含量的比值作为综合指标衡量动脉硬化,得到的结果与载脂蛋白A1、B及C有关。
16-Logistics回归
二、
(1)各因素赋值说明
因素
变量名
赋值
性别
X1
男=0,女=1
年龄组
X2
7~=1,10~=2,13~=3,16~=4
胆固醇
X3
<5.18=0,³5.18=1
甘油三酯
X4
<0.50=0,³0.50=1
肥胖症
Y
有=1,无=0
将年龄组转化成哑变量
水平
X2-1
X3-1
X4-1
1
0
0
0
2
1
0
0
3
0
1
0
4
0
0
1
(2)单因素分析
参数估计及假设检验1
变量
B
S.E,
Wals
df
Sig.
Exp (B)
性别X1
-.465
.182
6.537
1
.011
.628
常量
-1.933
.113
290.502
1
.000
.145
年龄组X2(1)
1.087
.285
14.540
1
.000
2.965
年龄组X2(2)
.585
.310
3.559
1
.059
1.794
年龄组X2(3)
-.260
.302
.739
1
.390
.771
常量
-2.494
.245
103.432
1
.000
.083
胆固醇X3
.711
.219
10.550
1
.001
2.035
常量
-2.256
.100
511.138
1
.000
.105
甘油三酯X4
.793
.181
19.173
1
.000
2.210
常量
-2.406
.116
430.001
1
.000
.090
从上表可以看出,四个因素对于肥胖的发生都有影响。其中,男性肥胖发生率低于女性;第二个年龄段肥胖发生率最高,而后随着年龄增加风险降低,说明性别和年龄可能对胆固醇及甘油三酯的作用产生混杂。
(3)多因素分析
1)模型1:认为肥胖的发生只与性别和年龄组相关
logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1
参数估计及假设检验2
变量
B
S.E,
Wals
df
Sig.
Exp (B)
性别X1
-0.455
0.185
6.069
1
0.014
0.635
年龄组X2(1)
1.075
0.286
14.155
1
0.000
2.930
年龄组X2(2)
0.576
0.311
3.444
1
0.063
1.780
年龄组X2(3)
-0.269
0.303
0.787
1
0.375
0.764
常量
-2.289
0.257
79.433
1
0.000
0.101
-2logL1= 866.602707
2)模型2:认为肥胖的发生与性别、年龄组及胆固醇含量相关
logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1+β3X3
参数估计及假设检验3
变量
B
S.E,
Wals
df
Sig.
Exp (B)
性别X1
-0.451
0.185
5.964
1
0.015
0.637
年龄组X2(1)
1.034
0.297
12.084
1
0.001
2.811
年龄组X2(2)
0.556
0.313
3.154
1
0.076
1.744
年龄组X2(3)
-0.266
0.303
0.774
1
0.379
0.766
胆固醇X3
0.123
0.240
0.262
1
0.609
1.131
常量
-2.295
0.257
79.638
1
0.000
0.101
-2logL1=866.343194
对X3的回归系数进行假设检验,P>0.05,说明X3没有纳入模型的必要。
3)模型3:认为肥胖的发生与性别、年龄组、胆固醇及甘油三酯含量相关
logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1+β4X4
参数估计及假设检验3
变量
B
S.E,
Wals
df
Sig.
Exp (B)
性别X1
-0.500
0.186
7.190
1
0.007
0.607
年龄组X2(1)
0.927
0.290
10.235
1
0.001
2.528
年龄组X2(2)
0.454
0.314
2.088
1
0.148
1.574
年龄组X2(3)
-0.335
0.305
1.208
1
0.272
0.716
甘油三酯X4
0.703
0.187
14.081
1
0.000
2.020
常量
-2.416
0.261
85.727
1
0.000
0.089
-2logL1=852.959317
引入X4后,对其回归系数进行检验,P<0.05,说明扣除性别与年龄影响后,甘油三酯与肥胖仍存在明显关系。
对模型1、2、3的似然值进行比较,模型3<模型1,说明模型3优于模型1,使用模型3拟合效果更好。
20-判别分析
20-1
Bayes判别
(1)先验概率:p=1/3
(2)判别函数计算
Bayes线性判别函数系数估计值1
变量
判别函数
Y1
Y2
Y3
X1
.028
.156
.086
X2
2.285
3.745
4.400
X3
.756
2.301
.390
X4
2.901
-.011
1.063
X5
2.126
1.674
-.160
X6
.055
.137
.112
X7
.078
-.134
.042
(常量)
-4.920
-12.776
-7.763
Y1=0.028X1+2.285X2+0.756X3+2.901X4+2.126X5+0.055X6+0.078X7-4.920
Y2=0.156X1+3.745X2+2.301X3-0.011X4+1.674X5+0.137X6-0.134X7-12.776
Y3=0.086X1+4.400X2+0.390X3+1.063X4-0.160X5+0.112X6+0.042X7-7.763
(3)判别效果评价:回顾性估计 误判概率8/63=12.70%
回顾性判别效果评价
原分类
判别分类
合计
1
2
3
1
29
0
3
32
2
1
10
2
13
3
1
1
16
18
合计
31
11
21
63
逐步判别
(1)确定变量筛选α、b:给定α=0.05,b=0.1;
(2)筛选变量
第一步:X1入选,F=28.028;
第二步:X5入选,F=17.519;
第三步:X6入选,F=15.307;
第四步:X7入选,F=13.211;
(3)先验概率取等概率,建立Bayes判别函数
Bayes线性判别函数系数估计值2
变量
判别函数
Y1
Y2
Y3
X1
0.012
0.119
0.058
X5
3.020
1.922
0.792
X6
0.049
0.127
0.105
X7
0.111
-0.052
0.109
(常量)
-3.631
-9.784
-5.749
Y1=0.012X1+3.020X5+0.049X6+0.111X7-3.631
Y2=0.119X1+1.922X5+0.127X6-0.052X7-9.784
Y3=0.058X1+0.792X5+0.105X6+0.109X7-5.749
(4)判别效果评价 回顾性估计 误判概率为12/63=19.05%
原分类
判别分类
合计
1
2
3
1
27
0
5
32
2
1
10
2
13
3
2
2
14
18
合计
30
12
21
63
21-聚类分析
21-1
1使用系统聚类法(最大相似系数法)对变量进行聚类
图21-1
根据系统分类图(图21-1),若分为三类,则X6、X12、X3、X1、X10、X7、X5、X2、X8、X11为一类,X4为一类,X9为一类。
2使用系统聚类法(类平均法)对样品进行聚类
图21-2
根据系统分类图(图21-2),若分为三类,则13、16、15、29、14、23、24、21、22、12、28、10、17、11、20为一类,1、6为一类,8、9、2、3、7、4、5为一类。
3使用动态聚类法对样品进行聚类
根据SPSS结果,分成以下三类。
类别
样品编号
1
1、6、9
2
10、11、12、13、14、15、16、17、28、29、20、21、22、23、24
3
2、3、4、5、7、8
21-3
1使用系统聚类法(类平均法)对指标进行聚类
图21-3
根据系统分类图(图21-3),若分为三类,则可食率、果形指数、风味、色泽、TA为一类,维生素C含量、硬度、TSS、固酸比为一类,单果重为一类。
2使用系统聚类法(最大相似系数法)对指标进行聚类
图21-4
根据系统分类图(图21-4),若分为三类,则4为一类,54为一类,其余为一类。
22-主成分分析与因子分析
22-1主成分分析
利用SPSS进行主成分分析,得到如下结果(表22-1至表22-)
表22-1 简单统计量
Cpp
icp
map
sbp
dbp
均值
0.0517
-0.0273
0.0050
-0.0060
0.0773
标准差
0.1595
0.2366
0.2182
0.1230
0.1746
表22-2 相关矩阵的特征值
成份
初始特征值
贡献率
累积贡献率
1
3.169
63.385
63.385
2
.995
19.907
83.292
3
.501
10.011
93.303
4
.325
6.492
99.796
5
.010
.204
100.000
表22-3 相关矩阵的特征向量
Z1
Z2
Z3
Z4
Z5
Cpp
.950
-.239
-.170
-.074
.077
icp
.248
.966
-.072
.017
.018
map
.771
.029
.635
.042
.000
sbp
.878
-.064
-.209
.425
-.033
dbp
.917
.023
-.138
-.370
-.053
图22-1 碎石图
1.1 主成分个数的选择 从表22-2 虽然只有第一个特征值大于1,但结合累积贡献率和碎石图,取前三个主成分为宜。
1.2 主成分表达式 由表22-3 根据各主成分所对应的特征向量,可得出前三个主成分为
Z1=0.950CPP+0.248ICP+0.771MAP+0.878SBP+0.917DBP
Z2=-0.239CPP+0.966ICP+0.029MAP-0.064SBP+0.023DBP
Z3=-0.170CPP-0.072ICP+0.635MAP-0.209SBP-0.138DBP
1.3 因子载荷阵
表22-4 因子载荷矩阵
Z1
Z2
Z3
Z4
Z5
Cpp
1.691
-.425
-.302
-.132
.137
icp
.247
.964
-.072
.017
.018
map
.545
.021
.450
.029
.000
sbp
.500
-.036
-.119
.242
-.019
dbp
.093
.002
-.014
-.037
-.005
由因子载荷阵可知,第一主成分Z1与Cpp、map和sbp关系较为密切,第二主成分Z2与Cpp、icp关系较为密切,第三主成分与Cpp、map关系较为密切,dbp与三个主成分关系均一般。
22-2 因子分析
约相关矩阵的特征值、因子载荷阵与表22-2、22-3相同。
由表22-2虽然只有第一个特征值大于1,但其贡献率不足70%,故考虑提取前3个公因子。
表22-5 因子载荷阵
因子1
因子2
因子3
Cpp
0.950
-0.239
-0.170
icp
0.248
0.966
-0.072
map
0.771
0.029
0.635
sbp
0.878
-0.064
-0.209
dbp
0.917
0.023
-0.138
表22-6 主成分因子分析后的公共度
Cpp
icp
map
sbp
dbp
0.989
0.999
0.998
0.818
0.861
竖读表22-5 发现因子1在多数原始指标上都有较大的载荷,因子2在icp上有较大的载荷,因子3在map上有较大的载荷;
由表22-6可知,各共性方差均超过80%,说明3个公因子已经能够较好反应各指标包括的大部分信息。
27-常用综合评价方法
二、
1、TOPSIS法评价某医院5年的医疗质量
(1)原始数据
年度
X1
X2
X3
X4
X5
X6
X7
1994
21584
76.7
7.3
1.01
78.3
97.5
2
1995
24372
86.3
7.4
0.8
91.1
98
2
1996
22041
81.8
7.3
0.62
91.1
97.3
3.2
1997
21115
84.5
6.9
0.6
90.2
97.7
2.9
1998
24633
90.3
6.9
0.25
95.5
97.9
3.6
(2)评价指标同趋势化
X1-X7中,X1、X2、X3、X5、X6为高优指标,X4、X7为低优指标,估取其倒数,将所有指标同趋势化,数据如下:
年度
X1
X2
X3
X4
X5
X6
X7
1994
21584
76.7
0.137
0.990
78.3
97.5
0.500
1995
24372
86.3
0.135
1.250
91.1
98.0
0.500
1996
22041
81.8
0.137
1.613
91.1
97.3
0.313
1997
21115
84.5
0.145
1.667
90.2
97.7
0.345
1998
24633
90.3
0.145
4.000
95.5
97.9
0.278
(3)归一化处理
进行归一化处理后得到如下矩阵:
年度
X1
X2
X3
X4
X5
X6
X7
1994
0.423
0.408
0.438
0.202
0.392
0.446
0.561
1995
0.478
0.459
0.432
0.256
0.456
0.449
0.561
1996
0.432
0.435
0.438
0.330
0.456
0.445
0.351
1997
0.414
0.450
0.463
0.341
0.451
0.447
0.387
1998
0.483
0.481
0.463
0.818
0.478
0.448
0.312
(4)确定有限方案中的最优方案及最劣方案
最优方案A-=(0.483,0.481,0.463,0.818,0.478,0.449,0.561)
最劣方案A+=(0.414,0.408,0.432,0.202,0.392,0.445,0.312)
(5)计算评价对象各指标值与最优方案及最劣方案的距离Di+与Di-,见下表
(6)计算与最优方法的接近程度Ci,见下表
(7)按Ci大小将评价对象排序,见下表
年度
Di+
Di-
Ci
排序结果
1994
0.250
0.629
0.284
3
1995
0.275
0.564
0.328
2
1996
0.151
0.537
0.220
5
1997
0.176
0.514
0.255
4
1998
0.630
0.249
0.716
1
根据排序结果可以看出,该医院1998年医疗质量最高,1996年最差。
2、使用秩和比法(RSR)对不同职业生殖结局进行综合评价
(1)对原始数据进行编秩:见下表
高优指标由小到大,低优指标由大到小,同一指标数值相同者编平均秩。X1-X4均为低优指标,故由大到小编秩。
(2)计算秩和比,并由大到小进行排序,见下表。
职业
X1
R1
X2
R2
X3
R3
X4
R4
RSR
排序
1
12.02
4
9.02
6
17.79
4
36.11
7
0.66
3
2
2.64
8
11.44
4
12.32
7
36.90
6
0.78
1
3
2.84
7
8.52
7
17.05
5
64.33
2
0.66
3
4
13.16
2
9.87
5
16.45
6
33.44
8
0.66
3
5
7.48
6
12.47
3
21.20
3
37.13
5
0.53
4
6
13.73
1
33.79
1
48.57
1
89.16
1
0.13
6
7
7.51
5
12.88
2
21.46
2
54.08
3
0.38
5
8
12.18
3
2.71
8
6.77
8
37.24
4
0.72
2
(3)确定RSR分布
RSR
ƒ
∑ƒ
R
Probit
0.125
1
1
1
1
12.5
3.85
0.375
1
2
2
2
25
4.33
0.531
1
3
3
3
37.5
4.67
0.656
3
6
4,5,6
5
62.5
5.32
0.719
1
7
7
7
87.5
6.15
0.781
1
8
8
8
97.5
6.96
(4)计算回归方程
RSR=-0.468+0.1917probit(F=20.119 P=0.011)
(5)分档排序
若分为3档,依据各分档情况下概率单位Probit值,按照回归方程推算所对应的RSR估计值对评价对象进行分档排序。
等级
Px
probit
RSR
分档排序结果
下
<P15.866
<4
<0.2988
6
中
P15.866
4
0.2988~
1,3,4,5,7
上
P84.134
6
0.6822~
2,8
根据上表结果,可以看出农业妇女生殖结局最差,专业技术工人及对照(行政管理人员)生殖结局最好。
26
展开阅读全文