医学统计学-高级统计学课后部分习题答案第四版孙振球主编.doc

资源描述

11-多因素实验资料的方差分析 11-3 （1）本题为4个处理组的2×2析因涉及，因分成3天进行，若将每天的实验结果设为一个区组，先进行随机区组的方差分析: 方差分析表1 变异来源 df SS MS F Sig. 总变异 11 818.369 区组间 2 3.762 1.881 .230 .801 处理组间 3 765.529 255.176 31.196 .000 误差 6 49.078 8.180 从上表可以看出，各区组间差异无统计学意义，即各天的实验结果间无差异。（3）依据完全随机设计析因试验方法进行方差分析方差齐性检验表 F df1 df2 Sig. 1.429 3 8 0.304 P值大于0.05，尚不能认为方差不齐。方差分析表2 变异来源 df SS MS F Sig. 总变异 11 818.37 试样处理方式（A） 1 716.11 716.11 108.42 0.000 试样重量（B） 1 36.40 36.40 5.51 0.047 AB 1 13.02 13.02 1.97 0.198 误差 8 52.84 6.605 结局：可以认为高锰酸盐处理及试样重量均会对甘蓝叶核黄素浓度测定产生影响，尚不能认为高猛酸盐及试样重量的交互作用会对甘蓝叶核黄素浓度测量有影响。 11-4 假定不存在高阶交互作用，仅对A、B、C、D、E5个因素的主效应进行分析，采用正交设计的方差分析法：正交设计的方差分析变异来源 df SS MS F Sig. 总变异 15 3495.366 A 1 540.911 540.911 21.714 .001 B 1 1743.689 1743.689 69.998 .000 C 1 787.223 787.223 31.602 .000 D 1 82.038 82.038 3.293 .100 E 1 92.400 92.400 3.709 .083 误差 10 249.104 24.910 从上表可以看出，A、B、C三个因素的主效应有统计学意义（P<0.05），即A、B、C三个参数对高频呼吸机的通气量有影响。 11-5 随机区组的裂区设计，一级实验单位的变异来自于A因素主效应、区组变异及个体间误差，二级实验单位的变异来自于B因素的主效应、AB的交互效应以及个体内的误差，见下表。随机区组裂区设计的方差分析变异来源 df SS MS F Sig. 二级单位总计 19 146.1375 家兔间（一级单位总计） 9 81.013 注射药物（A） 1 63.013 63.013 47.557 .002 区组 4 12.700 3.175 2.396 .209 个体间误差 4 5.300 1.325 部位间（一级单位总计） 10 65.125 毒素浓度（B） 1 63.013 63.013 252.050 .000 A * B 1 .113 .113 .450 .521 个体内误差 8 2.000 0.25 从上表结果可以看出:无论是低浓度毒素还是高浓度毒素所致的皮肤损伤，抗毒素注射后的皮肤受损直接均小于对照组，全身注射抗毒素对皮肤损伤有保护作用。 12-重复测量设计资料的方差分析 12-2 数据为重复测量资料，方差分析表如下：方差分析表变异来源 SS df MS F Sig. 时间主效应 4500.000 1 4500.000 238.095 .000 时间×处理 28.800 1 28.800 1.524 .252 个体内误差 151.200 8 18.900 处理主效应 45.000 1 45.000 1.837 .212 个体间误差 196.000 8 24.500 从上表可以看出: (1)两种方法治疗前后中度甲亢患者心率测量结果有差别（P<0.05） (2)不考虑时间，两种方法心率的主效应未见差别（P>0.05） (3)测量前后与处理不存在交互作用（P>0.05），即两种方法治疗前后心率的变化幅度相同。 12-5 (1)进行球型检验 within subjects effcet Mauchly ' W approx.chi-square df Sig. Epsilonb Greenhouse-Geisser Huynh-Feldt lower-bound t .119 27.028 5 .000 .675 .847 .333 P<0.05，不满足球形检验，需进行校正 (2)重复测量资料方差分析结果测量时间及其与药物剂型交互作用的方差分析表 source SS df MS F Sig. t sphericity assumed 26560.05 3 8853.349 74.972 .000 Greenhouse-Geisser 26560.05 2.026 13107.070 74.972 .000 Huynh-Feldt 26560.05 2.541 10453.519 74.972 .000 lower-bound 26560.05 1 26560.046 74.972 .000 t * G sphericity assumed 16614.53 3 5538.177 46.898 .000 Greenhouse-Geisser 16614.53 2.026 8199.076 46.898 .000 Huynh-Feldt 16614.53 2.541 6539.158 46.898 .000 lower-bound 16614.53 1 16614.532 46.898 .000 error (t) sphericity assumed 4959.76 42 118.089 Greenhouse-Geisser 4959.76 28.369 174.827 Huynh-Feldt 4959.76 35.571 139.433 lower-bound 4959.76 14 354.268 新旧剂型患者血药浓度比较的方差分析表 source SS df MS F Sig. intercept 493771.9 1 493771.870 729.972 .000 G 59.9 1 59.916 0.089 .770 error 9470.0 14 676.425 结论：使用不同剂型患者血药浓度没有差别；使用前后患者血药浓度存在明显差别；不同剂型使用前后血药浓度的变化幅度不同。 15-多元线性回归分析（1）以低密度脂蛋白中的胆固醇（Y1）为应变量：方差分析表1 变异来源平方和 df 均方 F P 回归 18530.408 4 4632.602 8.090 0.00025 残差 14316.258 25 572.650 总计 32846.667 29 回归参数估计及其检验结果1 变量 B Sb b' t Sig. (常量) -0.829 47.773 -0.017 0.986 载脂蛋白A1 0.233 0.197 0.165 1.181 0.249 载脂蛋白B 1.325 0.282 0.714 4.699 0.0001 载脂蛋白E -0.124 2.783 -0.008 -0.045 0.965 载脂蛋白C -2.385 0.765 -0.494 -3.119 0.005 决定系数：R2=0.564 调整的决定系数：R2=0.494 按α=0.05检验水平，回归方程中X2和X4有统计学意义，即低密度脂蛋白中的胆固醇与载脂蛋白B及C之间存在线性关系。以高密度脂蛋白中的胆固醇（Y2）为应变量：方差分析表2 变异来源平方和 df 均方 F P 回归 4392.581 4 1098.145 22.487 <0.0001 残差 1220.886 25 48.835 总计 5613.467 29 回归参数估计及其检验结果2 变量 B Sb b' t Sig. (常量) -2.1323 13.9511 -0.1528 0.87975 载脂蛋白A1 0.48331 0.05764 0.82547 8.38546 0.00000 载脂蛋白B -0.0527 0.08235 -0.0687 -0.6401 0.52794 载脂蛋白E -0.2944 0.81278 -0.0457 -0.3622 0.72027 载脂蛋白C -0.415 0.22331 -0.2078 -1.8583 0.07494 决定系数：R2=0.783 调整的决定系数：R2=0.748 按α=0.05检验水平，回归方程中X1有统计学意义，即高密度脂蛋白中的胆固醇与载脂蛋白A1之间存在线性关系。（2）自变量筛选设定进入、剔除标准分别为α入=0.05和α出=0.10 以低密度脂蛋白中的胆固醇（Y1）为应变量，向前法纳入变量为X2、X4，向后法纳入变量为X2、X4，逐步回归法纳入变量为X2、X4，三者结果无差异；以高密度脂蛋白中的胆固醇（Y2）为应变量，向前法纳入变量为X2、X4，向后法纳入变量为X1、X4，逐步回归法纳入变量为X1、X4，三者结果无差异；（3）以X1-X4为自变量，Y2/Y1为应变量，使用逐步回归法分析，设定进入、剔除标准分别为α入=0.05和α出=0.10，结果如下：方差分析表3 变异来源平方和 df 均方 F P 回归 0.2833527 3 0.09445 46.8465 0.0000 残差 0.0524207 26 0.00202 总计 0.3357734 29 回归参数估计及其检验结果3 变量 B Sb b' t Sig. (常量) 0.35543 0.08847 4.01775 0.0004 载脂蛋白A1 0.00264 0.00036 0.58288 7.35716 0.0000 载脂蛋白B -0.0036 0.00048 -0.6116 -7.5074 0.0000 载脂蛋白C 0.00333 0.00123 0.21586 2.70002 0.012 决定系数：R2=0.844 调整的决定系数：R2=0.826 与前面的分析结果相比，用Y2/Y1作为应变量，与单独使用Y1或者Y2的回归方程决定系数及调整的决定系数更高，说明高、低密度脂蛋白中的胆固醇含量的比值，较单纯的低密度脂蛋白中胆固醇的含量或者单纯高密度脂蛋白中胆固醇的含量，对诊断动脉硬化lemme个更有意义。（4）残差分析由标准化残差分析图可以看出，散点分布不是十分均匀，存在先下后上的趋势，并不满足回归分析的条件，且有一个点超过了2，属于离群值。（5）分析结果血清低密度脂蛋白中的胆固醇含量与载脂蛋白B和C有关，与载脂蛋白B成正相关，载脂蛋白C成负相关；高密度脂蛋白与载脂蛋白A1成正相关，载脂蛋白C成负相关；与高、低密度脂蛋白中的胆固醇含量的比值作为综合指标衡量动脉硬化，得到的结果与载脂蛋白A1、B及C有关。 16-Logistics回归二、（1）各因素赋值说明因素变量名赋值性别 X1 男=0，女=1 年龄组 X2 7~=1，10~=2，13~=3，16~=4 胆固醇 X3 <5.18=0,³5.18=1 甘油三酯 X4 <0.50=0,³0.50=1 肥胖症 Y 有=1，无=0 将年龄组转化成哑变量水平 X2-1 X3-1 X4-1 1 0 0 0 2 1 0 0 3 0 1 0 4 0 0 1 （2）单因素分析参数估计及假设检验1 变量 B S.E, Wals df Sig. Exp (B) 性别X1 -.465 .182 6.537 1 .011 .628 常量 -1.933 .113 290.502 1 .000 .145 年龄组X2(1) 1.087 .285 14.540 1 .000 2.965 年龄组X2(2) .585 .310 3.559 1 .059 1.794 年龄组X2(3) -.260 .302 .739 1 .390 .771 常量 -2.494 .245 103.432 1 .000 .083 胆固醇X3 .711 .219 10.550 1 .001 2.035 常量 -2.256 .100 511.138 1 .000 .105 甘油三酯X4 .793 .181 19.173 1 .000 2.210 常量 -2.406 .116 430.001 1 .000 .090 从上表可以看出，四个因素对于肥胖的发生都有影响。其中，男性肥胖发生率低于女性；第二个年龄段肥胖发生率最高，而后随着年龄增加风险降低，说明性别和年龄可能对胆固醇及甘油三酯的作用产生混杂。（3）多因素分析 1）模型1：认为肥胖的发生只与性别和年龄组相关 logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1 参数估计及假设检验2 变量 B S.E, Wals df Sig. Exp (B) 性别X1 -0.455 0.185 6.069 1 0.014 0.635 年龄组X2(1) 1.075 0.286 14.155 1 0.000 2.930 年龄组X2(2) 0.576 0.311 3.444 1 0.063 1.780 年龄组X2(3) -0.269 0.303 0.787 1 0.375 0.764 常量 -2.289 0.257 79.433 1 0.000 0.101 -2logL1= 866.602707 2）模型2：认为肥胖的发生与性别、年龄组及胆固醇含量相关 logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1+β3X3 参数估计及假设检验3 变量 B S.E, Wals df Sig. Exp (B) 性别X1 -0.451 0.185 5.964 1 0.015 0.637 年龄组X2(1) 1.034 0.297 12.084 1 0.001 2.811 年龄组X2(2) 0.556 0.313 3.154 1 0.076 1.744 年龄组X2(3) -0.266 0.303 0.774 1 0.379 0.766 胆固醇X3 0.123 0.240 0.262 1 0.609 1.131 常量 -2.295 0.257 79.638 1 0.000 0.101 -2logL1=866.343194 对X3的回归系数进行假设检验，P>0.05，说明X3没有纳入模型的必要。 3）模型3：认为肥胖的发生与性别、年龄组、胆固醇及甘油三酯含量相关 logitP=β0+β1X1+β2-1X2-1+β3-1X3-1+β4-1X4-1+β4X4 参数估计及假设检验3 变量 B S.E, Wals df Sig. Exp (B) 性别X1 -0.500 0.186 7.190 1 0.007 0.607 年龄组X2(1) 0.927 0.290 10.235 1 0.001 2.528 年龄组X2(2) 0.454 0.314 2.088 1 0.148 1.574 年龄组X2(3) -0.335 0.305 1.208 1 0.272 0.716 甘油三酯X4 0.703 0.187 14.081 1 0.000 2.020 常量 -2.416 0.261 85.727 1 0.000 0.089 -2logL1=852.959317 引入X4后，对其回归系数进行检验，P<0.05，说明扣除性别与年龄影响后，甘油三酯与肥胖仍存在明显关系。对模型1、2、3的似然值进行比较，模型3<模型1，说明模型3优于模型1，使用模型3拟合效果更好。 20-判别分析 20-1 Bayes判别 (1)先验概率：p=1/3 (2)判别函数计算 Bayes线性判别函数系数估计值1 变量判别函数 Y1 Y2 Y3 X1 .028 .156 .086 X2 2.285 3.745 4.400 X3 .756 2.301 .390 X4 2.901 -.011 1.063 X5 2.126 1.674 -.160 X6 .055 .137 .112 X7 .078 -.134 .042 (常量) -4.920 -12.776 -7.763 Y1=0.028X1+2.285X2+0.756X3+2.901X4+2.126X5+0.055X6+0.078X7-4.920 Y2=0.156X1+3.745X2+2.301X3-0.011X4+1.674X5+0.137X6-0.134X7-12.776 Y3=0.086X1+4.400X2+0.390X3+1.063X4-0.160X5+0.112X6+0.042X7-7.763 (3)判别效果评价：回顾性估计误判概率8/63=12.70% 回顾性判别效果评价原分类判别分类合计 1 2 3 1 29 0 3 32 2 1 10 2 13 3 1 1 16 18 合计 31 11 21 63 逐步判别 (1)确定变量筛选α、b:给定α=0.05，b=0.1； (2)筛选变量第一步：X1入选，F=28.028；第二步：X5入选，F=17.519；第三步：X6入选，F=15.307；第四步：X7入选，F=13.211； (3)先验概率取等概率，建立Bayes判别函数 Bayes线性判别函数系数估计值2 变量判别函数 Y1 Y2 Y3 X1 0.012 0.119 0.058 X5 3.020 1.922 0.792 X6 0.049 0.127 0.105 X7 0.111 -0.052 0.109 (常量) -3.631 -9.784 -5.749 Y1=0.012X1+3.020X5+0.049X6+0.111X7-3.631 Y2=0.119X1+1.922X5+0.127X6-0.052X7-9.784 Y3=0.058X1+0.792X5+0.105X6+0.109X7-5.749 (4)判别效果评价回顾性估计误判概率为12/63=19.05% 原分类判别分类合计 1 2 3 1 27 0 5 32 2 1 10 2 13 3 2 2 14 18 合计 30 12 21 63 21-聚类分析 21-1 1使用系统聚类法（最大相似系数法）对变量进行聚类图21-1 根据系统分类图（图21-1），若分为三类，则X6、X12、X3、X1、X10、X7、X5、X2、X8、X11为一类，X4为一类，X9为一类。 2使用系统聚类法（类平均法）对样品进行聚类图21-2 根据系统分类图（图21-2），若分为三类，则13、16、15、29、14、23、24、21、22、12、28、10、17、11、20为一类，1、6为一类，8、9、2、3、7、4、5为一类。 3使用动态聚类法对样品进行聚类根据SPSS结果，分成以下三类。类别样品编号 1 1、6、9 2 10、11、12、13、14、15、16、17、28、29、20、21、22、23、24 3 2、3、4、5、7、8 21-3 1使用系统聚类法（类平均法）对指标进行聚类图21-3 根据系统分类图（图21-3），若分为三类，则可食率、果形指数、风味、色泽、TA为一类，维生素C含量、硬度、TSS、固酸比为一类，单果重为一类。 2使用系统聚类法（最大相似系数法）对指标进行聚类图21-4 根据系统分类图（图21-4），若分为三类，则4为一类，54为一类，其余为一类。 22-主成分分析与因子分析 22-1主成分分析利用SPSS进行主成分分析，得到如下结果（表22-1至表22-）表22-1 简单统计量 Cpp icp map sbp dbp 均值 0.0517 -0.0273 0.0050 -0.0060 0.0773 标准差 0.1595 0.2366 0.2182 0.1230 0.1746 表22-2 相关矩阵的特征值成份初始特征值贡献率累积贡献率 1 3.169 63.385 63.385 2 .995 19.907 83.292 3 .501 10.011 93.303 4 .325 6.492 99.796 5 .010 .204 100.000 表22-3 相关矩阵的特征向量 Z1 Z2 Z3 Z4 Z5 Cpp .950 -.239 -.170 -.074 .077 icp .248 .966 -.072 .017 .018 map .771 .029 .635 .042 .000 sbp .878 -.064 -.209 .425 -.033 dbp .917 .023 -.138 -.370 -.053 图22-1 碎石图 1.1 主成分个数的选择从表22-2 虽然只有第一个特征值大于1，但结合累积贡献率和碎石图，取前三个主成分为宜。 1.2 主成分表达式由表22-3 根据各主成分所对应的特征向量，可得出前三个主成分为 Z1=0.950CPP+0.248ICP+0.771MAP+0.878SBP+0.917DBP Z2=-0.239CPP+0.966ICP+0.029MAP-0.064SBP+0.023DBP Z3=-0.170CPP-0.072ICP+0.635MAP-0.209SBP-0.138DBP 1.3 因子载荷阵表22-4 因子载荷矩阵 Z1 Z2 Z3 Z4 Z5 Cpp 1.691 -.425 -.302 -.132 .137 icp .247 .964 -.072 .017 .018 map .545 .021 .450 .029 .000 sbp .500 -.036 -.119 .242 -.019 dbp .093 .002 -.014 -.037 -.005 由因子载荷阵可知，第一主成分Z1与Cpp、map和sbp关系较为密切，第二主成分Z2与Cpp、icp关系较为密切，第三主成分与Cpp、map关系较为密切，dbp与三个主成分关系均一般。 22-2 因子分析约相关矩阵的特征值、因子载荷阵与表22-2、22-3相同。由表22-2虽然只有第一个特征值大于1，但其贡献率不足70%，故考虑提取前3个公因子。表22-5 因子载荷阵因子1 因子2 因子3 Cpp 0.950 -0.239 -0.170 icp 0.248 0.966 -0.072 map 0.771 0.029 0.635 sbp 0.878 -0.064 -0.209 dbp 0.917 0.023 -0.138 表22-6 主成分因子分析后的公共度 Cpp icp map sbp dbp 0.989 0.999 0.998 0.818 0.861 竖读表22-5 发现因子1在多数原始指标上都有较大的载荷，因子2在icp上有较大的载荷，因子3在map上有较大的载荷；由表22-6可知，各共性方差均超过80%，说明3个公因子已经能够较好反应各指标包括的大部分信息。 27-常用综合评价方法二、 1、TOPSIS法评价某医院5年的医疗质量 (1)原始数据年度 X1 X2 X3 X4 X5 X6 X7 1994 21584 76.7 7.3 1.01 78.3 97.5 2 1995 24372 86.3 7.4 0.8 91.1 98 2 1996 22041 81.8 7.3 0.62 91.1 97.3 3.2 1997 21115 84.5 6.9 0.6 90.2 97.7 2.9 1998 24633 90.3 6.9 0.25 95.5 97.9 3.6 （2）评价指标同趋势化 X1-X7中，X1、X2、X3、X5、X6为高优指标，X4、X7为低优指标，估取其倒数，将所有指标同趋势化，数据如下：年度 X1 X2 X3 X4 X5 X6 X7 1994 21584 76.7 0.137 0.990 78.3 97.5 0.500 1995 24372 86.3 0.135 1.250 91.1 98.0 0.500 1996 22041 81.8 0.137 1.613 91.1 97.3 0.313 1997 21115 84.5 0.145 1.667 90.2 97.7 0.345 1998 24633 90.3 0.145 4.000 95.5 97.9 0.278 （3）归一化处理进行归一化处理后得到如下矩阵: 年度 X1 X2 X3 X4 X5 X6 X7 1994 0.423 0.408 0.438 0.202 0.392 0.446 0.561 1995 0.478 0.459 0.432 0.256 0.456 0.449 0.561 1996 0.432 0.435 0.438 0.330 0.456 0.445 0.351 1997 0.414 0.450 0.463 0.341 0.451 0.447 0.387 1998 0.483 0.481 0.463 0.818 0.478 0.448 0.312 （4）确定有限方案中的最优方案及最劣方案最优方案A-=（0.483，0.481，0.463，0.818，0.478，0.449，0.561）最劣方案A+=（0.414，0.408，0.432，0.202，0.392，0.445，0.312）（5）计算评价对象各指标值与最优方案及最劣方案的距离Di+与Di-，见下表（6）计算与最优方法的接近程度Ci，见下表（7）按Ci大小将评价对象排序，见下表年度 Di+ Di- Ci 排序结果 1994 0.250 0.629 0.284 3 1995 0.275 0.564 0.328 2 1996 0.151 0.537 0.220 5 1997 0.176 0.514 0.255 4 1998 0.630 0.249 0.716 1 根据排序结果可以看出，该医院1998年医疗质量最高，1996年最差。 2、使用秩和比法（RSR）对不同职业生殖结局进行综合评价（1）对原始数据进行编秩：见下表高优指标由小到大，低优指标由大到小，同一指标数值相同者编平均秩。X1-X4均为低优指标，故由大到小编秩。（2）计算秩和比，并由大到小进行排序，见下表。职业 X1 R1 X2 R2 X3 R3 X4 R4 RSR 排序 1 12.02 4 9.02 6 17.79 4 36.11 7 0.66 3 2 2.64 8 11.44 4 12.32 7 36.90 6 0.78 1 3 2.84 7 8.52 7 17.05 5 64.33 2 0.66 3 4 13.16 2 9.87 5 16.45 6 33.44 8 0.66 3 5 7.48 6 12.47 3 21.20 3 37.13 5 0.53 4 6 13.73 1 33.79 1 48.57 1 89.16 1 0.13 6 7 7.51 5 12.88 2 21.46 2 54.08 3 0.38 5 8 12.18 3 2.71 8 6.77 8 37.24 4 0.72 2 （3）确定RSR分布 RSR ƒ ∑ƒ R Probit 0.125 1 1 1 1 12.5 3.85 0.375 1 2 2 2 25 4.33 0.531 1 3 3 3 37.5 4.67 0.656 3 6 4,5,6 5 62.5 5.32 0.719 1 7 7 7 87.5 6.15 0.781 1 8 8 8 97.5 6.96 （4）计算回归方程 RSR=-0.468+0.1917probit(F=20.119 P=0.011) （5）分档排序若分为3档，依据各分档情况下概率单位Probit值，按照回归方程推算所对应的RSR估计值对评价对象进行分档排序。等级 Px probit RSR 分档排序结果下 <P15.866 <4 <0.2988 6 中 P15.866 4 0.2988~ 1,3,4,5,7 上 P84.134 6 0.6822~ 2,8 根据上表结果，可以看出农业妇女生殖结局最差，专业技术工人及对照（行政管理人员）生殖结局最好。 26

展开阅读全文