统计作业参考(非标准答案,仅供参考).doc

资源描述

均数与标准差 1. 例某省的高考分数经过标准化以后，最低分为100分，最高分为900分，平均分为500分，标准差为100分。用计算机模拟从该总体中随机抽取20名考生的分数见下表。试进行统计描述。考生号分数 1 456 2 594 3 611 4 336 5 298 6 394 7 464 8 336 9 513 10 553 11 541 12 478 13 306 14 516 15 456 16 452 17 431 18 531 19 435 20 552 答：平均数=462.65，标准差=92.4 样本含量=20 平均数=462.6500 标准差=92.4083 最小值=298.0000 下四分位数=412.5000 中位数=460.0000 上四分位数=536.0000 最大值=611.0000 统计描述 2. 例从幼儿园大班随机抽取12名6周岁女童，测得身高（cm）见下表。试进行统计描述。编号身高（cm） 1 125.2 2 135.3 3 122.9 4 131.6 5 121.1 6 141.5 7 132.1 8 112.8 9 104.6 10 131.2 11 125.9 12 126.1 答：该样本平均数=125.8583 标准差=9.9480 统计描述: 样本含量=12 平均数=125.8583 标准差=9.9480 最小值=104.6000 下四分位数=122.0000 中位数=126.0000 上四分位数=131.8500 最大值=141.5000 总体均数估计 3. 例某县1998年抽样调查了500户农民家庭的年化纤布消费量，得到均数为3.55米，标准差为1.03米。试估计该县1998年农民家庭年化纤布消费量的总体均数。答：该县1998年农民家庭年化纤布消费量总体均数的双侧可信区间为：（3.46,3.64）已知：样本含量=500 , 样本均数=3.5500 , 样本标准差=1.0300 总体均数的95.0000%双侧可信区间为：按t分布的原理估计：当α/2=0.025000时，t=1.96472000 把样本标准差1.0300代入公式，得：下限 3.459499 上限 3.640501 按正态分布的原理估计：当α/2=0.025000时，u=1.95995000 由于总体标准差未知，故用样本标准差1.0300代替总体标准差，得：下限 3.459719 上限 3.640281 总体率估计 4. 例为了解某地新生儿畸形的发生率，某单位调查了该地3009名活产新生儿，诊断出畸形者29名，占0.96%。试估计该地活产新生儿的畸形率。答：该地活产新生儿的畸形率的双侧可信区间为：（0.6%，1.3%）当总例数n=3009，阳性数X=29时，总体率的95.00%双侧可信区间为：正态近似法下限： 0.00614700 上限： 0.01312850 样本均数与总体均数的比较 5. 例据大量调查知，健康成年男子脉搏的均数为72次/分，某医生在山区随机调查了25名健康成年男子，其脉搏均数为75.5次/分，标准差为6.5次/分，能否认为该山区成年男子的脉搏高于一般人群？答：该山区成年男子的脉搏高于一般人群。样本均数与总体均数的比较 H0:μ=72.0000 H1:μ>72.0000 α=0.0500（单侧） u检验: u=2.6923 p=0.003548 统计结论：经检验，得P=0.0035,按α=0.0500拒绝Ho。 t检验: t=2.6923 p=0.006365 统计结论：经检验，得P=0.0064,按α=0.0500拒绝Ho。配对设计的两样本均数的比较 6. 例欲研究某药物对血红蛋白含量是否有影响，观察了9例患者治疗前后血红蛋白的变化，数据如下表。试问，该药物治疗前后血红蛋白含量有无变化？编号 1 2 3 4 5 6 7 8 9 治疗前 122 113 141 123 105 124 144 115 117 治疗后 145 128 156 122 121 105 123 101 127 答：该药物治疗前后血红蛋白含量无变化原始资料统计描述：组别例数平均数标准差标准误第一组 9 122.6667 12.6984 4.2328 第二组 9 125.3333 17.2409 5.7470 配对资料差值的正态性检验：偏度检验: u=0.6181 p=0.5365 峰度检验: u=-1.2144 p=0.2246 结论:按α=0.0500水准,不拒绝H0，可认为该组资料的差值服从正态分布! 配对资料的t检验结果： H0:差值的总体均数等于0 H1:差值的总体均数不等于0 α=0.0500（双侧）对子数差值均数差值标准差 t值 P 9 2.6667 16.8449 0.4749 0.6475 结论:经t检验,得P=0.6475,按α=0.0500水准不拒绝H0,故尚不能认为两组的结果有差别. 两个样本均数比较（成组设计） 7. 例欲研究某药物对血红蛋白含量是否有影响，把18例患者随机分为实验组（用该药物治疗）和对照组（用对血红蛋白无影响的标准药物治疗），每组各9例，治疗后两组患者血红蛋白含量如下表。试问，该药物是否影响血红蛋白含量？实验组 122 113 141 123 105 124 144 115 117 对照组 148 129 156 122 121 105 123 100 126 答：该药物不影响血红蛋白含量原始数据的统计描述：组别例数平均数标准差标准误 1 9 122.6667 12.6984 4.2328 2 9 125.5556 17.8823 5.9608 参数统计应用条件检查： 1) 正态性检验(矩法): 第 1组资料: 偏度检验: u= 0.9657 p=0.3342 峰度检验: u= -0.0959 p=0.9236 按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 第 2组资料: 偏度检验: u= 0.5500 p=0.5823 峰度检验: u= -0.0496 p=0.9604 按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 2) 方差齐性检验： F=1.9831 P=0.3524 按α=0.0500检验水准，由于P>α，可认为该资料方差齐。参数统计结果：两样本均数比较的假设检验(t检验) Ho:两个总体均数相等,即 μ1＝μ2 H1:两个总体均数不等,即 μ1≠μ2 α=0.0500（双侧） t=0.3952,P=0.6979 结论：按α=0.0500水准不拒绝Ho,故尚不能认为两个总体均数不等. 两样本均数比较的假设检验(T检验,u检验) Ho:两个总体均数相等,即 μ1＝μ2 H1:两个总体均数不等,即 μ1≠μ2 α=0.0500（双侧） u=0.3952,P=0.6927 结论：按α=0.0500水准不拒绝Ho,故尚不能认为两个总体均数不等. 多个样本均数比较（成组设计） 8. 例欲研究药物A、B对血红蛋白含量是否有影响，把15例患者随机分为A药组（用A药物治疗）、B药组（用B药物治疗）和对照组（用安慰剂治疗），1每组各5例，治疗后各组患者血红蛋白含量如下表。试问，药物A、B是否影响血红蛋白含量？ A药组 122 113 141 123 105 B药组 144 126 156 122 121 对照组 101 111 113 100 101 答：药物A不影响血红蛋白含量，B影响血红蛋白含量原始数据的统计描述：组别例数平均数标准差标准误 1 5 120.8000 13.4611 6.0200 2 5 133.8000 15.4984 6.9311 3 5 105.2000 6.2610 2.8000 参数统计应用条件检查： 1) 正态性检验(矩法): 第 1组资料: 偏度检验: u= 0.7178 p=0.4729 峰度检验: u= 0.4266 p=0.6697 按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 第 2组资料: 偏度检验: u= 0.9548 p=0.3397 峰度检验: u= -0.7107 p=0.4773 按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 第 3组资料: 偏度检验: u= 0.7083 p=0.4787 峰度检验: u= -1.4837 p=0.1379 按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 2) 方差齐性检验：卡方值=2.7072, P=0.2583 按α=0.0500水准，可认为该资料方差齐。参数统计结果：方差分析: Ho:各个总体均数相等 H1:各个总体均数不相等或不全相等 α=0.0500 方差分析结果 ============================================================ 变异来源 SS ν MS F P ------------------------------------------------------------ 总 3892.9333 14 组间 2050.5333 2 1025.2667 6.68 0.0112 组内 1842.4000 12 153.5333 ============================================================ 结论:经过方差分析,得P=0.0112,按α=0.0500水准拒绝Ho,接受H1,故可认为各组总体均数不相等! 3个样本均数两两比较的q检验(Newman-Keuls法) ================================================================== 组别两均数之差组数 Q值 P值 ------------------------------------------------------------------ 第 1与第 2 13.0000 2 2.3460 >0.05 第 1与第 3 15.6000 2 2.8152 >0.05 第 2与第 3 28.6000 3 5.1612 <0.05 ================================================================== 配伍组设计多个样本均数比较 9. 例为研究药物A、B对血红蛋白含量是否有影响，把15例患者根据性别、年龄、文化程度等因素分为5个区组，即每个区组的3个人性别相同、年龄和文化程度相近，再把每个区组的3个人随机分配到A药组（用A药物治疗）、B药组（用B药物治疗）和对照组（用安慰剂治疗）中。治疗后各组患者血红蛋白含量如下表。试问，药物A、B是否影响血红蛋白含量？区组号 1 2 3 4 5 A药组 122 113 141 123 105 B药组 144 126 156 122 121 对照组 103 110 115 100 101 答：药物A、B都可影响血红蛋白含量原始资料统计描述: 处理组号平均数标准差 1 120.8000 13.4611 2 133.8000 15.4984 3 105.8000 6.4576 配伍组号平均数标准差 1 123.0000 20.5183 2 116.3333 8.5049 3 137.3333 20.7445 4 115.0000 13.0000 5 109.0000 10.5830 方差分析: 1.应用条件检查(各个处理组间): 1) 正态性检验(矩法): 第 1组资料: 偏度检验: u= 0.7178 p=0.4729 峰度检验: u= 0.4266 p=0.6697 按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 第 2组资料: 偏度检验: u= 0.9548 p=0.3397 峰度检验: u= -0.7107 p=0.4773 按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 第 3组资料: 偏度检验: u= 0.8901 p=0.3734 峰度检验: u= -0.6936 p=0.4879 按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 2) 方差齐性检验：卡方值=2.5431, P=0.2804 按α=0.0500水准，可认为该资料方差齐。 2.检验结果: 处理组间： Ho:各个处理组的总体均数相等 H1:各个处理组的总体均数不相等或不全相等 α=0.0500 配伍组（区组）间： Ho:各个配伍组的总体均数相等 H1:各个配伍组的总体均数不相等或不全相等 α=0.0500 方差分析结果 ============================================================ 变异来源 SS ν MS F P ------------------------------------------------------------ 总 3815.7333 14 处理组 1963.3333 2 981.6667 17.61 0.0012 配伍组 1406.4000 4 351.6000 6.31 0.0136 误差 446.0000 8 55.7500 ============================================================ 结论1:经过方差分析,得P=0.0012,按α=0.0500水准拒绝Ho,接受H1,故可认为各处理组总体均数不相等! 结论2:经过方差分析,得P=0.0136,按α=0.0500水准拒绝Ho,接受H1,故可认为各配伍组总体均数不相等! 3个样本均数两两比较的q检验(Newman-Keuls法) ================================================================== 组别两均数之差组数 Q值 P值 ------------------------------------------------------------------ 第 1与第 2 13.0000 2 3.8932 <0.05 第 1与第 3 15.0000 2 4.4921 <0.05 第 2与第 3 28.0000 3 8.3853 <0.01 ================================================================== 样本率与总体率的比较 10. 例据大量调查知，一般溃疡病患者中有20%发生胃出血症状，某医生观察245例70岁以上溃疡病人，其中75例发生出血症状，问老年患者与一般患者胃出血发生率是否不同？答：年患者与一般患者胃出血发生率不同样本率与总体率比较的假设检验:正态近似法（不校正） Ho:π=0.2000 H1:π≠0.2000 α=0.0500（双侧）已知：样本阳性数X为75,样本含量n为 245。 u=4.1527 P(Left) =0.99998347 P(Right) =0.00001653 P(2-Tailed)=0.00003306 说明： P(Left) 左单侧：表示从0到X的累计概率 P(Right) 右单侧：表示从X到n的累计概率结论：经检验，得P=0.0000,按α=0.0500水准拒绝H0，可认为π≠0.2000 完全随机设计两个样本率的比较（四格表资料） 11. 例为研究甲乙两种药物对胃溃疡的治疗效果，选择了128名病例，随机分为两组，治疗结果结果如表1。问甲乙两种药物对胃溃疡的疗效有无差别？表1 甲乙两种药物对胃溃疡的疗效组别治疗结果合计痊愈无效 A药物 60 4 64 B药物 48 16 64 合计 108 20 128 答：甲乙两种药物对胃溃疡的疗效有差别，甲疗效优于乙实际频数(A) 理论频数(T) a 60 54.0000 b 4 10.0000 c 48 54.0000 d 16 10.0000 提示：关于四格表资料各种检验方法的应用条件，尚有不同意见。一般认为： 1 如果总例数<40或最小的理论频数<1，应选择“确切概率法”； 2 如果总例数不小于40且最小的理论频数不小于1，但最小的理论频数<5，应选择“校正法”； 3 如果总例数不小于40且最小的理论频数不小于5，应选择“非校正法”。本例属于第 3 种情况。两个样本率比较的假设检验 Ho:两组总体率相等，即π1=π2， H1:两组总体率不等，即π1≠π2。 α=0.0500 卡方值（Pearson未校正法）=8.5333,P=0.0035 统计结论：经检验，得P=0.0035,按α=0.0500拒绝Ho。多个样本率的比较 12. 例为研究某药物治疗胃溃疡的疗效，把105名患者随机分为三组，得资料如表1，问不同剂量的疗效是否相同？表1 三种不同剂量的治疗结果剂量有效无效合计小剂量 19 11 30 中剂量 41 9 50 大剂量 24 1 25 合计 82 23 105 答：小剂量和大剂量疗效不同原始数据如下,请检查核对是否有误: 行号列号实际频数(A) 理论频数(T) 1 1 19 24.0000 1 2 11 6.0000 2 1 41 40.0000 2 2 9 10.0000 3 1 24 20.0000 3 2 1 5.0000 R×C表计数资料假设检验: Ho: 各总体率相等 H1: 各总体率不等或不全相等 α=0.0500 卡方值=9.3333 , 自由度=2 , P= 0.0094 统计结论:经卡方检验,得P=0.0094,按α=0.0500水准拒绝Ho。多个样本率之间两两比较 ================================================ 样本组别(行) 样本率之差(%) 卡方值 P ------------------------------------------------ 1- 2 -18.67 3.4844 0.0619 1- 3 -32.67 8.5307 0.0035 2- 3 -14.00 2.8269 0.0927 ================================================ 注意：为了克服累积I类错误，需对检验水准进行调整。如果各组之间全部需要做两两比较，则需要比较3次，每次检验所用的检验水准α′=α/比较次数=0.0500/3=0.0167 单向有序分类资料的假设检验 13. 例某研究得资料如表1，问2种药物的疗效是否相同？表1 2种药物疗效的观察结果药物疗效合计治愈显效好转无效 A药物 26 23 10 1 60 B药物 12 15 21 12 60 合计 33 37 31 13 120 答：2种药物的疗效不同 Ridit分析: H0:两组总体平均Ridit相等. H1:两组总体平均Ridit不相等. α=0.0500（双侧）组别例数平均Ridit值标准误 95%可信区间下限 95%可信区间上限 1 60 0.3935 0.0359 0.3233 0.4638 2 60 0.6065 0.0359 0.5362 0.6767 u=4.1988,P=0.0000 结论:经Ridit分析,得P=0.0000,按α=0.0500水准拒绝H0,接受H1,可认为两组总体平均Ridit不相等. 成组设计两样本比较的秩和检验(Wilcoxon两样本比较法) Ho:两个总体分布相同 H1:两个总体分布不相同 α=0.0500（双侧）组别例数平均秩和 1 60 47.7250 2 60 73.2750 检验统计量T= 2863.5000 u=-4.0231,P=0.0001（正态近似法C=1） u=-4.1988,P=0.0000（正态近似法C=0.9180）结论: 经秩和检验,得P=0.0000,按α=0.0500水准拒绝Ho,故可认为两组的总体分布不同. 14. 例某研究得资料如表2，问病型与患者痰液中SB的含量是否有关系？表2 病型与患者痰液中SB含量的关系病型 SB含量合计 - + ++ +++ A型 12 22 34 22 90 B型 11 12 32 2 57 C型 10 34 23 1 68 D型 5 2 23 3 33 合计 38 70 112 28 248 答：B型与SB含量无关，A、C、D有关 Ridit分析: H0:各组总体平均Ridit相等. H1:各组总体平均Ridit不等或不全相等. α=0.0500 组别例数平均Ridit值标准误 95%可信区间下限 95%可信区间上限 1 90 0.5626 0.0286 0.5066 0.6187 2 57 0.4811 0.0359 0.4107 0.5516 3 68 0.3960 0.0329 0.3315 0.4605 4 33 0.5761 0.0472 0.4835 0.6687 卡方值=15.6030, 自由度=3, P=0.0014 结论:经Ridit分析,得P=0.0014,按α=0.0500水准拒绝H0,接受H1,可认为各组总体平均Ridit不等或不全相等. 成组设计多个样本比较的秩和检验(Kruskal-Wallis法) Ho:任意两个总体分布相同 H1:任意两个总体分布不相同或不全相同 α=0.0500 组别例数平均秩和 1 90 140.0333 2 57 119.8158 3 68 98.7059 4 33 143.3788 H=15.5404,自由度= 3, P=0.0014 Hc=17.6518,自由度= 3, P=0.0005 结论: 经秩和检验,得P=0.0005,按α=0.0500水准拒绝Ho,故可认为各组的位置不同或不全不同. 4个样本间两两比较的秩和检验(Nemenyi法) ============================================================= 组别两组平均秩和之差界值 P ------------------------------------------------------------- 第 1与第 2组 20.2175 31.8513 >0.0500 第 1与第 3组 41.3275 30.2329 <0.0500 第 1与第 4组 3.3455 38.2914 >0.0500 第 2与第 3组 21.1099 33.7901 >0.0500 第 2与第 4组 23.5630 41.1579 >0.0500 第 3与第 4组 44.6729 39.9187 <0.0500 相关分析 15. 例为了解城市儿童年龄与身高的关系，在某小学随机抽取8名6—12岁儿童，测得身高如下表。问儿童身高与年龄之间是否相关？编号 1 2 3 4 5 6 7 8 年龄（岁） 6.2 7.0 10.2 11.0 12.1 9.5 8.2 6.5 身高（cm） 135 139 143 150 155 141 140 137 答：儿童身高与年龄之间有直线相关关系统计描述变量例数平均数标准差标准误 X 8 8.8375 2.1980 0.7771 Y 8 142.5000 6.7612 2.3905 正态性检验(使用条件检验): 自变量X 偏度检验: u= 0.2403 p=0.8101 峰度检验: u= -1.0412 p=0.2978 结论：按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 因变量Y 偏度检验: u= 1.4134 p=0.1575 峰度检验: u= 0.2199 p=0.8260 结论：按α=0.0500水准不拒绝H0，可认为该组资料服从正态分布! 直线相关分析: [注意:该方法仅适用于当两变量在数值上呈直线关系时。请做散点图判断！] 相关系数(r)=0.93579817 相关系数的假设检验: Ho:总体相关系数等于0，即ρ=0 H1:总体相关系数不等于0，即ρ≠0 α=0.0500（双侧） t=6.5021, P=0.0006 结论:经假设检验,得P=0.0006,按α=0.0500水准拒绝Ho,接受H1,故可认为自变量和因变量之间有直线关系. 根据您的要求,进行等级相关分析: Spearman等级相关: Ho：总体等级相关系数等于0 H1：总体等级相关系数不等于0 α=0.0500（双侧）对子数=8 差值平方和=0.0000 Tx=0.0000 Ty=0.0000 等级相关系数rs =1.0000,P<0.01 结论：经检验，按α=0.0500水准拒绝Ho. 直线回归分析: 截距(a)=117.06054334 回归系数(b)=2.87858067, 回归系数的标准误=0.44271510 回归系数的假设检验: Ho:总体回归系数等于0，即β=0 H1:总体回归系数不等于0，即β≠0 α=0.0500（双侧） t=6.5021, P=0.0006 结论:经假设检验,得P=0.0006,按α=0.0500水准拒绝Ho,接受H1,故可认为自变量和因变量之间有直线关系. 回归分析统计软件进行了回归分析。还计算出了相关系数，还对相关系数进行了假设检验。本例把“年龄”当成X，把“身高”当成Y。各对数据千万不要搞混淆！！ 16. 例为了解城市儿童年龄与身高的关系，在某小

展开阅读全文