卫生统计学习题及答案.doc

资源描述

统计学习题二、简答 1.简述描述一组资料的集中趋势和离散趋势的指标。集中趋势和离散趋势是定量资料中总体分布的两个重要指标。（1）描述集中趋势的统计指标：平均数（算术均数、几何均数和中位数）、百分位数（是一种位置参数，用于确定医学参考值范围，P50就是中位数）、众数。算术均数：适用于对称分布资料，特别是正态分布资料或近似正态分布资料；几何均数：对数正态分布资料（频率图一般呈正偏峰分布）、等比数列；中位数：适用于各种分布的资料，特别是偏峰分布资料，也可用于分布末端无确定值得资料。（2）描述离散趋势的指标：极差、四分位数间距、方差、标准差和变异系数。四分位数间距：适用于各种分布的资料，特别是偏峰分布资料，常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差：都适用于对称分布资料，特别对正态分布资料或近似正态分布资料，常把均数和标准差结合起来描述资料的集中趋势和离散趋势；变异系数：主要用于量纲不同时，或均数相差较大时变量间变异程度的比较。 2. 举例说明变异系数适用于哪两种形式的资料，作变异程度的比较？度量衡单位不同的多组资料的变异度的比较。例如，欲比较身高和体重何者变异度大，由于度量衡单位不同，不能直接用标准差来比较，而应用变异系数比较。 3. 试比较标准差和标准误的关系与区别。区别：⑴标准差S：①意义：描述个体观察值变异程度的大小。标准差小，均数对一组观察值得代表性好；②应用：与均数结合，用以描述个体观察值的分布范围，常用于医学参考值范围的估计；③与n的关系：n越大，S越趋于稳定；⑵标准误SX：①意义：描述样本均数变异程度及抽样误差的大小。标准误小，用样本均数推断总体均数的可靠性大；②应用于均数结合，用以估计总体均数可能出现的范围以及对总体均数作假设检验；③与n的关系：n越大，SX越小。联系：①都是描述变异程度的指标；②由SX=s/n-1可知，SX与S成正比。n一定时，s越大，SX越大。 4. 简述应用相对数时的注意事项。应用相对数应该注意：①防止概念混淆，避免以比代率的错误现象；②计算相对数时分母应有足够数量，如果例数较少会使相对数波动较大，应该使用绝对数；③正确的计算频率（或强度）指标的合计值。当分组的资料需要合并起来估计频率（或强度）时，应将各组频率的分子相加作为合并估计的分子，各组的分母相加作为合并估计的分母；④频率型指标的解释要紧扣总体和属性；⑤相对数间比较要具备可比性：要注意观察对象是否同质、研究方法是否相同、观察时间是否一致、观察对象内部结构是否一致、对比不同时期资料应注意客观条件是否相同；⑥正确进行相对数的统计推断：在随机抽样的情况下，从样本估计值推断总体相对数应该考虑抽样误差，因此要进行参数估计和假设检验。 5. 说明率的标准化的基本思想及注意事项。 ⑴标准化：两个率或多个率之间进行比较时，为消除内部构成不同的影响，采用统一的标准，对两组或多组资料进行校正（调整），计算得到标准化率后再做比较的方法，称为~。其目的是统一内部构成，消除混杂因素，是资料具有可比性。 ⑵应用标准化法的注意事项： ① 标准化法的应用范围很广。当某个分类变量在两组中分布不同时，这两个分类变量就成为两组频率比较的混杂因素，标准化的目的是消除混杂因素。 ② 标准化后的标准化率，已经不再反映当时当地的实际水平，只表示相互比较的资料间的相对水平。 ③ 标准化法实质是找一个标准，使两组得意在一个共同的平台上进行比较。选择不同的标准，算出的标准化率也会不同，比较的结果也未必相同，因此报告比较结果时必须说明所选用的标准和理由。④两样本标准化率是样本值，存在抽样误差。比较两样本标准化率，当样本含量较小时，还应作假设检验。 6. 简述二项分布、Poisson 分布、正态分布三者的关系。 ①二项分布与Poisson分布的关系：当n很大，发生概率π（或1-π）很小，二项分布B（n，π）近似于Poisson分布P（nπ）； ②二项分布与正态分布的关系：当n较大，π不接近0或1（特别是当nπ和n（1-π）均大于5时），二项分布B（n，π）近似于正态分布N（nπ，nπ（1-π））； ④ Poisson分布与正态分布的关系：当λ≥20时，Poisson分布渐进正态分布N（λ，λ）。 7.试述假设检验中 I 型错误与 II 型错误的意义及关系。统计推断实际情况拒绝H0，有差异不拒绝H0 ，无差异 H0成立，无差异第Ⅰ类错误（假阳性），概率=α 正确，概率=1-α H1成立，有差异正确，该概率=1-β 第Ⅱ类错误（假阴性），概率=β 关系：① α+β不一定等于1。 ②在样本容量确定的情况下，α与β不能同时增加或减少。 ③统计检验力（1-β）。 8. 试比较完全随机设计和随机区组设计资料的方差分析基本思想。设计方案 SS总的分解 v总完全随机设计 SS总=SS组间+SS组内 v总=v组间+v组内随机区组设计 SS总=SS处理+SS区组+SS误差 v总=v处理+v区组+v误差 9、参考值范围与总体均数置信区间的区别。 10. 医院拟研究某新药治疗高血压的疗效，试确定该研究设计中的三要素。实验设计的基本要素：受试对象、处理因素、实验效应；受试对象即为高血压患者，且应分实验组与对照组；处理因素至少应包括旧药治疗、新药治疗，最好设有安慰剂治疗；实验效应即疗程开始及结束时患者血压变化状况。 11.简述非参数检验的应用条件和优缺点。非参数检验适用于：①有序变量资料；②总体分布类型不明的资料；③分布不对称且无法转化为正态分布资料；④对比组间方差不齐，有无适当变换方法达到方差齐性的资料；⑤一端或两端观察值不确切的资料；⑥等级资料。优缺点：不以特定的总体分布为前提，也不针对决定总体分布的几个参数做推断，进行的是分布之间的检验。一般不直接用样本观察值做分析，统计量的计算基于原数据在整个样本中按大小所占位次。由于丢弃了观察值的具体数据，只保留了大小次序的信息，凡适合参数检验的资料，应首选参数检验。 12. 举例简要说明随机区组设计资料秩和检验的编秩方法。随机区组设计资料秩和检验的编秩方法为将每个区组的数据由小到大分别编秩，遇相同数据取平均秩次，按处理因素求秩和； T++T-=n（n+1）/2。 13. 简述相关分析的步骤。 ①进行相关分析前，应先绘制散点图。只有散点有线性趋势时，才能进行直线相关分析。②线性相关分析要求两个变量都是随机变量，而且仅适用于二元正态分布资料；③出现离群值慎用相关；④相关关系不一定是因果关系；⑤分层资料盲目合并易出现假象；⑥样本的相关系数接近零并不意味着两变量间一定无相关性，有可能是非线性的曲线关系。 14.简述回归模型的适用条件。线性回归模型的适用条件：①线性：因变量Y与自变量X称线性关系；②独立：每个个体观察值之间互相独立；③正态性：任意给定X值，对应的随机变量Y都服从正态分布；④等方差性：在一定范围内不同的X值所对应的随机变量Y的方差相等。简记为LINE。 15. 试述直线相关与直线回归的区别与联系。 ⑴ 区别： ① 单位：相关系数r没有单位，回归系数b有单位；所以，相关系数与单位无关，回归系数与单位有关； ②应用目的：说明两变量间的关联性用相关分析，说明两者依存变化的数量关系则用回归分析； ③对资料的要求不同：线性回归要求应变量Y是服从正态分布的随机变量；线性相关要求两个变量X和Y为服从双变量正态分布的随机变量。 ④取值范围：-∞<b<+∞，-1≤r≤1；⑤意义：回归系数b表示X每增（减）一个单位，Y平均改变b个单位；相关系数r说明具有线性关联的两个变量间关系的密切程度与相关方向； ⑤计算： ⑵联系： ① 方向一致: r与b的正负号一致；②假设检验等价: tr=tb；；④用回归解释相关决定系数(coefficient of determination)：回归平方和越接近总平方和，则r2越接近1，相关性越好。三、分析题(不需要具体计算，给出大概计算步骤即可) 1.某研究调查了山区、丘陵、平原和沿海地区居民饮用水中氟含量与氟骨症患病率如下表，试问：1）饮用水中氟含量与氟骨症患病率有无关系？2）有人说，如相关系数的检验结果为 P<0.05，可认为，饮水中氟含量高是导致氟骨症高发的原因之一，对吗？氟含量（mg/l） 0.48 0.64 4.00 1.48 1.60 2.86 3.21 4.71 患病率(%) 22.37 23.31 25.32 22.29 28.59 35.00 46.07 46.08 答： 1）通过相关分析确定是否有关系：由于两个变量中患病率不能确定其正态性，本研究宜采用秩相关分析；首先对资料依次进行编秩，根据公式计算秩相关系数rs，然后进行秩相关系数的假设检验，H0: ρs=0相关系数为0， H1：ρs≠0相关系数不为0；α=0.05；通过查表或t检验的方法求得统计量与P值，按检验水准作出统计推断。 2）P<0.05只能说明他们有统计学上的关联，不能推断因果关系，同时，这个结果是从局域水平上说明两个指标之间的关系，可能存在生态学谬误。 2.某医生欲比较三种镇咳药的疗效, 分析三种镇咳药延迟咳嗽的时间。结果经方差分析得下表。（1）请补充并完成方差分析；（2）解释结果。表X1 三种镇咳药延迟咳嗽时间的方差分析表变异来源 SS ν MS F P 组间变异 4994.167 组内变异总变异 31810.000 39 答：变异来源 SS ν MS F P 组间变异 4994.167 2 2497 3.445 查F界值表确定P＜0.05 组内变异 26815.833 37 724.752 总变异 31810.000 39 815 方差分析步骤：（1）建立检验假设，确定检验水准 H0：三种镇咳药疗效相同（误） H1：三种镇咳药疗效不同（误） H0：三种镇咳药延迟咳嗽的时间总体均数相同 H1：三种镇咳药延迟咳嗽的时间总体均数不全相同 α=0.05 （2）计算检验统计量根据公式F=MS组间/MS组内，求得F=3.445 (3)确定P值，作出推断根据ν1=ν组间=2，ν2=ν组内=37，查F界值表，可知P＜0.05，按α=0.05水准，差异具有统计学意义，可认为三种镇咳药延迟咳嗽的时间总体均数不全相同。 3. 测得老年性慢性支气管炎病人与健康人的尿中 17 酮类固醇排出量见下表, 比较两组均数差异是否有统计学意义并解释结果。表X2 老年慢支病人与健康人尿中 17 酮类固醇排出量(mg/24h) 病人组 2.90 5.41 5.48 4.60 4.03 5.10 5.92 4.97 4.24 4.36 2.72 2.37 2.09 7.10 健康组 5.18 8.49 3.14 6.46 3.72 6.64 4.01 5.60 4.57 7.71 4.99 答：该资料宜采用两独立样本t检验进行分析：（1）建立检验假设，确定检验水准 H0：μ1=μ2，即慢性支气管炎病人组与健康人组的尿中 17 酮类固醇排出量总体均数相同。 H1：μ1≠μ2，慢性支气管炎病人组与健康人组的尿中 17 酮类固醇排出量总体均数不同。 α=0.05 （2）计算检验统计量根据两组资料方差齐性检验确定用t检验或t’检验,根据公式求得统计量t（t’） (3)确定P值，作出推断根据ν=n1+n2-2，查t界值表，判断P值大小 ① 若P＞0.05，接受H0，可认为两组17 酮类固醇排出量总体均数无差异 ② 若P＜0.05，拒绝H0，接受H1认为两组类固醇排出量总体均数有差异。 4. 在某地卫生服务调查中随机抽样调查了 400 户家庭，他们的平均年医疗费用支出是 947元，标准差是 291 元。设家庭医疗费用近似正态分布，请估计这些家庭的 95%年医疗费用支出范围，并估计当地家庭年医疗费用平均支出。答：假设该地平均年医疗费用支出服从t分布，由于n=400，可认为t分布近似服从标准正态分布。 1）这些家庭的 95%年医疗费用支出范围即按照95%的标准计算这些家庭年医疗费用支出的置信区间，根据公式：均数±标准差*Z0.05/n-1求得95%置信区间为： 947±291*1.96/400-1得出这些家庭的 95%年医疗费用支出范围为（918，976）。 2) 估计当地家庭年医疗费用平均支出即提供当地家庭大多数家庭年医疗费用支出，即提供一个参考值范围，根据公式：均数±标准差*Z0.05求得参考值范围为：947±291*1.96，（377-1517）。 5、某牧区观察慢性布鲁氏病患者植物血凝素(PHA)皮肤试验反应，问活动型与稳定型布鲁氏病患者PHA阳性反应率有无差别 (写出详细步骤)。分型阳性阴性合计活动型 1 14 15 稳定型 3 7 10 提示：四格表周边合计不变的情况下，不同组合的确切概率如下。 (1) (2) (3) (4) (5) 0 15 1 14 2 13 3 12 4 11 4 6 3 7 2 8 1 9 0 10 0.0166 0.1423 0.3735 0.3597 0.1079 答：（1）建立检验假设，确定检验水准 H0：π1=π2，活动型与稳定型布鲁氏病患者PHA阳性反应率无差别 H1：π1≠π2，活动型与稳定型布鲁氏病患者PHA阳性反应率有差别 α=0.05 （2）计算检验统计量由于有格子出现1≤T≤5，因此用确切概率法计算P值。 (3)确定P值，作出推断由提示中表（2）可知P=0.14＞0.05，不拒绝H0，认为活动型与稳定型布鲁氏病患者PHA阳性反应率无差别。 6、观察局部温热治疗移植肿瘤小鼠的疗效，以小鼠的生存天数作为观察指标，结果如下。问：局部温热治疗对移植肿瘤小鼠的生存天数是否有影响？实验组(g=1) 对照组(g=2) 生存日数秩次生存日数秩次 10 2 12 3 15 4 15 5 16 6 17 7 18 8 20 9 23 10 >90 11 12 13 (1) 对该资料进行编秩，以便进行统计分析。 (2) 两组的理论秩和分别为多少？ (3) 作出统计推断。答：（3）（1）建立检验假设，确定检验水准 H0:两组温热治疗时小鼠的生存天数总体分布位置相同； H1: 两组温热治疗时小鼠的生存天数总体分布位置不相同； α=0.05；（2）计算检验统计量根据公式计算统计量T值 (3)确定P值，作出推断通过查T界值表，确定P值 ① 若P＞0.05，接受H0，可认为两组温热治疗时小鼠的生存天数总体分布位置相同。 ② 若P＜0.05，拒绝H0，接受H1两组温热治疗时小鼠的生存天数总体分布位置不相同。四、论述题 1. 估计样本例数的意义何在？需要确定哪些前提条件？答：样本含量估计充分反映了"重复"的基本原则，过小过大都有其弊端。样本含量过小，所得指标不稳定，用以推断总体的精密度和准确度差；检验的功效低，应有的差别不能显示出来，难以获得正确的研究结果，结论也缺乏充分的依据。样本含量过大，会增加实际工作的困难，浪费人力、物力和时间。可能引入更多的混杂因素，从而影响数据的质量。实验所需的样本含量取决于4个因素：（1）假设检验的第Ⅰ类错误的概率α （2）假设检验的第Ⅱ类错误的概率β（3）容许误差δ （4）总体标准差σ或总体概率π。单纯的课本内容，并不能满足学生的需要，通过补充，达到内容的完善教育之通病是教用脑的人不用手，不教用手的人用脑，所以一无所能。教育革命的对策是手脑联盟，结果是手与脑的力量都可以大到不可思议。

展开阅读全文