收藏 分销(赏)

临床医学总体均数的估计与假设检验.pptx

上传人:可**** 文档编号:964726 上传时间:2024-04-09 格式:PPTX 页数:177 大小:1.08MB
下载 相关 举报
临床医学总体均数的估计与假设检验.pptx_第1页
第1页 / 共177页
临床医学总体均数的估计与假设检验.pptx_第2页
第2页 / 共177页
点击查看更多>>
资源描述
第四章第四章总体均数的估计与假设检验总体均数的估计与假设检验第一节第一节 均数的抽样误差与标准误均数的抽样误差与标准误 一、抽样误差与标准误一、抽样误差与标准误 概概念念:抽抽样样研研究究的的目目的的就就是是要要用用样样本本信信息息来来推推断断总总体体特特征征。由由于于存存在在变变异异,抽抽样样后后各各个个样样本本均均数数往往往往不不等等于于总总体体均均数数,且且各各样样本本均均数数间间也也不不一一定定相相等等。这这种种由由抽抽样样造造成成的的样样本本均均数数与与总总体体均均数数的的差差异异或或各各样样本本均均数数之之间间的的差差异异称称为为抽抽样样误误差差,抽抽样样误误差是不可避免的。差是不可避免的。抽抽 样样总体总体样本样本统计量统计量 参参 数数 统计推断统计推断 若某市某年若某市某年14岁健康女生身高资料服从岁健康女生身高资料服从=155.4cm,=5.30cm的的正正态态分分布布。从从该该正正态态分分布布N(155.4,5.32)的的总总体体中中随随机机抽抽样样,每每次次样样本本含含量量n=10,共共抽抽取取100次次,得得到到100个个样样本本的的样样本本均均数数和和标标准准差差,频频数数分分布布见表。见表。组组 段段 频频 数数 151 1152 6153 15 154 19 155 27 156 16 157 8 158 5 159 3 合计合计100100个样本均数的分布个样本均数的分布 样样本本均均数数的的频频数数分分布布图图,提提示示样样本本均均数数的抽样分布具有如下特点的抽样分布具有如下特点:1.样本均数未必等于总体均数样本均数未必等于总体均数;2.各样本均数间存在差异各样本均数间存在差异;3.样本均数围绕总体均数样本均数围绕总体均数,呈正态分布呈正态分布;4.样样本本均均数数的的变变异异范范围围较较原原变变量量的的变变异异范围大为缩小。范围大为缩小。(100个样本均数的均数为个样本均数的均数为155.52cm,标准差为标准差为1.63cm)理论可以证明理论可以证明:若从正态总体若从正态总体 中中,反复多次随机抽取样本含量固定为反复多次随机抽取样本含量固定为n 的样本的样本,这些样本均数这些样本均数 也服从正态分也服从正态分 布布,即即 的总体均数仍为的总体均数仍为 ,样本均数样本均数 的标准差为的标准差为 。1.从正态总体中重复随机抽取样本含量为从正态总体中重复随机抽取样本含量为n的样本的样本,样本均数也服从正态分布;样本均数也服从正态分布;2.从偏态总体中重复随机抽样从偏态总体中重复随机抽样,当样本含当样本含量量n足够大时足够大时(n 50),样本均数也近似服样本均数也近似服从正态分布;从正态分布;3.样本均数的总体均数样本均数的总体均数 等于原总体均等于原总体均数数 ;数理统计推论与中心极限定理数理统计推论与中心极限定理 抽样分布抽样分布 抽样分布示意图抽样分布示意图 抽样分布抽样分布 抽样分布示意图抽样分布示意图 4.样本均数的样本均数的标准差比原个体值的标准差标准差比原个体值的标准差要小要小,标准差为:标准差为:(理论值)(理论值)(估计值)(估计值)标准误的意义(标准误的意义(SE):即样本均数的标准差即样本均数的标准差,反映样本均数间反映样本均数间 的离散程度的离散程度,也反映样本均数与总体均数也反映样本均数与总体均数 间的差异间的差异,说明均数抽样误差的大小。标说明均数抽样误差的大小。标 准误越大准误越大,说明抽样误差越大说明抽样误差越大,用样本统计用样本统计 量作为总体参数估计值的可靠程度越差。量作为总体参数估计值的可靠程度越差。二、标准误的用途二、标准误的用途 1.表示抽样误差的大小表示抽样误差的大小:标准误越小说明标准误越小说明 抽样误差越小抽样误差越小,样本均数与总体均数越样本均数与总体均数越 接近接近,用样本均数推论总体均数的可靠用样本均数推论总体均数的可靠 性越大性越大;2.用于估计总体均数的可信区间用于估计总体均数的可信区间;3.用于均数的假设检验。用于均数的假设检验。例例:为了解某地为了解某地1岁婴儿的血红蛋白浓度岁婴儿的血红蛋白浓度,从该地随机抽取从该地随机抽取36名名1岁婴儿岁婴儿,算得血红蛋白的平均浓度为算得血红蛋白的平均浓度为121.3g/L,标准标准差为差为8.2g/L。计算该次抽样的标准误。计算该次抽样的标准误。(g/L)大量研究资料显示大量研究资料显示,当地当地1岁婴儿血红蛋白的平均浓度为岁婴儿血红蛋白的平均浓度为123.7g/L,标准差为标准差为11.9g/L。计算该次抽样的标准误。计算该次抽样的标准误。(g/L)三、标准差与标准误的区别和联系三、标准差与标准误的区别和联系 区别区别:1.意义意义:标准差标准差:描述观察值之间的离散程度描述观察值之间的离散程度,标准标准差越小差越小,表示观察值围绕均数的分布比较集表示观察值围绕均数的分布比较集中中,说明均数的代表性较好说明均数的代表性较好;标准误标准误:描述样本均数的离散程度描述样本均数的离散程度,表示表示抽样误差的大小抽样误差的大小,标准误小标准误小,表示抽样误差小表示抽样误差小,样本均数与总体均数较接近样本均数与总体均数较接近,用样本均数推用样本均数推断总体均数的可靠性大。断总体均数的可靠性大。2.表示方法表示方法:标准差标准差:标准误标准误:3.计算公式计算公式:标准差标准差:标准误标准误:4.用途用途:标准差标准差:用于估计变量值的分布范围用于估计变量值的分布范围,制定制定医学参考值范围。医学参考值范围。标准误标准误:用于估计总体均数的可信区间、用于估计总体均数的可信区间、假设检验。假设检验。5.与样本含量的关系与样本含量的关系:标准差标准差:随着样本含量的增多随着样本含量的增多,逐渐趋于稳逐渐趋于稳定定(一般一般200例以上例以上)。标准误标准误:随着样本含量的增多随着样本含量的增多,逐渐减少逐渐减少.若样本含量趋近于总体观察单位的数量若样本含量趋近于总体观察单位的数量,则标准误趋近于则标准误趋近于0,抽样误差几乎消失。抽样误差几乎消失。联系联系:1.两者均是表示变异程度大小的指标两者均是表示变异程度大小的指标:说明观察值之间的变异程度用标准差说明观察值之间的变异程度用标准差,说明统计量之间的变异程度用标准误。说明统计量之间的变异程度用标准误。2.标准误与标准差的大小成正比标准误与标准差的大小成正比,当样本当样本含量不变时含量不变时,标准差越大标准误也越大。标准差越大标准误也越大。第二节第二节 t 分布分布一、一、t 分布的概念分布的概念随机变量XN(m,s2)标准正态分布uN(0,12)s0m1 N(m,s2/n)标准正态分布uN(0,12)m01 N(m,s2/n)标准正态分布uN(0,12)m01 在实际工作中在实际工作中,通常未知通常未知,常用常用S作作为为 的的估估计计值值,但但 已已不不再再服服从标准正态分布从标准正态分布,而是服从自由度为而是服从自由度为=n-1的的 t 分布。分布。二、二、t 分布的图形与特征分布的图形与特征 不同自由度下的不同自由度下的 t 分布图分布图 1.t 分布的图形分布的图形 t 分布曲线是一簇曲线分布曲线是一簇曲线。当自由度。当自由度不同不同时时,曲线的形状不同。当曲线的形状不同。当时时,t分布趋近分布趋近于标准正态分布于标准正态分布,但当自由度较小时但当自由度较小时,t分布分布与标准正态分布的差异较大。与标准正态分布的差异较大。t分布曲线的分布曲线的形状随自由度的大小而变化。形状随自由度的大小而变化。2.t 分布的特征分布的特征 .单峰分布单峰分布,以以0为中心为中心,左右对称左右对称;.自由度自由度 越小越小,则则t 值越分散值越分散,t分布的分布的峰部越矮而尾部翘得越高峰部越矮而尾部翘得越高;因此因此,t分布曲线分布曲线下面积为下面积为95%或或99%的界值不是一个常量的界值不是一个常量,而是随自由度大小而变化的而是随自由度大小而变化的;.当当时时,t分布逼近标准分布逼近标准正态分布正态分布,故标准正态分布是故标准正态分布是t分布的极限分分布的极限分布布(特例特例)。.t分布的唯一参数是自由度。分布的唯一参数是自由度。t 分布界值表分布界值表自由自由度度概率,概率,P单侧单侧0.250.200.100.050.0250.010.0050.00250.0010.0005双侧双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657401000.6770.8451.2901.6601.9842.3642.6262.8713.1743.3902005000.6750.8421.2831.6481.9652.3342.5862.8203.1373.31010000.6750.8421.2821.6461.9622.3302.5812.8133.0983.3000.67450.84161.28161.64491.96002.32632.57582.80703.09023.2905-t 0 tt 分布界值表分布界值表自由自由度度概率,概率,P单侧单侧0.250.200.100.050.0250.010.0050.00250.0010.0005双侧双侧0.500.400.200.100.050.020.010.0050.0020.00111.0001.3763.0786.31412.70631.82163.657401000.6770.8451.2901.6601.9842.3642.6262.8713.1743.3902005000.6750.8421.2831.6481.9652.3342.5862.8203.1373.31010000.6750.8421.2821.6461.9622.3302.5812.8133.0983.3000.67450.84161.28161.64491.96002.32632.57582.80703.09023.2905表示方法:单尾概率表示方法:单尾概率t值:值:t,双双尾概率尾概率t值:值:t/2,3.t界值表的特点界值表的特点:(1).在同一自由度下在同一自由度下,|t|值越大值越大,概率概率P值越值越 小小;(2).在相同在相同|t|值时值时,双侧概率双侧概率P值为单侧概值为单侧概 率率P值的两倍值的两倍;(3).概率概率P值一定的情况下值一定的情况下,自由度越大自由度越大,|t|值越小值越小;自由度越小自由度越小,|t|值越大值越大;(4).当当100时时,双侧双侧t的界值接近标的界值接近标准正态分布的准正态分布的u值值,=时时,t 值值=u值。值。(5).表示方法表示方法:单尾概率单尾概率t值值:t,双双尾概率尾概率t值值:t/2,。三、三、t分布的应用分布的应用 1.总体均数的区间估计总体均数的区间估计;2.t 检验。检验。第三节第三节 总体均数的估计总体均数的估计一、可信区间一、可信区间(CI)的概念的概念 1.点值估计点值估计:用相应样本统计量直接作为用相应样本统计量直接作为 其总体参数的估计值。其总体参数的估计值。优点优点:估计方法简单易行估计方法简单易行;缺点缺点:没有考虑抽样误差的大小没有考虑抽样误差的大小;缺乏概率的保证。缺乏概率的保证。2.区间估计区间估计:按按预先给定的概率预先给定的概率,所确定所确定 的包含未知总体参数的可能范围。该范围的包含未知总体参数的可能范围。该范围 称为总体参数的可信区间或置信区间称为总体参数的可信区间或置信区间;预先预先 给定的概率给定的概率1称为可信度或置信度称为可信度或置信度,常取常取 95%或或 99%。若无特别说明。若无特别说明,一般取双侧一般取双侧 95%。.可信区间确切涵义可信区间确切涵义:从总体中作随机抽从总体中作随机抽样样,根据每个样本可算得一个可信区间根据每个样本可算得一个可信区间,如如95%的可信区间的可信区间,意味着作意味着作100次抽样次抽样,算得算得100个可信区间个可信区间,有有95个可信区间包含总体均个可信区间包含总体均数数(估计正确估计正确),有有5个可信区间不包含总体均个可信区间不包含总体均数数(估计错误估计错误)。5%是小概率事件是小概率事件,对一次抽对一次抽样而言出现的可能性很小样而言出现的可能性很小,因此因此,在实际应用在实际应用中中,就认为总体均数在算得的可信区间内。就认为总体均数在算得的可信区间内。图图4-2 4-2 模拟抽样成年男子红细胞数模拟抽样成年男子红细胞数100100次的次的95%95%可信区间示意图可信区间示意图 *.可信区间通常由两个数值即可信限构可信区间通常由两个数值即可信限构成成,较小的称下限较小的称下限,较大的称上限较大的称上限,可信区间是可信区间是开区间。开区间。.可信区间是随机的可信区间是随机的,总体参数是固定的总体参数是固定的,所以可信区间包含总体参数的可能性为所以可信区间包含总体参数的可能性为1-.可信区间的两个要素可信区间的两个要素 1.准确度准确度:反映在可信度的大小反映在可信度的大小,1-越接越接 近近1,可信区间包含可信区间包含的概率越大。的概率越大。2.精密度精密度:反映在区间的宽度反映在区间的宽度,区间宽度愈区间宽度愈 窄窄,精密度越高。精密度越高。若在样本量确定的情况下若在样本量确定的情况下,两者是矛盾的两者是矛盾的,视情况而定。但不能笼统地认为视情况而定。但不能笼统地认为99%可信区可信区间比间比95%可信区间好可信区间好,一般一般95%较为常用。要较为常用。要同时提高准确度和精密度同时提高准确度和精密度,须增加样本含量。须增加样本含量。二、总体均数可信区间的计算二、总体均数可信区间的计算95%0 1.未知未知,n较小较小:按按t 分布计算:分布计算:双侧:双侧:单侧:单侧:例例:为了解某地为了解某地1岁婴儿的血红蛋白浓度岁婴儿的血红蛋白浓度,从该地随机抽取从该地随机抽取25名名1岁婴儿岁婴儿,测得其测得其 血红蛋白平均数为血红蛋白平均数为123.7g/L,标准差标准差 为为11.9g/L。估计该地。估计该地1岁婴儿血红蛋岁婴儿血红蛋 白的平均浓度。白的平均浓度。2.已知或已知或未知未知,但是但是n足够大足够大(100)时时,按正态分布原理计算可信区间。按正态分布原理计算可信区间。已知已知:未知未知,但但n足够大足够大:双侧:双侧:双侧:双侧:单侧:单侧:单侧:单侧:例例:某地抽得正常人某地抽得正常人200名名,测得其血清测得其血清 胆固醇的均数为胆固醇的均数为3.64mmol/L,标准标准 差为差为1.20mmol/L,试估计其试估计其95%可可 信区间。信区间。三、可信区间与医学参考值范围的区别三、可信区间与医学参考值范围的区别1.意义意义:医学参考值范围医学参考值范围:绝大多数正常人的解剖、生理、生化等指绝大多数正常人的解剖、生理、生化等指标的波动范围标的波动范围;个体值的波动范围个体值的波动范围 总体均数的可信区间总体均数的可信区间:按预先给定的概率按预先给定的概率,确定的未知总体参数确定的未知总体参数可能所在的范围可能所在的范围;总体均数可能所在的范围。总体均数可能所在的范围。医学参考值范围医学参考值范围:双侧:双侧:百分位数法:百分位数法:单侧:单侧:2.计算公式计算公式:已知或已知或未知未知,但但n足够大足够大:未知未知,n较小较小:双侧:双侧:双侧:双侧:或或:总体均数的可信区间总体均数的可信区间:3.应用应用:医学参考值范围医学参考值范围:进行统计描述;进行统计描述;绝大多数观察对象某项指标的分布范围;绝大多数观察对象某项指标的分布范围;判断某项指标正常与否判断某项指标正常与否 总体均数的可信区间总体均数的可信区间:进行统计推断;进行统计推断;估计未知的总体均数所在范围估计未知的总体均数所在范围;进行均数的假设检验。进行均数的假设检验。第四节第四节 假设检验假设检验(hypothesis testing)一、假设检验的基本思想一、假设检验的基本思想:根据研究目的根据研究目的,先对总体的参数或分布先对总体的参数或分布做出某种假设做出某种假设,然后用适当的统计方法然后用适当的统计方法,根根据样本提供的信息据样本提供的信息,对所做出的假设进行对所做出的假设进行检验检验,依据检验结果做出是否拒绝该假设依据检验结果做出是否拒绝该假设的判断的判断,这种方法称为假设检验这种方法称为假设检验(又称显著又称显著性检验性检验)。是利用小概率反证法思想是利用小概率反证法思想,从问题的对立从问题的对立面面H0出发出发,间接判断要解决的问题间接判断要解决的问题H1是否成是否成立。然后在立。然后在H0成立的条件下计算检验统计成立的条件下计算检验统计量量,最后通过所获得的最后通过所获得的P值加以判断。当值加以判断。当P值值小于或等于预先规定的概率值小于或等于预先规定的概率值,即是小概即是小概率事件。根据小概率事件的原理率事件。根据小概率事件的原理:小概率事小概率事件在一次抽样中发生的可能性很小件在一次抽样中发生的可能性很小,如果它如果它发生了发生了,则有理由怀疑原假设则有理由怀疑原假设H0,认为其对认为其对立面立面H1成立成立,该结论可能犯大小为该结论可能犯大小为的错误的错误.例例:根根据据大大量量调调查查,已已知知健健康康成成年年男男子子的的脉脉搏搏均均数数为为72次次/分分。某某医医生生在在某某山山区区随随机机调调查查25名名健健康康成成年年男男子子,求求得得脉脉搏搏均均数数为为74.2次次/分分,标标准准差差为为6.0次次/分分,能能否否认认为为该该山山区区的的成成年年男男子子的的脉脉搏搏均均数数高高于于一一般般成成年年男男子子的的脉脉搏搏均数?均数?由于样本均数有抽样误差由于样本均数有抽样误差,对一对一个样本均数个样本均数X与一个已知的或假设与一个已知的或假设的总体均数的总体均数 0 0作比较作比较,它们之间差它们之间差别可能有两种原因造成:别可能有两种原因造成:1.由于抽样误差所致由于抽样误差所致,山区男子脉搏的总体山区男子脉搏的总体 均数与一般成年男子的脉搏总体均数相同均数与一般成年男子的脉搏总体均数相同,也是也是72次次/分分,现在所得样本均数现在所得样本均数74.2 次次/分分,仅仅是由于抽样误差造成的仅仅是由于抽样误差造成的,统计统计上称之为差异无统计学意义。上称之为差异无统计学意义。2.由于环境条件的影响由于环境条件的影响,两个均数间有本质两个均数间有本质 差异差异,即山区男子脉搏总体均数与一般男即山区男子脉搏总体均数与一般男 子脉搏的总体均数不同。现在所得样本子脉搏的总体均数不同。现在所得样本 均数均数74.2与总体均数与总体均数72有本质性差别有本质性差别,不不 是抽样误差的原因。统计上称之为差异有是抽样误差的原因。统计上称之为差异有 统计学意义。统计学意义。为判断由何种原因引起的差异为判断由何种原因引起的差异,必须通必须通 过假设检验来回答这个问题。过假设检验来回答这个问题。如何判断?如何判断?利用反证法的思想利用反证法的思想,假设它们属于同一总假设它们属于同一总体体,如果差异不大如果差异不大,可以用抽样误差解释,可以用抽样误差解释,则可以认为它们属于同一总体则可以认为它们属于同一总体;如果差异如果差异很大很大,不能用抽样误差解释不能用抽样误差解释,则可以认为它则可以认为它们不属于同一总体。们不属于同一总体。多大的差异算是由抽样误差造成的?多大的差异算是由抽样误差造成的?根据抽样分布理论计算根据抽样分布理论计算t值或值或u值值,求得求得P值值来判断。如果差异大来判断。如果差异大,检验统计量就大检验统计量就大,所对所对应的应的 P值就小值就小;当当P值小于预先规定的概率值小于预先规定的概率值值(0.05或或0.01)则为小概率事件)则为小概率事件,即在一即在一次抽样中发生的可能性很小次抽样中发生的可能性很小,如果它发生了如果它发生了,就有理由认为假设不成立就有理由认为假设不成立,认为假设的对立认为假设的对立面成立。面成立。这个结论的正确性冒着犯这个结论的正确性冒着犯5%错误的风险。错误的风险。二二 假设检验的一般步骤:假设检验的一般步骤:1、建立检验假设建立检验假设,确定检验水准确定检验水准 (1)H0:0(检验假设、无效假设)(检验假设、无效假设)(2)H1:0(备择假设、对立假设)(备择假设、对立假设)注意:注意:检验假设针对的是总体检验假设针对的是总体,非样本;非样本;H0和和H1相互联系、对立的假设相互联系、对立的假设,缺一不可缺一不可;H0的形式一般为的形式一般为:某两个某两个(或多个或多个)总体参数总体参数相等、两总体参数差为相等、两总体参数差为0,或或无效无效;H1的内容要反映出检验的单双侧。的内容要反映出检验的单双侧。单侧、双侧检验单侧、双侧检验:.一般情况用双侧检验一般情况用双侧检验,较为稳妥。较为稳妥。.双侧检验双侧检验:甲组均数大于乙组均数或乙甲组均数大于乙组均数或乙组均数大于甲组均数的情况均可能出现组均数大于甲组均数的情况均可能出现,宜用双侧检验宜用双侧检验;.单侧检验单侧检验:根据专业知识根据专业知识,已知甲组均已知甲组均数不会小于乙组均数数不会小于乙组均数,可应用单侧检验可应用单侧检验;.单侧检验较双侧检验更容易得出单侧检验较双侧检验更容易得出“有有统计学意义统计学意义”的结论的结论,应在有充分专业依据应在有充分专业依据时使用时使用;应用应用单侧检验单侧检验时应说明。时应说明。(3):检验水准检验水准,是预先规定的概率值是预先规定的概率值,它它确定了小概率事件水准。在实际工作中常确定了小概率事件水准。在实际工作中常取取0.05,但并非一成不变但并非一成不变,可以根据不同的目可以根据不同的目的给予不同的设置。的给予不同的设置。检验水准检验水准:是预先规定的拒绝域的概率是预先规定的拒绝域的概率值值(犯犯型错误的概率型错误的概率)。假设检验中假设检验中,先提出假设先提出假设,然后在假设成立然后在假设成立的前提下看实际抽到的样本是否属于小概率的前提下看实际抽到的样本是否属于小概率事件事件,若属于小概率事件若属于小概率事件,则拒绝该假设则拒绝该假设;若不若不属于小概率事件属于小概率事件,则不拒绝该假设。则不拒绝该假设。2、选定检验方法、选定检验方法,计算检验统计量计算检验统计量 应根据变量和资料的类型、设计方案、应根据变量和资料的类型、设计方案、统计推断的目的、方法的适用条件等选择统计推断的目的、方法的适用条件等选择检验统计量。检验统计量。所有检验统计量都是在所有检验统计量都是在H0成立的前提条成立的前提条件下计算出来的。件下计算出来的。3、确定、确定P值值,作出推断结论作出推断结论 P值的含义值的含义:指从指从H0 规定的总体中随机抽规定的总体中随机抽 得等于及大于和得等于及大于和/或等于及小于现有样本获或等于及小于现有样本获 得的检验统计量值的概率。得的检验统计量值的概率。P值的大小一般通过一个检验统计量的值值的大小一般通过一个检验统计量的值 来衡量。将获得的事后概率来衡量。将获得的事后概率P,与事先规定的与事先规定的 概率概率检验水准检验水准进行比较得出结论。进行比较得出结论。推断的结论推断的结论:统计结论和专业结论统计结论和专业结论 将获得的概率将获得的概率P值与检验水准值与检验水准进行比较进行比较,得出结论。得出结论。P,拒绝拒绝H0,接受接受H1,可以认为总体参数可以认为总体参数有差异有差异(可以认为样本统计量差异有统计学可以认为样本统计量差异有统计学意义)意义)P,不拒绝不拒绝H0,不可以认为总体参数有差不可以认为总体参数有差异异(不可以认为样本统计量差异有统计学意不可以认为样本统计量差异有统计学意义)义)P时时,拒绝拒绝H0,接受接受H1。作出这一结论的。作出这一结论的理由是理由是:在在H0成立的条件下成立的条件下,出现等于及大出现等于及大于现有检验统计量的概率于现有检验统计量的概率P,是小概率事是小概率事件件,在一次抽样研究中不大可能发生在一次抽样研究中不大可能发生,即现即现有样本的检验统计量所提供的信息不支持有样本的检验统计量所提供的信息不支持H0因而拒绝它因而拒绝它;相反相反,P即样本信息支持即样本信息支持H0,就没有理由拒绝它。就没有理由拒绝它。结果判断:结果判断:=0.05 P0.05 差别无统计学意义差别无统计学意义 0.01 P 0.05 差别有统计学意义差别有统计学意义 P 0.01 差别有高度统计学意义差别有高度统计学意义第四节第四节 t t检验和检验和u检验检验 1.t 检验的应用检验的应用:主要用于样本含量较小主要用于样本含量较小(n60)、或总体标准差未知的情况。、或总体标准差未知的情况。.样本均数与已知总体均数的比较样本均数与已知总体均数的比较;.两个小样本均数的比较两个小样本均数的比较;.配对设计资料均数的比较。配对设计资料均数的比较。2.t 检验的应用条件检验的应用条件:.正态性正态性;.方差齐性。方差齐性。2.u检验的应用检验的应用:要求样本含量较大要求样本含量较大,或或n较小但较小但 已知。已知。.样本均数与已知总体均数的比较;样本均数与已知总体均数的比较;.两个大样本均数的比较。两个大样本均数的比较。一一.样本均数与总体均数的比较样本均数与总体均数的比较 进进行行样样本本均均数数与与已已知知总总体体均均数数的的比比较较,比比较较的的目目的的:推推断断样样本本所所代代表表的的未未知知总总体体均均数数与已知的总体均数有无差别。与已知的总体均数有无差别。已已知知总总体体均均数数:理理论论值值、标标准准值值或或经经过过大大量观察所得的稳定值。量观察所得的稳定值。检验统计量检验统计量t 的计算公式及自由度的计算公式及自由度:例例5.1:根根据据大大量量调调查查,已已知知健健康康成成年年男男子子的的脉脉搏搏均均数数为为72次次/分分,标标准准差差为为6.0次次/分分。某某医医生生在在某某山山区区随随机机调调查查25名名健健康康成成年年男男子子,求求得得脉脉搏搏均均数数为为74.2次次/分分,能能否否认认为为该该山山区区的的成成年年男男子子的的脉脉搏搏均均数数高高于于一一般般成年男子的脉搏均数?成年男子的脉搏均数?对资料进行分析对资料进行分析:1.资料提供的信息资料提供的信息:计量资料计量资料 已知总体均数已知总体均数 0=72次次/分分,n=25,S=6.0次次/分分。2.应进行样本均数与总体均数比较的应进行样本均数与总体均数比较的 t检验。检验。3.目的目的:推断样本所代表的未知总体均推断样本所代表的未知总体均 数与已知的总体均数有无差别。数与已知的总体均数有无差别。(1)建立检验假设,确定检验水准建立检验假设,确定检验水准 H0:=0,山区成年男子脉搏均数与一般成年男子的脉山区成年男子脉搏均数与一般成年男子的脉 搏均数相同搏均数相同 H1:0,山区成年男子脉搏均数与一般成年男子的脉山区成年男子脉搏均数与一般成年男子的脉 搏均数不同搏均数不同 =0.05(3)确定确定P值值,作出统计推断结论作出统计推断结论 以以=n-1=25-1=24,查查t界值表界值表,t0.052,24=2.064,tt0.052,24,P0.05,按按=0.05水准尚不拒绝水准尚不拒绝H0,两者的差异无统计学意义。据此资料还不能两者的差异无统计学意义。据此资料还不能认为山区成年男子的脉搏均数与一般健康成年认为山区成年男子的脉搏均数与一般健康成年男子的脉搏均数不同。男子的脉搏均数不同。(2)计算统计量计算统计量(1)建立检验假设,确定检验水准建立检验假设,确定检验水准 H0:=0,山区成年男子脉搏均数与一般成年男子的脉山区成年男子脉搏均数与一般成年男子的脉 搏均数相同搏均数相同 H1:0,山区成年男子脉搏均数高于一般成年男子的山区成年男子脉搏均数高于一般成年男子的 脉搏均数脉搏均数 单侧单侧=0.05(3)确定确定P值值,作出统计推断结论作出统计推断结论 以以=n-1=25-1=24,查查t界值表界值表,t0.05,24=1.711,tt0.05,24,P0.05,按按=0.05水准拒绝水准拒绝H0,接受接受H1,两者的差异有统计学意义。可以两者的差异有统计学意义。可以认为山区成年男子的脉搏均数高于一般健认为山区成年男子的脉搏均数高于一般健康成年男子的脉搏均数。康成年男子的脉搏均数。(2)计算统计量计算统计量0=72次次/分分=?次次/分分 Xn =25X=74.2次/分S=6.0次/分 山区人群山区人群(未知总体未知总体)一般人群一般人群(已知总体已知总体)假设:=001.8331.7112.4920.01p0.05 例例5.2 以以往往通通过过大大规规模模调调查查已已知知某某地地新新生生儿儿出出生生体体重重为为3.30kg,从从该该地地难难产产儿儿中中随随机机抽抽取取35名名新新生生儿儿作作为为研研究究样样本本,平平均均出出生生体体重重为为3.42kg,标标准准差差为为0.40kg。问问该该地地难难产产儿儿出出生生体体重重是是否否与与一一般般新新生生儿儿体体重不同?重不同?对资料进行分析对资料进行分析:1.资料提供的信息资料提供的信息:计量资料计量资料 已知总体均数已知总体均数 0=3.30kg,n=35,S=0.40kg。2.应进行样本均数与总体均数比较的应进行样本均数与总体均数比较的 t检验。检验。3.目的目的:推断样本所代表的未知总体均推断样本所代表的未知总体均 数与已知的总体均数有无差别。数与已知的总体均数有无差别。(1)建立检验假设,确定检验水准建立检验假设,确定检验水准 H0:=0,该地难产儿与一般新生儿平均出生体重相同该地难产儿与一般新生儿平均出生体重相同 H1:0,该地难产儿与一般新生儿平均出生体重不同该地难产儿与一般新生儿平均出生体重不同 =0.05(3)确定确定P值值,作出统计推断结论作出统计推断结论 以以 =n-1=35-1=34,查查t界值表界值表,t0.052,34=2.032,tt0.052,34,P0.05,按按=0.05水水准准尚尚不不拒拒绝绝H0,两两者者的的差差异异无无统统计计学学意意义义。据据样样本本提提供供的的信信息息,还还不不能能认认为为该该地地难难产产儿儿与与一一般般新新生生儿儿平平均均出出生生体重不同。体重不同。(2)计算统计量计算统计量例例:某某医医生生测测量量了了36名名从从事事铅铅作作业业男男性性工工人人的的血血红红蛋蛋 白白 含含 量量,算算 得得 均均 数数 为为 130.83g/L,标标 准准 差差 为为25.74g/L。已已知知正正常常成成年年男男性性的的血血红红蛋蛋白白平平均均值值为为140g/L,问问从从事事铅铅作作业业工工人人的的血血红红蛋蛋白白平平均均值值是否不同于正常成年男性?是否不同于正常成年男性?(3)确定确定P值值,作出统计推断结论作出统计推断结论 以以 =n-1=36-1=35,查,查t界值表,界值表,t0.052,35=2.030,tt0.052,35,P 0.05,按,按 =0.05水准拒绝水准拒绝H0,接受接受H1,差异有统计学意义。可以认为从事铅作业差异有统计学意义。可以认为从事铅作业男性工人的血红蛋白含量不同于正常成年男性。男性工人的血红蛋白含量不同于正常成年男性。即从事铅作业男性工人的血红蛋白含量低于正常即从事铅作业男性工人的血红蛋白含量低于正常成年男性。成年男性。(2)计算统计量计算统计量二、配对样本均数的二、配对样本均数的t t检验检验 配对设计配对设计(paired design):将受试对象按:将受试对象按照某种特征相同或相近的原则配成对子照某种特征相同或相近的原则配成对子,每每对中的两个受试对象随机分配到两个不同处对中的两个受试对象随机分配到两个不同处理组或实验组和对照组中理组或实验组和对照组中,分别给予不同的分别给予不同的处理处理,称配对设计。称配对设计。优点优点:由于同对的受试对象间均衡性较好由于同对的受试对象间均衡性较好,可减少非研究因素对结果的影响可减少非研究因素对结果的影响,提高统计提高统计处理的效率。处理的效率。人群试验中人群试验中:常将性别相同、年龄、生活常将性别相同、年龄、生活条件、工作条件、病情等因素相近的人配成条件、工作条件、病情等因素相近的人配成对子。对子。动物实验中动物实验中:常将动物的种属、窝别、性常将动物的种属、窝别、性别相同、体重相近的动物配成对子。别相同、体重相近的动物配成对子。在医学科研中在医学科研中,配对设计主要有以下几种配对设计主要有以下几种情况情况:1.两个同质受试对象分别接受两种不同的处理两个同质受试对象分别接受两种不同的处理;2.同一受试对象或同一标本的两个部分同一受试对象或同一标本的两个部分,分别接分别接 受两种不同的处理受两种不同的处理;目的目的:推断两种处理有无差别。推断两种处理有无差别。3.同一受试对象处理前后比较同一受试对象处理前后比较(自身对比自身对比);目的目的:推断该种处理有无作用。推断该种处理有无作用。特点特点:不能随机分配处理因素不能随机分配处理因素,在实验研究中应在实验研究中应 设平行对照。设平行对照。配对配对t t检验的基本原理检验的基本原理:假设两种处理的效应相同假设两种处理的效应相同,即即1=2,则则1-2=0(可视为已知总体均数可视为已知总体均数0=0),即可看成即可看成是差值的样本均数所代表的未知总体均数是差值的样本均数所代表的未知总体均数d与已知总体均数与已知总体均数0=0的比较。的比较。应用条件应用条件:差值服从正态分布。差值服从正态分布。样样 本本 治疗前后血红蛋治疗前后血红蛋白的变化(白的变化(差值)差值)问题归纳:问题归纳:样本疗效样本疗效 药物作用药物作用 +机遇机遇 对上面问题可以作如下考虑:对上面问题可以作如下考虑:问题:问题:究竟多大能够下究竟多大能够下“有效有效”的结论?的结论?假定治疗前后血红蛋白检测结果的差值服从正态分布,若假定治疗前后血红蛋白检测结果的差值服从正态分布,若 则则 服从服从t t 分布。分布。根据根据 t 分布能够得到有如此大差异的相应的概率分布能够得到有如此大差异的相应的概率P值值,如果如果P 值很小值很小,即计算出的即计算出的t 值超出了给定的界限值超出了给定的界限,则倾向于拒绝则倾向于拒绝H0,认认为治疗前后有差别。为治疗前后有差别。图图4-3 4-3 利用利用t t 分布进行假设检验原理示意图分布进行假设检验原理示意图 检验统计量检验统计量t 值的计算公式及自由度值的计算公式及自由度:例例5.3:测得贫血儿童治疗一个疗程前后血测得贫血儿童治疗一个疗程前后血红蛋白红蛋白(g/L),),资料见表。试比较治疗前后资料见表。试比较治疗前后患儿血红蛋白含量有无差别?患儿血红蛋白含量有无差别?资料所提供的信息资料所提供的信息:1.计量资料计量资料 2.配对设计。配对设计。表表 贫血患儿治疗一个疗程前后血红蛋白贫血患儿治疗一个疗程前后血红蛋白(g/L)变化情况变化情况患者编号患者编号血红蛋白(血红蛋白(g/L)差值差值dd2 治疗前治疗前 治疗后治疗后1 9812830 9002 10213634 11563 8311431 9614 10112928 7845 9613135 12256 9413440 16007 11313017 2898 8111938 14449 7412147 220910 8311844 1936合合 计计 335 11793 H0:d=0,即治疗前后患者血红蛋白含量相同即治疗前后患者血红蛋白含量相同 H1:d0,即治疗前后患者血红蛋白含量不同即治疗前后患者血红蛋白含量不同 =0.05 以以n-110-19,查查t t界值界值表得表得:t0.05/2,92.262,t0.01/2,93.250,13.3053.250,故故P0.01,按按0.05水准水准,拒绝拒绝H0,接受接受H1,差别有统计学意义。即可以差别有统计学意义。即可以 认为治疗前后患者血红蛋白含量不同认为治疗前后患者血红蛋
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服