1、第三章总体均数的估计和假设检验温州医学院环境与珞共卫生学院叶晓蕾1定量资料,平均水平变异程度(统计指标Y(统计描述J统 统计图表一计1_分1析 f参数估计V统计推断定性资料f相对数统计表统计图一直方图、箱图;条图、饼图;线图 I假设检验4点估计区间估计(定量、定性),t检验定量资料 方差分析(单因素、多因素)I秩和检验定性资料f卡方检验2一、均数的抽样误垂与标准误1.均数的抽样误差:由于抽样引起的样本均数与总体均数之差(X-M2.均数的标准误:%(1)意义:说明抽样误差的大小。反映样本均数的可靠程度。%大,抽样误差大,用歹估计以的可靠程度较小。3(2)计算:cr从上式可知,标准误与标准差成正比
2、与样本含量的平方根成反比。在实际工作中,可以通过增大样本含量来减少抽样误差。例:某市随机抽查12岁男孩100人,得身高均数139.6cm,标准差6.85cm,计算标准误。Sx:=?5=0.685(cm)飞n 7100二.t分布1.t分布概念:在实际工作中,由于。未知,用S代替,贝!1:X-/_ X-/S*S/y/n2.t分布的用途:主要用于总体均数的区间估计及t检验等。t分布又称Student-1分布(Student s t-distribution).53.t分布的图形和特征:图形:特征:(1)以0为中心,两侧对称的单峰分布(2)与u分布比较,峰值较低,两边上翘(3)有一个参数,当,t分布
3、u分布64.t界值表:p.6964bJFn 2 f 齐 UL 衣 _ j自由度_ _堡一i:-_Mh 0.2S 0.10 0.05 0.025 0.03 0.00ClMi 0.50 0.20 U1Q _ 0.05 Q.ltt 0 31 1.000 5.078 6.314 12.W 31.6112 0.816 1.886 2.920 4.303 6.963.9.923 0.765 1.638 2.353 31&4,541 5.844 0.741 I.533 2.132 2.7%3.747 4.605 0.727 L476 2.01$2.571 3.36S 4.036 0.718 1.440 1.
4、943 2.447 3.143 3.707 O.m 1.415 I.R95 2.365 2:998 3498 0.706 l.W 1.860 2.306 2 的6 3.359 Q.703 L”3 1.833 2.262 2.S21 3.2510 0.700 1.372 1.812 2.228 2,%4 3l&11 0.697 1.33 1.796 2.201 2.719 3J012 0.695 1.356 1782 2.179 2.681 3.05co 0.6745 1.2816 1.6449 l.%00 2.3263 2.57乳尾概率(onetailde probability),其对应的0
5、 t5 0.0025 0.001 0.00051 0.005 0.002 0.001P 127.321 318.309 636 6195 14.199 22.327 31.5991 7.453 10.215 12.924A 5.508 7.173 8.6102 4.773 5.893 6.897 4.317 5.208 5.959,9 4.029 4.7SS 5 4085 3.833 4.501 5.0410 3.6Q0 4.297 4 7819 3.S81 4.144 4.5876 3.497 4.Q25 4.4375 3.428 3.930 4.31858 2.80D 3.0902 3.2
6、905t界值用ta,v表小;t界值用ta/2,v表示o双尾彳:率(two-tailde probability),其对应的7三.总体均数的估计1.点估计(point estimation 2.区间估计(interval estimation):概念:按一定的概率(1-)估计总体均数所在范围(或称可信区间,confidence interval,CI),常用95%和99%的概率估计。可信区间又称置信区间。9计算平(1)。已知时,按正态分布原理U=爱(x-%/2bx,X+%/2/)二X%/2bx X(2)o未知时,按t分布原理1 S-(x Ta/2,Ax,X+a/2vsx)=X,a/2,;/Sx(
7、3)a未知但n较大,可按正态分布原理 Xual2S-|X1.96S IX 2.58SX10例:抽样调查某地100名12岁男孩身高,得均数为139.6cm,标准差为6.85cm,试估计该地12岁 男孩身高均数的95%可信区间。a=0.05 u0.05=1.96139.6 1.96 x 坐1=138.3 141.0V100即该地12岁男孩身高均数的95%可信区间为:138.3-141.0(cm)|该地12岁男孩平均身高139.6cm(95%CI:138.3141.0)。|11SPSS演示*Analyze=Descriptive Statistics=Exploreinjury总体均数可信区间估计:
8、2DescrtivesStd.ErrorsalaryStatisticMean87616.78251094.4958995%Confidence IntervalLower Bound85469,0936)for MeanjUpper Bound89764.4714 J5%Trimmed Mean86254.3711Median83878.8000Variance1.24E+009Std.Deviation35194.468Minimum13092.00Maximum388340.40Range375248.40Interquartile Range35370.69Skewness1.426.
9、076Kurtosis7.921.1523ILS.假设检验的意义和基本步哪1.假设检验的意义:假设检验(hypothesis test)又称显著性检验(significance test)o14例3.4:根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某山区随机调查25名健康男子,求得脉搏均 数为74.2次/分,标准差为6.5次/分。能否认为该山区的成 年男子的脉搏均数高于一般成年男子的脉搏均数?已知总体n=25,X=74.2 次/分S=6.5次/分未知总体造成又与口 0不等的原因:(1)抽样误差,即口 二 口0(2)非同一总体,即uNuO152.假设检验的一般步骤(1)建立假设
10、确定检验水准aHO:(无效假设)总体参数相等H1:(备择假设)总体参数不等通常a=0.05(2)选定检验方法和计算检验统计量(test statistic)如:u、t、F、X2 等(3)确定P值,作出推断结论_ _ _ e16建立检验假设,确定检验水准a一.检验假设:H0:(无效假设)总体参数相等H1:(备择假设)总体参数不等 单侧检验与双侧检验;IL ()双侧检验 i 单侧检验在建立检验假设时,应 当注意:1.,检验假设应针对总体 而言,不能针对样本。2Ho和H 1缺一不可怎样选择双侧检验或单侧检验?1.根据专业知识;2根据研完目的.17二.检验水准a(size of a test):又称
11、显著性水准。为I型错误的概率大小(详后),是预先规定的概率值,即小概率事件的标准。在实际工作中通常取a=0.05。但并非一成不变,可根据 研究目的给予不同设置。18确定P值,作出推断结论根据计算出的检验统计量,查相应的界值表即可得P值,将P值与事先规定的概率a进行比较而得出结论o若:Pa时,则不拒绝H0,无统计学意义(统计结 论),还不能认为不同或不等(专业结论)。19五.t检验和U检验t-test或称Student s t-test;5test或称Ztest(一)用途与应用条件用途:两个均数的比较。应用条件:t检验:样本来自正态分布的总体;两总体方差相等。u检验:样本含量比较大(如n,50)
12、或n虽小但。已知(很少见)。20(二)t检验1.样本均数与总体均数的比较2.-单样本t检验(one sample t-test)3.配对设计的均数比较-配对t检验(pairedt-test for dependent samples)4.成组设计的两样本均数的比较-成组t检验(two-sample t-test for independent samples)t检验计算公式天与人比较否。比较又1与天2比较x-0-0Sj4nv=n-lv=n-lX1-X2S右一益v=nl+n2-222例已知 u 0=72次/分,*=74.2次/分,S=6.5次/分,n=25。(1)H 0:u=u0H 1:u u
13、0 a=0.05计算t值:X 4 _ 74272 s/4n 6.5/425=1.692(3)确定P,作出统计结论:根据v=n-l=24查t界值表,得 0.05P0.05记为“NS”,提倡表达P0,05记,3,提倡报告精确的P值记为“*”利用统计软件计算得到P=o;000时,宜改为P VOL 00146P值的解释P值大小只能说明统计学意义的“显著”,不说明实际效果的“显著”6对于P值的解释一定要 结合专业知识。当观察例数很少时,临床疗效“显著”的,P值可 能很大(统计“不显著”)。反之,当观察例数很大时,临床疗效“不显著”的(如新药比对照药有效率仅提高了 0.1%),P值可 能很小(统计“显著”
14、472.2不同浓度GTPs对PAI-1表达水平影响 俵2)与对 照组相比,GTPs可以抑制BAECs中PAI-1蛋白的表达及释 放,且两者的变化趋势基本一致。随着GTPs浓度的升高,该 抑制效应好强。当GTPs浓度为40 ag/ml时,抑制作用最为 明显,与对照组比较,差异有统计学意义(/。05),其中PAI-1蛋白表达减少36.20%,蛋白释放减少32.57%。表2 GTPs对PA I-I表达及释放的影响(7 s,n=3)组别(/g/m 1)Western bbt(PA I-1 3-action)EL EA(ng/m 1)对照GTPs 0.041.51).491.40 0.3829-68
15、 1.3227.69 1.880.40 1.22 0.45*24.28).87*4.00 1.11).44*21.87)94*40.00 0.94).59*20.01 2.32*注:与对照组相比,P0.05;对照组中GTPs浓度为0 gg/mbD-gal处理8w后,模型组肾细胞凋亡率明显 高于亚常组(尸0.01),TP高、中剂量及A而 VE处理后,吧抑制模型组肾细胞凋亡率(尸V 0.01)o案例讨论某医生应用泼尼松、转移因子和胸腺肽治疗系统性红斑 狼疮患者14人。治疗前后血清Sil2R(U/ml)数据如下。该医生 对此数据应用两组独立样本的t检验,结果为t=0.3737,v=26,P=0.71
16、16o于是,该医生的结论是治疗前后血清Sil2R的差异 没有统计学意义。你是否同意这种分析结果?有人提议做配对 资料的t检验,如果治疗前后的差异有统计学意义,就可以说 明治疗有效。你是否同意这样做?治疗前后血清Si 1-2R(U/ml)数据No.1234567治疗前1410.37893.541569.45936.51529.94477.23999.4治疗后1353.57876.881534.42879.98468.66427.23971.56No.891011121314治疗前474.85873.04252.611227.2595.4359.811097.99治疗后446.67825.0617
17、5.31110.19470.83337.751022.315c1、配对设计2、有统计意义不等于有实际意义。差异的平均水平达到或超过 有实际意义的差值,或差异的平均水平的置信区间包含有实际 意义的差值,才可说明治疗有效。Paired Samples StatisticsMeanNStd.DeviationStd.Error MeanPair 1 治疗后778.600714403.18663107.75 616治疗前835.5 24314402.76110107.64243Paired Samples TestPaired DiflerencesMeanStd.DeviationStd.Error Mean95%Confidence Interval of the DifierencetdfSig.(2-tailed)Lower Upper治疗后-治疗前-5 6.92432.9205 38.79838-75.93132-37.915 82-6.47013.00051