资源描述
此文档仅供收集于网络,如有侵权请联系网站删除
中医药统计学与软件应用笔记重点
绪论
统计学家C.R.劳先生在《统计与真理——怎样运用偶然性》中指出:在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学。
一、 统计学的概念、发展简史及主要内容
1.统计学:是以概率论和数理统计为基础,对研究对象的数据进行搜集、整理和分析,揭示事物总体特征和规律的方法论科学。
2.中医统计学:是以概率论和数理统计的原理和方法为基础,以中医理论与实践为主体,通过对数据的搜集、整理和分析,达到探讨中医理论与方法内在规律的目的。
3.统计学的发展趋势:
①依赖数学。②与计算机技术结合。
③与实质性学科、统计软件、现代信息相结合,所发挥的功效日益增强。
④从描述事物现状、反映事物规律,向抽样推断、预测未来变化方向发展。
4.统计学的主要内容
⑴研究设计:专业设计、统计学设计 ⑵统计学的基本概念、原理和思维方法
⑶统计描述:统计指标、统计图表 ⑷统计推断:参数估计、假设检验
二、统计工作的基本步骤和特点
1.统计工作的基本步骤
(1)统计学设计
(2)搜集资料:①常规保存的记录;②现场调查记录;③实验/试验记录;④医学文献/网络信息。
(3)整理资料:①检查;②审核;③计算机检查;④分组。
(4)分析资料
2.统计学认识现象的特点
(1)数量性:(2)群体性:(3)具体性:(4)概率性:
三、统计学中常用的概念
1.总体(population):是根据研究目的确定的同质观察单位的集合。
例 ①河北省18岁男性的身高和体重分布 ②某性红地2005年健康成年男细胞数
③河北省18岁身高在170-175cm男性的体重分布
⑴有限总体:指总体限定于特定的空间、时间范围内有限个观察单位。
⑵无限总体:指没有空间和时间范围限制的总体 。
2.样本(sample):从总体中随机抽取的有代表性的一部分观察单位的集合。
样本的可靠性:指总体确定后,样本中的每一个观察单位确属预先规定的同质总体。
样本的代表性:即样本能够充分反映总体的真实情况。
3.随机(random):即在抽样、分组、安排试验顺序时,让总体中每个受试者或观察单位都有同等的机会被抽中、被分配或被安排,而不受研究者的主观意愿驱使。
不能将随机理解为随便。
4.事件(event):指事物发生某种情况或在调查、观察和实验中获得的某种结果。
⑴确定性事件是可预言在一定条件下必然发生的事件,发生的概率为1。
⑵随机事件:指一定条件下可能发生也可能不发生的不确定性事件,发生的概率介于0~1之间。
⑶模糊事件:事物本身的含义不确定的现象。
5.频率(frequency):对于随机事件A,在相同的条件下进行了n 次实验,事件A发生的次数为m,比值m/n 为频率,记为fn(A);
概率(probability):描述某随机事件A发生的可能性大小,统计符号为P, 0≤P≤1,记为P(A)。
当n→∝ 时,频率fn(A)→概率 P(A)。
小概率事件:表示某事件发生的可能性很小,在医学研究中,习惯上把P≤0.05或P≤0.01的事件称为小概率事件。
6.变异(variation):总体中各个体之间的差异性。
同质是相对的,研究对象只是在某一方面是性质相同的,同类的观察对象之间往往也存在着变异。 变异是绝对的、客观存在的。
7.误差(error):指测量值与真值之差。
⑴过失误差:也叫粗差。观测者粗心大意造成的误差。
⑵系统误差:由于仪器未校准、试剂未标定、观测标准未统一等固定原因造成的误差。
⑶测量误差:由事先难于预料的实验或观察条件的随机波动造成的误差。
⑷抽样误差:由抽样引起的样本指标(统计量)与总体指标(参数)的差别。
8.统计量(statistical):是反映样本特征的统计指标。
统计符号为小写的英文字母。 如样本均数 、样本标准差s 、样本率p 等。
9.参数(parameter):是描述总体特征的统计指标。
统计符号为小写的希腊字母。 如总体均数μ、总体标准差σ、总体率π 等。
10.统计资料的类型
根据研究目的,对研究对象的某些特征进行观测,将这些观测指标或项目称为变量。
变量的具体数值(变量值)构成了统计数据或统计资料。
统计资料分为两类:
⑴ 值变量(numerical variable):亦称定量资料。是指对每个观察单位用计量方法测得某项
数值大小所获得的资料。
特点为其变量值大多有度量衡单位,其具体取值通常是正实数(零、正整数和小数)。
如身高1.75m、体重68kg、血压9.6kPa、血糖6.8mmol/L。
⑵分类变量(categorical variable):又称定性资料。指对每个观察单位按某一方面的特征、性质或等级分组计数而得到的资料。
特点是变量值表现为互不相容的属性或类别,无度量衡单位。
分类变量又可分为两类:
① 序分类变量:又称为名义资料。具体取值通常是具有某种属性或特征的个数。
特点是可在非数字中取值,各类之间具有性质上的差异。
可分为二分变量和多分变量。
二分变量是按互不相容的属性分成两类的资料。
多分变量是按某种属性或特征分成两类以上的资料。
② 序分类变量:亦称等级资料或半定量资料。具体取值也是具有某种属性或特征的个数,
但不同取值之间有半定量的关系。
特点是其各类别间有等级、程度或量的差异,即可按数量的相对大小或程度的高低排出顺序。
四、学习中医统计学的目的
1.顺应中医药学的发展趋势。2.强化中医科研的计划性和科学性。
3.拓宽研究思路。4.学会正确地运用统计方法和合理地解释统计结果。
五、学习中医统计学的注意事项
1.理解和领会基本概念和原理,切忌死记硬背。2.不追究公式的来源和推导,但要掌握其应用条件。3.重视分析问题和解决问题能力的培养。4.学会使用统计软件。
数值变量资料的统计描述
统计描述——概念:即利用原始数据,选择适宜的统计指标及统计图表,简明准确地探察数据的分布类型和数量特征的基本统计方法。
目的:是根据样本中所包含的信息,客观、正确地推论出其总体规律。
第一节 频数分布
频数:相同观察值或观察结果出现的次数。
分布:指随着随机变量取值的变化,其相应的概率变化的规律性。
频数分布:观察值(变量值)按大小分组,各个组段内观察值个数(频数)的分布,是了解数据分布形态特征与规律的基础。
一、 频数分布的特征
1.集中趋势:指一组变量值的集中倾向或中心位置。
2.离散趋势:即一组变量值的离散倾向。
二、频数分布的类型
1.对称分布:指集中位置居中、左右两侧的 2.非对称分布:亦称偏态分布,是集中位置
频数分布基本对称的频数分布。 偏倚、两侧频数的分布不对分为正态分布和非正态分布两 称的频 数分布,可分为正
种类型。 偏态和负偏态分布。
三、频数分布表/图的作用
1.直观地揭示数据的分布类型和特征。
2.便于发现资料中某些远离群体的特大或特小的可疑值。
3.描述频数分布的集中趋势与离散趋势。
4.便于进一步计算统计指标。
四、频数表
概念:频数分布表的简称。指观察值或某些类别及其相应的频数按一定顺序排列的表格。
例题:随机抽取某地120例正常人,测得血清铜的含量(μmol/L)如下表,试编制频数表。
13.84 12.53 13.70 14.89 17.53 13.19 18.82
14.73 17.44 13.99 14.10 12.29 12.61 14.78
14.59 14.71 18.62 19.04 10.95 13.81 10.53
13.56 11.48 13.07 16.88 17.04 17.98 12.67
11.03 9.23 15.04 14.09 15.90 11.48 14.64
13.64 14.39 15.74 13.99 11.31 17.61 16.26
13.53 11.68 13.25 11.88 14.21 15.21 15.29
13.70 14.45 11.23 19.84 13.11 15.15 11.70
频数表的编制方法:
1.找极值:Xmax =19.84,X min =9.23
2.求全距:R= Xmax-X min ,R=19.84-9.23=10.61
3.定组数:K=8~15。
4.求组距:i=R/( K–1)(i为组距,k为组段数,R为全距)i=10.61/(11-1)=1.061≈1
5.确定各组段的上下限:
6.归纳计数:
某地120名正常成年人血清铜含量频数表
组段 频数f 频率P(%) fC PC(%)
9.00~ 3 2.5 3 2.5
10.00~ 4 3.3 7 5.8
11.00~ 12 10.0 19 15.8
12.00~ 13 10.8 32 26.6
13.00~ 17 14.2 49 40.8
14.00~ 22 18.3 71 59.1
15.00~ 18 15.0 89 74.1
16.00~ 13 10.8 102 84.9
17.00~ 11 9.2 113 94.1
18.00~ 5 4.2 118 98.3
19.00~ 2 1.7 120 100.0
合 计 120 100.0
五、频数图
概念:亦称直方图,是以直方的宽度代表组距,以直方的面积大小表示频数的多少、以直方面积在总面积中的比例表示频率大小的图形。
等距分组——以横轴表示变量,以纵轴表示频数。
不等距分组——以横轴表示变量,但纵轴是频数除以组距 。
第二节 数值变量资料集中趋势的描述
集中趋势:是度量变量值集中位置和平均水平的数量指标,其代表值为平均数。
平均数:是描述一组观测值平均水平的指标,是对同质基础上的样本或总体一般特征的表达指标。
算术平均数、几何平均数、中位数、众数
一、算术平均数
1.定义:算术平均数简称均数。是一组观察值的和与观察值个数之商。是数量上的平均。用于说明一组观测值的趋中位置或平均水平。 表示样本均数,m表示总体均数。
2.适用条件:正态或近似正态分布的资料。如生理指标。
3.计算方法:⑴直接法:有n个观察值,分别为X1,X2,……Xn,
式中Σ是求和的符号 。
例题:10名12岁男孩身高(cm)分别为125.5,126.0,127.0,128.5,147.0,131.0,132.0,141.5,122.5,140.0。求平均数。
⑵加权法:用于观察值中相同数据较多或频数表资料。
=1737.00/120=14.48(μmol/L)
二、几何均数
1.定义:n个数值连乘积的n次方根。是比例或倍数上的平均。统计符号G。
2.应用条件:等比数列资料。如抗体滴度。
3.计算方法:
例题:6份血清抗体滴度为1:2,1:4,1:8,1:8,1:16,1:32,求平均数。
平均滴度为1:8。
三、中位数
1.定义:将一组观察值按由小到大的顺序排列,位次居中的数值即中位数。是位次上的平均。统计符号M。
2.应用条件:不拘分布、分布类型不明或一端无界的资料。如潜伏期、治愈时间和发病年龄。
3.计算方法:
n为奇数时 n为偶数时
式中 、 及 均为下标,表示有序数列中观察值的位次。
例题:某医院用大黄粉治疗胃热血瘀型血证病人9例,其大便转阴天数分别为1、1、2、2、3、4、5、7、10,求其中位数。
本例n = 9, M = X5 = 3(天)。
如果本例n=10,第10个数值为16天,则 M=(3+4)/2=3.5(天)。
⑵ 数表法
用于观察值例数较多或频数表资料。
L为M所在组段的下限;i为该组段的组距;fm为该组段的f;n为总例数;ΣfL为小于L的各组段的fC。
例题:905例男性银屑病病人的发病年龄
年龄 频数f 累计频数fC 累计频率pC(%)
<10 54 54 5.97
10~ 252 306(ΣfL) 33.81
20~ 346(fM) 652 72.04
30~ 128 780 86.19
40~ 84 864 95.47
50~ 29 893 98.67
60~ 5 898 99.23
≥70 7 905(n) 100.00
M=20+(10/346)(905/2-306)=24.23(岁)
第三节 数值变量资料的离散趋势描述
离散趋势:亦称变异性,是描述一组同质观察值的变异程度大小的指标。不但反映研究指标数值的稳定性和均匀性,而且反映集中性指标的代表性。
极差、四分位数间距、方差、标准差、变异系数。
变异指标示意(两个学生五门成绩分布)
学生 科 目 变异指标
1 2 3 4 5 R S2 S CV
A 78 79 80 81 82 80 4 2.5 1.58 1.98
B 60 70 80 90 100 80 40 250 15.81 19.76
A、B两个学生五门课程成绩的均数都是80,但各科成绩分布情况却不相同。
A较集中,变异较小;B较分散,变异较大。
一、 全距(R)
概念:亦称极差,是一组观察值中最小值与最大值之差,反映个体差异的范围。
R=xmax-xmin
优点:1.意义明确、计算简便。2.稳定性较差。3.受n大小的影响。4.可应用于任何分布。
二、百分位数和四分位间距
1.百分位数:是把一组观察值从小到大排列,分为100等份,与x%位次所对的数值即为第百分之x位数。以Px表示。
一个Px将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。是一种位置指标。M 即P50。
2.四分位数间距:是上四分位数QU(P75)与下四分位数QL(P25)之差,符号为QR。
是中间50%观察值的极差。
QR=QU-QL=P75-P25
用途:⑴常用来描述偏态分布资料分布以及分布的一端或两端无确切数值资料的离散程度。
⑶ 表示参考值范围 百分位数的另一个重要用途是表示偏态分布资料的参考值范围。
例题:905例男性银屑病病人的发病年龄(同前)
计算方法:P25=10+(10/252)×(905×0.25-54)=16.84(岁)
P75=30+(10/128)×(905×0.75-652)=32.09(岁)
QR=P75-P25=32.09-16.84=15.25(岁)
三、方差
概念:方差即离均差平方和的均值。总体方差的符号为σ2,样本方差符号为s2。
优点:由于s2利用了每个观察值的信息,反映一批数据变异程度的稳定性和精确性好。
缺点:但在运算时需将各个离均差平方,使原度量单位变成平方单位,不便于进行比较。
应用条件:要求资料服从正态或近似正态分布。
四、标准差
概念:方差的平方根。除了具有方差的优点外,还克服了度量单位被平方的不足,运用较方便。总体标准差的符号为σ,样本标准差的符号为s;英文缩写为SD。
例题:
A学生:n=5,ΣX=78+79+80+81+82=400;ΣX2=782+792+802+812+822=32010
B学生:n=5,ΣX==400;ΣX2==33000
用途: ⑴表示正态或近似正态分布的离散程度。⑵描述数值变量的频数分布特征( ±s)。
⑶制定医学参考值范围。⑷与均数结合计算变异系数。⑸与样本含量结合计算标准误。
五、变异系数
概念:一组观察值的标准差与均数的百分比。是相对离散量,无单位。统计符号CV
用途:⑴比较度量单位不同或均数相差悬殊时几组样本资料的离散性。
⑵比较实验指标的稳定性及测定方法的精密度。
例题:(1)某单位测得28例成年脾虚病人的红细胞数为3.10土0.86×1012/L;血红蛋白值为87.2土33.3g/L,试比较该两项指标的变异程度。
CVRBC=(0.86/3.10)×100%=27.74%;CVHb=(33.3/87.2)×100%=38.19%
可认为Hb的变异程度比RBC大。
(2)某单位测得大鼠的血清谷丙转氨酶(ALT)为29.4土1.4,家兔的ALT为52.8土1.5,试比较两种实验动物ALT指标的实验稳定性。
CV大鼠=(1.4/29.4)×100%=4.76%;CV家兔=(1.5/52.8)×100%=2.84%
可认为家兔ALT的实验稳定性较好,应优先考虑以家兔为实验对象进行ALT的有关研究。
由该例可知,CV对于改进实验方法,选择最佳实验对象、指标等,都具有一定的实际意义。
变异指标:
1.极差较粗,适用于任何分布;
2.标准差与均数单位相同,最常用,适用于正态及近似正态分布的统计描述;
3.集中指标和离散指标分别反映资料的特征,常配套使用:
正态分布:算术平均数 标准差 偏态分布:中位数 四分位数间距
等比资料:G
正态分布及其应用
第一节 正态分布
某地120例正常人血清铜含量的直方图。设想观察人数逐渐增多组、距不断细分,作直方图。将各直方顶端的中点连接,形成一条光滑的曲线,该曲线即频数曲线或频率曲线,近似于数学上的正态分布曲线。
一、 正态分布:又称Gauss分布或常态分布,是一种最重要的连续型分布。
正态分布曲线:是高峰位于中央,两侧逐渐下降,左右对称,永远不与横轴相交的曲线。
二、正态分布的密度函数
(–∞<x<∞)
f(x)为与x对应的正态曲线的纵坐标高度;μ为总体均数;σ为总体标准差;π为圆周率,即3.14159;e 为自然对数的底,即2.71828。
三、正态分布的特征
1.在X轴上方,均数所在处最高。
2.集中性、对称性和均匀变动性。
3.正态分布有两个参数μ和σ。
四、标准正态分布
由于不同的正态分布有不同的μ和σ,用公式计算的随机变量x落在某个区间内的概率显得非常麻烦。为寻求一个通用的方法,进行标准正态变换 (即u变换): u= (x -μ)/σ。此变换实质上是作了一个坐标轴的平移和尺度变换,使原来的正态分布变换为μ=0、σ=1的标准正态分布(亦称u分布),记为N(0,1)。
五、标准正态分布的密度函数
(–∞< u <∞)
式中(u)为标准正态分布的密度函数,即纵坐标高度。
六、正态曲线下面积分布的规律:
七、正态分布的应用
1.统计分析方法的基础:很多抽样分布,如卡方分布、t分布都是建立在正态分布的基础上。
2.质量控制:为了控制检测误差,常以 ±2s作为上下警戒线; ±3s作为上下控制。
3.估计医学参考值范围。 4.进行参数估计和假设检验。
第二节正态分布的应用
一、 可根据正态分布的规律估计观察值的频数分布范围。
例题 已知某地120名正常人血浆铜含量(μmol/L)的均数=14.48、s=2.27,估计该地120名正常人血浆铜含量在14.20~15.60(μmol/L)范围内的人数。
1.计算u值 当μ和σ未知时,u=(x-)/s。
x1=14.20,u1=(14.20-14.48)/2.27=-0.12
x2=15.60,u2=(15.60-14.48)/2.27=0.49
2.查表 -0.12左侧的面积就是 0.12右侧的面积。
当u=0.12时,在表的左侧找到0.1,在表的上方找到0.02,二者相交处为0.5478,Ф(-0.12)=1-0.5478=0.4522,即标准正态变量u值小于-0.12的概率为0.4522;
当u=0.49时,Ф(0.49)=0.6879,即u值小于0.49的概率为0.6879。
3.确定概率
u值在-0.12~0.49范围内的面积为:Ф(0.49)-Ф(-0.12) = 0.6879-0.4522=0.2357,
即血浆铜含量在14.20~15.60(μmol/L)范围内的概率为23.57%。
4.估计区间内人数
120名正常人血清铜含量在14.20~15.60(μmol/L)范围的人数为120×23.57%=28人
二 、制定医学参考值范围
1、医学参考值的意义
医学参考值:是指包括绝大多数正常人的解剖、生理、生化、免疫、组织或排泄物中成分的测量值。
医学参考值范围虑到变异的影响,提高参考值作为判定正常或异常的可靠性所确定的绝大多数正常人医学参考值的波动范围。
使用“参考值范围”的目的:个体—临床上划分正常人与异常人的参考。人群—制订不同性别、年龄儿童某项发育指标的等级标准,用来评价儿童的发育水平等。
2、制定参考值范围的步骤
选定健康人作为调查对象。控制测量误差。确定样本含量。根据实际意义分组。
决定取单侧还是双侧界限。选定适当的百分界限。常用95%、80 %、90%、99%等。
制定医学参考值范围。
3、制定参考值范围的常用方法
正态分布法 适用于正态或近似正态分布的资料。 表达式为,α为正态曲线下单侧或双侧尾部的面积,uα为α相应的标准正态离差。
双侧95%的界限值为:
单侧95%的上限值为:
单侧95%的下限值为:
例题:某地调查正常成年男子144人的红细胞数,得均数5.38(1012/L),标准差0.44(1012/L),试估计该地成年男子红细胞数的95%参考值范围。
因红细胞数过多或过少均为异常,用双侧界值。
下限: - 1.96s=5.38-1.96 ×0.44 =4.52
上限: + 1.96s=5.38+1.96×0.44 =6.24
该地成年男子红细胞数的95%参考值范围(4.52—6.24)1012/L 。
百分位数法:是利用两个百分位数作为双侧参考值范围的上、下限,或者用一个百分位数作为参考值的上限或下限。
适用于非正态分布或分布未知的资料。
1)双侧95%参考值范围: P2.5~P97.5 2)单侧95%参考值范围上限值:P95
3)单侧95%参考值范围下限值:P5
总体均数的估计
参数估计:是通过样本信息估计其总体相应指标的数值及数值范围的统计分析方法,即用统计量估计总体参数的方法,是统计推断的一个重要方面。
第一节 抽样分布与抽样误差
◆医学科研的常用方法是抽样研究。
◆由于个体差异的存在,测算的样本指标值很难恰好等于总体指标值。这种由个体差异和抽样造成的样本与总体、样本与样本相应统计指标之间的差异即抽样误差。
一、样本均数的抽样分布与标准误
1.样本均数的抽样分布:指某种统计量的频数分布。用样本统计量作为该样本的代表值,这些个样本代表值的大小就形成了一个抽样分布。
2.抽样分布的特点:(1)各统计量间存在差异,统计量不一定等于参数。
(2)统计量的变异范围比原变量的变异范围大大缩小。
(3)随着n增加,样本均数的变异程度减小。
(4)如果原始变量服从正态分布,则统计量也服从正态分布。
如果原始变量不服从正态分布,若n较大,则统计量服从正态分布;若n较小,则统计量为非正态分布。
3.抽样误差:是因抽样产生的样本与样本、样本与总体相应统计指标之间的差异。
◆由于存在个体差异,且样本又未包含总体的全部信息,因此抽样误差是无法避免的。
◆抽样误差的大小主要取决于样本含量的多少和研究指标的变异程度。
4.标准误:◆表示样本指标值在抽样分布中的变异情况。
◆SE越小,说明抽样误差越小,用统计量来估计参数时的可靠程度越大;反之,SE越大,说明抽样误差越大,用统计量来估计参数时越不可靠。
均数的标准误:◆样本均数的标准差也称均数的标准误。
◆反映样本均数间的离散程度,反映样本均数与相应总体均数间的差异,说明均数抽样误差的大小。
估计标准误:◆由于σ往往未知,常以S替代,算得的标准误称估计标准误。其统计符号。
◆由于标准误与抽样误差成正比,与样本均数的代表性成反比,故在实际工作中可将标准误作为描述统计指标可靠性的依据。
5.标准差与标准误的比较
标准差
均属标准误
意义
描述个体观察值之间的离散性(变异程度)
描述同一总体中随机抽出样本含量相同的多个样本均数间的离散性
公式
与n的关系
随着n的增大逐渐趋于稳定
随着n的增大逐渐减小,与n的平方根成反比。
用途
表示观察值得变异大小;结合样本均数描述正态分布的特征;在正态分布时做参考值范围的估计;计算变异系数和均数的标准误
表示样本均数抽样误差的大小;描述样本均数的可靠性;结合样本均数估计总体均数的CI;进行均数间差别的假设检验
例题:已知某样本资料的s=2.27(μmol/L),n=120,求其标准误。
代入公式得:
二、t 分布及其应用
1.t 分布:若对正态分布总体多次重复抽取若干样本含量相同的样本,样本均数围绕总体均数μ呈现正态分布。若将所有样本均数按公式进行数学变换,可得 u 围绕0的标准正态分布。
由于总体标准差未知,只能求出标准误的估计值,变换公式求t 值,可得到若干t值。
将这些t 值绘成直方图,若样本无限多,可绘成一条光滑的曲线——t 分布曲线,此时所得的t 值围绕0呈现的就是t 分布。
2.t 分布的特征:(1)是一簇单峰分布曲线,以0为中心,左右对称。
(2)其形态变化与自由度ν的大小有关——ν越小,则t值越分散,t 分布曲线越低平,t 分布的峰部越矮而尾部翘得越高;ν越大,t 分布越逼近正态分布。
(3)t分布的单侧概率和双侧概率
在t界值表中,横标目为自由度ν,纵标目为概率(P或α)。
一侧尾部面积称为单侧概率或单尾概率;
两侧尾部面积之和称为双侧概率或双尾概率。
表中数字表示当ν和α确定时,对应的t的界值,其中与单尾概率相对应的t界值用表示,与双尾概率相对应的t界值用 表示。
查t界值表注意:由于t 分布是以0为中心的对称分布,故附表2只列出正值,查表时,不管t值正负,均可用其绝对值︱t︱查表得概率P值。
相同自由度时,︱t︱值增大,概率P减小;
在相同︱t︱值时,双尾概率P是单尾概率P的两倍。
如双尾 =单尾 =1.812
3.t 分布的用途:总体均数的区间估计;t 检验。
第二节 总体均数的估计
是根据样本分布的特点,由样本均数推测总体均数的大小及其范围。
总体均数估计的方法有点估计和区间估计两种。
一、 总体均数的点估计
点估计 概念:用样本确定的统计量的值来直接估计总体参数的数值。
方法:以样本统计量及其标准误作为被估计参数的点估计值,一般是以统计量加减标准误的方式给出参数的点估计值。
优点:方法简单。 缺点:未考虑抽样误差的影响。
二、区间估计——根据抽样分布原理,按预先给定的概率水准,给出被估计参数可能的数值
范围。统计学称这一范围为被估计参数的可信区间(CI)。称预先给定的概率水准为可信度或
可信系数,符号为1-α,常取95%或99% 。称按95%或99%水准确定的CI为95%CI或
99%CI。
1. 大样本资料均数的可信区间
样本例数n足够大(n≥100)时,可按正态分布原理,用以下公式估计总体均数μ的CI。
95%CI= 99%CI=
例题:测得某地296例成年男性发锌的均数为200.0ppm,标准差为21.8ppm。试估计该地成年男性发锌总体均数的95%CI。
本例n=296, =200,s=21.8, = =1.27。
95%CI=200.0±1.96×1.27=(197.51,202.49)
该地成年男性发锌总体均数的95%CI为197.51~202.4ppm。
2.小样本资料均数的可信区间
当n较小(n<100)时,一般按t分布原理,用以下公式估计总体均数μ的CI。
95%CI= 99%CI=
式中t0.05/2,ν与t0.01/2,ν为t0.05与t0.01的双侧界值。
例题:测得某地12例肾虚失钠型哮喘病人甲皱微循环管袢长度的均数为208.33μm,标准差为67.07μm。试估计该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95%CI。
本例n=12, =208.33,s=67.07,
= = 19.36 ν=n-1=12-1=11。
查t界值表得t0.05/2,11=2.201,按公式求得:
95%CI=208.33±2.201×19.36=(165.72,250.94)
该地肾虚失钠型哮喘病人甲皱微循环管袢长度总体均数的95%CI为165.72~250.94μm
3.可信区间的要素
(1)准确度:是CI包含总体参数的概率大小,用可信度的大小1-α表示。可信度越接近1,可信程度越高,准确度越高。如可信度99%比95%可信程度高。
(2)精密度:是对总体参数的估计范围或长度的度量,反映在CI即长度愈小愈精密。
每一次估计间的差异越小,CI愈小,即CI的长度越小,其估计的精密度越高。
4.可信区间的特点
(1)当n确定后,CI范围的大小与可信度1-α的高低呈正比,与估计结果的精密度呈反比。
(2)当可信度1-α确定后,n的大小与CI范围的大小呈反比;与估计结果的精密度呈正比。因为增加样本例数会减小标准误,使CI的范围缩小。CI的范围越小,真实值靠近点估计值的可能性越大,靠近CI边缘的可能性越小,估计的精确度也随之提高,其统计效力就越大。
5.可信区间与可信限的关系
CI为某一整体内的一个分段,是以上、下可信限为界的开区间(不包含界值在内)。CU与CL是CI的上下两个界值。如95%CI为(165.6,251.0)μm。165.6μm是CI的下限(L),251.0μm为CI的上限(U)。
6.CI与参考值范围的比较
(1)可信区间:是参数的估计范围,需用标准误(SE)计算,表示总体指标的可能范围。
(2)参考值范围:表示大多数正常人的解剖、生理、生化某项指标的波动范围,需用标准差计算,用于判断观察对象的某项指标正常与否。
假设检验
一、 假设检验的概念与分类
概念:亦称显著性检验,是利用样本信息,根据一定的概率水准,推断样本指标(统计量) 与总体指标(参数)、不同样本指标间的差别有无意义的统计分析方法。
(一) 参数检验和非参数检验
1.参数检验 概念:依赖总体分布的具体形式的统计方法,简称参数法。常用的参数法有χ2 检验、t 检验、F检验等。使用条件是抽样总体的分布已知。
优点:能充分利用样本信息;检验效率较高。 缺点:应用条件限制较多。
2.非参数检验 概念:一类不依赖总体分布的具体形式的统计方法。如Ridit分析、秩和检验、符号检验、中位数检验、序贯试验、等级相关分析等。
优点:①对总体的分布形式不要求;②可用于不能精确测量的资料;
③易于理解和掌握;④计算简便。
缺点:不能充分利用资料所提供的信息,使检验效率降低。
(二)单因素分析与多因素分析
1.单因素分析——亦称一元分析,是在主要的非处理因素相同的条件下,不管影响结果的处理因素(如病人年龄、病情、辩证分型、病理类型、药物剂型、用药途径、疗程等)有多少,每次仅分析一个处理因素与效应之间关系的统计方法。
2.多因素分析——亦称多变量分析或多元分析,是研究多因素和多指标之间的关系以及具有这些因素的个体之间关系的一种统计分析方法。
二、 假设检验的基本思想
先假设差别由抽样造成,即总体间本无差异,在此假设成立的前提下做抽样研究,如果该次抽样属小概率事件,则样本信息不支持原假设的成立,拒绝它。
三、假设检验的基本步骤
例题:根据大量调查,已知健康成年男子的脉搏均数为72次/分。某医生在某医院随机调查30名脾虚男子,求得脉搏均数为74.2次/分,标准差为7.5次/分。脾虚病人的脉搏是正态分布,问脾虚男子的脉搏均数与一般成年男子的脉搏均数是否相等?
分析:
把一般成年男子的脉搏均数看作一个总体均数,脾虚男子的脉搏均数为样本均数。
mmμ0=72,n=30 , X=74.2,s=7.5 。
mμ0 ≠¹ 的原因:
①抽样误差所致。②脾虚致两个均数间有本质性差异。
1.建立假设、确定检验水准
⑴无效假设:记为H0,即样本均数所代表的总体均数μ与已知的总体均数μ0相等。样本均数与μ0的差异是由抽样误差引起,无统计学意义。
⑵备择假设:记为H1,即样本均数所代表的总体均数μ与μ0不相等,样本均数与μ0的差异是本质性差异,有统计学意义。
假设检验有双侧检验和单侧检验
若
展开阅读全文