1、第三章变异程度的统计描述 例3、1 对甲乙两名高血压患者连续观察5天,测得得收缩压(mmHg)结果如下:患者第1天第2天第3天第4天第5天均数甲患者 162145178142186162、6乙患者 164160163159166162、4可以看出:两患者收缩压得均数十分接近,但甲患者血压波动较大,而乙患者相对稳定。通常,描述一组观察值,除需要表示其平均水平外,还要说明她得离散或变异得情况。第一节、衡量变异程度得指标第一类 按间距计算l 级差l 四分位间距第二类 按平均差距计算l 平均偏差l离均差平方和l 方差l 标准差l 变异系数一、极差和四分位数间距1、极差(range)又称全距,即观察值中
2、最大值与最小值之差。用符号R表示。R越大,说明资料离散程度越大。如前例甲乙两患者收缩压得极差分别为:优点:简单明了,容易使用。如用于说明传染病、食物中毒等得最短、最长潜伏期等。缺点:没有利用观察值中得全部信息,不稳定。2、四分位数间距(quartile)将所用观察值排序后,分成四个数目相等得段落,每个段落得观察值数目各占总例数得25%,去掉两端得25%,取中间得50%观察值得数据范围即为四分位数间距。用Q表示。上四分位数Qu(P75)与下四分位数Ql(P25)之差,包含了全部观察值得一半。四分位数间距主要用于衡量明显偏态分布资料得变异程度。Q越大,说明资料变异程度越大。第二章例2、4:Q=P7
3、5-P25=135、763、2=72、5mg/L 优点:与极差相比不易受极端值影响 缺点:仍然没有利用观察值中得全部信息,不稳定。9大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流二、离均差平方和、方差、标准差和变异系数 平均偏差 离均差平方和 方差 标准差 变异系数(一)平均偏差(Mean Difference)1、概念:将每个观察值与均数之差得绝对值相加,然后取平均值称为平均偏差。2、公式:平均偏差越大,说明资料离散程度越大。缺点:由于使用绝对值,应用受到限制,实际 中很少用到。乙患者:如对于例3、1:甲患者:(二)离均差平方和(Sum of Squar
4、e,SS)为了克服平均偏差得缺点,可以不通过取绝对值,而就是通过取平方来避免正负抵消,即使用离均差平方和,其计算公式为 SS 通常作为一个中间统计量使用。(三)方差(Variance)方差就是将离均差平方和再取平均,即 注意:对于样本资料,分母用得就是n-1,称为自由度(degree of freedom,df)。方差得特点:便于数学上得处理,但由于有平方,度量衡发生变化,不便于实际应用。(四)标准差(Standard Deviation)将方差取平方根,还原成与原始观察值单位相同得变异量度即为标准差:例如对于例3、1经计算有 甲患者:乙患者乙患者:对于频数表资料f 为各组段得频数 为各组段得
5、组中值 例3、2 根据第二章表2-2频数表资料,计算成年男子红细胞数得标准差。计算表如下:红细胞计数(x1012/L)组中值(x)频数(f)f xf x2(1)(2)(3)(4)(5)3、803、9027、8030、424、004、106 24、60 100、864、204、30 11 47、30 203、394、404、50 25 112、50 506、254、604、70 32 150、40 706、884、804、90 27 132、30 648、275、005、10 17 86、70 442、175、205、30 13 68、90 365、175、405、504 22、00 121、0
6、05、605、702 11、4064、89 5、805、955、9015、9034、81合计 140 669、803224、20表表3-1 1403-1 140名成年男子红细胞计数名成年男子红细胞计数(10101212/L/L)得标准差计算表得标准差计算表根据公式计算:标准差为:0、381012/L标准差得意义:全面反映了一组观察值得变异程度,越大说明围绕均数越离散,反之说明较集中在均数周围,均数代表性越好。标准差得应用:描述变异程度、计算标准误、计算变异 系数、描述正态分布、估计正常值范围。(五)变异系数(Coefficient of Variation)意义:标准差与均数之比用百分数表示。
7、符号:CV 计算:无单位 应用:单位不同得多组数据比较 均数相差悬殊得多组资料比较例3、3 测得某地成年人舒张压均数为77、5mmHg,标准差为10、7mmHg;收缩压均数为122、9mmHg,标准差为17、1mmHg。试比较舒张压和收缩压得变异程度。第二节、正态分布及应用 正态分布 标准正态分布 正态分布应用图3-1 某地成年男子红细胞数得分布逐渐接近正态分布示意图 一、正态分布(Normal Distribution)正态分布有两个参数正态分布有两个参数:和和 ,分别表示均数和标准差。分别表示均数和标准差。正态分布得特征 均数处最高,以均数为中心,左右对称 曲线下面积集中在以均值为中心得中
8、心部分 曲线下得面积有一定规律 正态分布完全由参数和决定 图3-2 正态分布曲线下得面积 图图3-3 3-3 三种不同均值得正态分布三种不同均值得正态分布 图图3-4 3-4 三种不同标准差得正态分布三种不同标准差得正态分布 二、标准正态分布(Standard Normal Distribution)就是均数为0,标准差为1得正态分布。正态分布得特殊形式:标准正态分布N(0,1)记作:X N(0,1)二、标准正态分布 对任何参数得正态分布,都可以通过一个简单得变量变换 化成 和 得标准正态分布。通常,可以利用标准正态分布表求出与原始变量X 有关得概率值。二、标准正态分布(Standard No
9、rmal Distribution)图3-5 标准正态分布及曲线下面积 对任意得正态分布,都可以通过下面得公式转化为标准正态分布。例:成年男子得红细胞数近似服从正态分布,假设均值为4、781012/L,标准差为0、381012/L,试计算红细胞数低于41012/L所占得比例。查附表1得(-2、05)=0、0202,表明成年男子得红细胞数低于41012/L得人占总体得2、02%。例:成年男子得红细胞数近似服从正态分布,假设均值为4、781012/L,标准差为0、381012/L,试计算红细胞数在41012/L 5、51012/L范围内所占得比例。成年男子得红细胞数在41012/L 5、51012
10、/L范围内所占得比例95、04%。三、正态分布应用 医学参考值范围得估计 误差分析和质量控制 统计推断方法得理论基础第三节、医学参考值范围第三节、医学参考值范围一、医学参考值范围得概念医学参考值范围得概念:医学参考值范围(reference value range)传统上称正常值范围(normal range),就是指特定健康人群得解剖、生理、生化、免疫及组织代谢产物得含量等各种数据得波动范围。习惯上就是确定包括95%得参照总体得范围。使用医学参考值目得一就是基于临床实践,着眼于个体,作为划分正常人与异常人得界限。二就是基于预防医学,着眼于人群,如制订不同性别、年龄得儿童某项发育指标得等级标准
11、,用来评价儿童得发育水平等。二、医学医学参考值范围得制定方法:1、选取足够数量得正常人作为参照样本 2、对选定得参照样本进行准确得测定 3、决定取单侧范围还就是双侧范围值 4、选取适当得百分范围 5、估计参考值范围得界限估计参考值范围得界限 参考值范围估计主要有百分位数法和正态分布法。百分范围(%)单 侧 双 侧 下限 上限 下限 上限 95 P5 P95 P2、5 P97、5 99 P1 P99 P0、5 P99、5 表3-2 参考值范围所对应得百分位数 估计参考值范围得界限 参考值范围估计主要有百分位数法和正态分布法。百分范围百分范围(%)(%)单单 侧侧 双双 侧侧 下限下限 上限上限 下限下限上限上限 95 95 99 99 表3-3 参考值范围所对应得正态分布区间