1、,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,医学统计学,(Medicine Statistics),南京大学医学院范怡梅,1,第一章,医学统计学基本概念与常用统计描述指标,统计学,(statistics):,“,The science and art of dealing with variation in data through collection,classification and analysis in such a way as to obtain reliable results.,”,2,第一节 医学统计学在医学科学中的地位和作用
2、,医学统计学,(Medicine Statistics),是应用概率论和数理统计的基本原理和方法,结合医学实际阐述统计设计的基本原理和步骤,研究资料或信息的收集、整理与分析的一门学科。,是统计学在医学上的应用;,理论基础是概率论和数理统计;,SPSS,Statistical Package for Social Sciences,Statistical Product and Service Solutions,SAS,Statistical Analysis System,作用;,统计工作的步骤。,3,第二节 统计工作的步骤,研究设计(,research design,),调查设计、实验设计
3、,资料收集(,data collection,),统计分析(,statistical analysis),统计描述,(statistical description),统计推断,(statistical inference),4,例 某医生发明了一种新的治疗某病的疗法(治疗组),用现在公用的疗法作为对照(对照组),经临床试验,对照组与治疗组的疗效分别为,P,1,=75%,与,P,2,=95%,,问:能认为这两个有效率之间的差别有显著性意义吗?,假设的,3,批实验结果,组别,例数,有效率(,%,),疗效:有效 无效 合计,甲实验,对照组,治疗组,乙实验,对照组,治疗组,丙实验,对照组,治疗组,1
4、5,19,30,38,45,57,5,1,10,2,15,3,20,20,40,40,60,60,75.0,95.0,75.0,95.0,75.0,95.0,5,甲实验中,,c,2,=1.765,,,P0.05,,,两个有效率,之间的差别无显著性意义;,乙实验中,,2,=6.275,,,0.01 P 0.05,,,两个有效率,之间的差别有显著性意义;,丙实验中,,2,=9.412,,,P 0.01,,,两个有效率,之间的差别有极显著性意义。,6,第三节 统计学中的几个基本概念,7,1.,总体与样本,(population and sample),根据研究目的确定的同质观察单位的全体称为总体。,
5、从总体中随机抽取、进行研究的一部分个体所组成的集合,称为样本。,要保证样本的可靠性、代表性。,2.,同质与变异,(homogeneity and variation),统计研究的是有变异的事物,统计分析的任务就是在同质分组的基础上,通过对变异所呈现出来的统计规律性的研究,透过偶然现象,揭示同质事物的本质特征和规律。,8,3.,抽样误差,(sampling error),因抽样产生的样本与样本,样本与总体相应统计指标之间的差异,称为抽样误差。,抽样误差的大小主要取决于观察单位间变异程度的大小和样本含量的多少。,4.,参数和统计量,(parameter and statistic),总体的指标统称
6、为参数,样本指标称为统计量。,9,5.,概率,(probability),概率是描述随机事件发生的可能性大小的数值,常用,P,表示。随机事件概率的大小在,0,与,1,之间,即,0,P 1,。,习惯上将,P 0.05,,称为小概率事件。,6,统计资料的类型,定量资料,分类资料,如身高(,cm,)、体重(,kg,)等。,无序分类,有序分类,二项分类,多项分类,(等级资料),如阳性与阴性、治愈与未愈。,如血型为,A,、,B,、,AB,、,O,型。,如治疗结果为治愈、显效、好转、无效四级。,10,第四节 数值变量的描述性统计,统计图表;,统计指标。,11,一、频数分布,(frequency distr
7、ibution),12,(一),编制频数表的步骤,求极差,R=84-57=27,(次,/,分),划分组段,确定组数:较大样本时,一般取,10,组左右。,确定组距:极差,/,组数,=27/10=2.73,(次,/,分),确定各组段的上下限:上限,=,下限,+,组距,统计各组段内的数据频数,编制频数表,13,表,2.1 130,名健康成年男子脉搏(次,/,分)的频数分布表,脉搏组段,(,1,),频数,(,2,),频率(,%,),(,3,),累计频数,(,4,),累计频率(,%,),(,5,),56,59,62,65,68,71,74,77,80,8385,合计,2,5,12,15,25,26,19
8、,15,10,1,130,1.54,3.85,9.23,11.54,19.23,20.00,14.62,11.54,7.69,0.77,2,7,19,34,59,85,104,119,129,130,1.54,5.38,14.62,26.15,45.38,65.38,80.00,91.54,99.23,100.00,14,(二),频数表的用途,可以揭示资料的分布类型和分布特征,以便于选用相应的统计分析方法。,便于进一步计算指标和统计处理。,便于发现某些特大或特小的可疑值。,15,二、集中趋势,(central tendency),的描述,三种平均数,(average),算术均数,(arithm
9、etic mean),几何均数,(geometric mean),中位数,(median),16,(一)算术均数(,arithmetic mean,),简称均数,适合于表达呈正态分布资料的平均水平。,直接法:,例,2-2,:,=,81+70+66+,+69,13,=71.69,(次,/,分),17,加权法,:,例:,=,57.52+60.55+63.512+,+84.5,1,130,=71.62,(次,/,分),18,(二)几何均数(,geometric mean,G,),适用于原始数据分布不对称,但经对数转换后呈对称分布的资料。,19,例:40名麻疹易感儿童接种麻疹疫苗后一个月,测其血凝抑制
10、抗体滴度,结果如表所示,求几何均数。,抗体滴度,人数,f,滴度倒数,X,lgX,1,:,4,1,:,8,1,:,16,1,:,32,1,:,64,1,:,128,1,:,256,1,:,512,1,4,5,8,11,6,4,1,4,8,16,32,64,128,256,512,0.6021,0.9031,1.2041,1.5051,1.8061,2.1072,2.4082,2.7093,20,21,(三)中位数(,median,M,),适合于表达偏态资料、或分布不明的资料的平均水平,尤其适合于表达只知数据的个数、但部分较大或较小数据的具体数值未准确知道的资料的平均水平。,22,对于原始数据和频
11、数分布表资料,分别用下列两式计算中位数。,M=,(,X,n/2,+X,(,n/2+1,),),/2,(,n,为偶数),X,(,n+1,),/2,(,n,为奇数),其中,,L,M,:中位数所在组下限;,i,M,:中位数所在组的组距;,f,M,:中位数所在组的频数;,f,L,:中位数所在组前一组的累计频数。,23,例,2-4,表,2.3 107,正常人的尿铅含量(,g/L,),的,中位数计算表,含量(,g/L,),(,1,),频数,f,(,2,),累计频数,f,(,3,),累计频率,%,(,4,),0,4,8,12,16,20,24,28,合计,14,22,29,18,15,6,1,2,107,1
12、4,36,65,83,98,104,105,107,13.08,33.64,60.75,77.57,91.59,97.20,98.13,100.00,M=8+(107/2-36)=10.41(,g/L,),4,29,24,三、离散趋势(,tendency of dispersion),的描述,例:设有三组同年龄、同性别儿童体重(,kg,)数据如下:,甲组,26 28 30 32 34,乙组,24 27 30 33 36,丙组,26 29 30 31 34,25,描述离散程度的指标:,极差、四分位数间距、方差、标准差及变异系数。,26,(一),极差(全距,,range,R,),为一组同质观察值中
13、最大值与最小值之差。,甲组,R=34-26=8,乙组,R=36-24=12,甲组数据分布较乙组集中。,27,优点:计算简单,缺点:,1.,没有充分利用样本信息,只考虑最大值与最小值之差异,不能反映组内其它观察值的变异度。,2.,样本含量越大,抽到较大或较小观察值的可能性越大,则极差可能越大,因此,样本含量悬殊时不宜用极差比较分布的离散度。,所以,一般不用极差来反映离散程度。,28,(二)四分位数间距(,quartile interval,Q,),29,1.,分位数的概念,分位数是一种位置指标,一个特定的分位数将任何一个频数曲线下的面积分为两部分。,第,1,四分位数记作,Q,1,,第,2,、第,
14、3,四分位数,分别记作,Q,2,、,Q,3,;第,1,百分位数,记作,P,1,。同理,还有第,2,、第,3,、,、第,99,百分位数,分别记作,P,2,、,P,3,、,、,P,99,。,显然,,Q,1,=P,25,、,Q,2,=P,50,=M,、,Q,3,=P,75,30,2.,百分位数,(percentile),的计算公式,对连续型变量频数表资料,按下式计算第,X,百分位数,P,X,:,其中,,L,X,:第,X,百分位数所在组下限;,i,X,:第,X,百分位数所在组的组距;,f,X,:第,X,百分位数所在组的频数;,f,L,:第,X,百分位数所在组前一组的累计频数。,31,例 某地,200,
15、例正常成人血铅含量的频数分布如表所示,请计算出血铅含量的,95%,正常值范围。,200,例正常成人血铅含量的频数分布表,血铅含量 频数 累计频数,(,mol/L,)(,1,)(,2,),0,0.24,0.48,0.72,0.97,1.21,1.45,1.69,1.93,2.17,2.42,2.66,2.903.14,6,48,43,36,28,13,14,4,4,1,2,0,1,6,54,97,133,161,174,188,192,196,197,199,199,200,解:即求,P,95,。,nX%=20095%=190,故某地正常人血铅含量,95%,的单侧正常值范围的上限为,1.81,(
16、,mol/L,)。,32,3.,四分位数间距,(,quartile interval,Q,),Q=P,75,-P,25,Q=Q,U,-Q,L,优缺点:用四分位数间距作为描述数据分布离散程度的指标,比极差稳定,但仍未考虑到每个数据的大小,常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散程度。,33,例,2-10,据书中表,2.3,资料求四分位数间距,Q,。,P,25,=4+,4,22,(,107,25%,14,),=6.32(,g/L,),P,75,=12+,4,18,(,107,75%,65,),=15.39(,g/L,),Q=P,75,-P,25,=15.39-6.32=9.0
17、7(,g/L,),34,(三)方差,(variance),35,n-1,称为自由度,36,(四)标准差,(standard deviation),37,加权法:,38,(五)变异系数(,coefficient of variation,CV,),1.,用于比较度量衡单位不同的多组资料的变异度。,2.,比较均数相差悬殊的多组资料的变异度。,39,例 某地不同年龄组男子身高(,cm,)的变异程度,年龄组,33.5,岁,3035,岁,人数,100,100,均数,96.1,170.2,标准差,3.1,5.0,变异系数,3.2%,2.9%,40,四、正态分布(,normal distribution),
18、41,(一,),正态分布的概念和特征,正态分布的图形:正态分布的密度函数:,-,X+,通常用,N,(,,2,)表示均数为、方差为,2,的正态分布。,42,正态分布的特征,1.,正态曲线在横轴上方均数处最高;,2.,正态分布以均数为中心,左右对称;,3.,正态分布有两个参数,即均数,与标准差。是位置参数,当固定不变时,越大,曲线沿横轴越向右移动;越小,曲线沿横轴越向左移动。是变异度参数,当固定不变时,越大,曲线越平阔;越小,曲线越尖峭。,4.,正态曲线下的面积分布有一定的规律。,43,常用的两个区间:,1.96,及,2.58,的区间面积分别占总面积(或总观察例数)的,95%,及,99%,,如下图
19、所示:,95%,2.5%,2.5%,-1.96,+1.96,99%,-2.58,+2.58,0.5%,0.5%,44,(,二,),标准正态分布,(standardized normal distribution),令,-,u+,用,N,(,0,,,1,),表示标准正态分布,45,(,三,),正态分布的应用,制定医学参考值范围,(medical reference range),许多统计方法的理论基础,46,参考值范围的制定,正态分布法 百分位数法,%,90,95,99,单,只有下限,侧,只有上限,双侧,P,5,P,95,P,2.5,P,97.5,P,0.5,P,99.5,单,只有下限,P,10
20、,P,5,P,1,侧,只有上限,P,90,P,95,P,99,47,例 出生体重低于,2500,克为低体重儿。若由某项研究得某地婴儿出生体重均数为,3200,克,标准差为,350,克,估计该地当年低体重儿所占的比例。,48,补充题 以下是,101,名,30-49,岁正常成年男子的血清总胆固醇(,mmol/L,)测定值的频数表,请据此资料,:(,1,)选择适当的集中趋势指标并计算之;(,2,)选择适当的离散程度指标并计算之;(,3,)求该地,30-49,岁健康男子血清总胆固醇的正常值范围;(,4,)估计该地,30-49,岁健康男子血清总胆固醇值小于,4.50,mmol/L,的概率。,血清总胆固醇
21、,2.5,3.0,3.5,4.0,4.5,5.0,5.5,6.0,6.5,7.07.5,合计,频数,f,1,8,9,23,25,17,9,6,2,1,101,fx,2.75,26,33.75,97.75,118.75,89.25,51.75,37.5,13.5,7.25,478.25,fx,2,7.56,84.50,126.56,415.44,564.06,468.56,297.56,234.38,91.13,52.56,2342.31,49,第五节 抽样误差与区间估计,50,一、均数的抽样误差与标准误,从样本获取有关总体信息的过程称为统计推断,(statistical inference),
22、。,由个体差异产生的,抽样造成的样本与样本、样本与总体相应统计指标之间的差异,称为抽样误差,(sampling error),。,51,标准误(,standard error,SE,):样本统计量的标准差。,均数的标准误(,SEM,,),:,即样本均数的标准差。,样本观测值的标准差与样本均数的标准误的比较:,1.,标准差与标准误都反映数据的离散性;,2.,标准差的大小反映各个个体的观测值,X,之间的变异,程度(离散程度),标准误的大小反映各个样本均,数 间的变异程度(离散程度),也反映了样本均,数代表总体均数的可靠性。,52,数理统计推出:,1.,从正态总体,N,(,,2,)中,随机抽取例数为
23、,n,的样本,样本均数 也服从正态分布;即使从偏态总体随机抽样,当,n,足够大时,也近似正态分布;,2.,从均数为,标准差为的正态或偏态总体,抽取例数为,n,的样本,样本均数 的总体均数也为,标准差用,表示,则 可按下式计算:,53,54,二,、,t,分布,55,(一),t,分布的概念,56,,即,u,分布。,用,S,代替,,得到,t,分布,57,(二),t,分布的图形和特征,以,0,为中心,左右对称的单峰分布;,t,分布曲线是一簇曲线,其形态变化与自由度,的大小有关。,自由度,越小,则,t,值越分散,曲线越低平;,自由度,逐渐增大时,,t,分布逐渐逼近,u,分布;当,=,时,,t,分布即为,
24、u,分布。,t,分布曲线下总的面积等于,1,,即,t,值落入区间(,-,,)内的概率为,1,。,t,值落入任一区间(,t,1,,,t,2,)内的概率等于该区间内曲线和横坐标轴所夹的面积。,58,附表,2 t,界值表通式:,单侧:,P,(,t,-t,)=,或,P,(,t,t,)=,双侧,:,P,(,t,-t,/2,)+,P,(,t,t,/2,)=,图中非阴影部分面积的概率为,:,P,(,-,t,/2,t,t,/2,)=1-,59,三、总体均数的估计,参数估计是指用样本指标值估计总体指标值。,包括点估计和区间估计。,60,点估计:,就是用样本统计量直接作为总体参数的估计值。,区间估计:,即按预先给
25、定的概率(,1-,)确定包含未知总体参数的可能范围。该范围称为参数的可信区间或置信区间,预先给定的概率称为可信度或置信度,常取,95%,或,99%,。,可信区间的确切含义指的是:有,1-,的可能认为计算出的可信区间包含了总体参数。,61,总体均数可信区间,(confidence interval),的计算:,1.,未知:按,t,分布。,由于,P,(,-,t,/2,,,t t,/2,,,),=1-,,,62,2.,已知或未知但,n,足够大时:按,u,分布,双侧可信区间为:,(,)或(,),63,均数的可信区间与参考值范围的区别:,1.,意义不同,均数的可信区间的统计意义:,(,1,)按预先给定的
26、概率,确定的包含总体均数的可能范围,因此它用于估计总体均数。,(,2,)可信度要高,但精度不能下降。,参考值范围的统计意义:,“,正常人,”,的解剖、生理、生化某项指标的波动范围,可以用于判断观察对象的某项指标正常与否。,2.,两者的计算公式有差别:可信区间用了标准误,参考值范围用了标准差。,64,补充题,152,例麻疹患儿病后血清抗体滴度倒数的分布如下,试作总体几何均数的点值估计和,95%,区间估计。,152,例麻疹患儿病后血清抗体滴度倒数的分布,滴度倒数,1 2 4 8 16 32 64 128 256 512 1024,合计,人 数,0 0 1 7 10 31 33 42 24 3 1
27、152,65,第六节,SPSS,演示,Data Editor,Viewer,Syntax Editor,Script,66,例,2.1,View Variable:,View Data:,67,定义变量名,变量名最长不超过,64,个字节,;,首字符必须是字母或汉字,不能以,_,或,.,结尾,;,变量名中不能有空格或某些特殊符号,如,!?*;,变量名不能与,SPSS,的关键字相同,如,ALL,AND,BY,EQ,GE,GT,LE,LT,NE,NOT,OR,TO,WITH,等,;,对变量名英文字母的大小写不作区分,.,68,Analyze Descriptive StatisticsFrequen
28、cies,Variable:x,Statistics,Percentile Values:Quartiles,Central Tendency:Mean;Median,Dispersion:Std.deviation,Distribution:Skewness,Continue,Charts,Histogram,Continue,Format,Order by:Ascending,Continue,OK,频数分布分析,:,69,70,正态性检验:,Analyze Nonparametric Tests 1-Sample Kolmogorov-Smirnov Test,Test Variable
29、 List:x,Test Distribution:Normal,OK,71,练习,2.2,View Variable:,View Data:,72,TransformCompute,Target Variable:logx,Mumeric Expression:lg10(x),OK,Data Weight Cases,Weight Cases by Frequency Variable:f,OK,Analyze Descriptive Statistics Descriptives,Variable:logx,OK,73,可信区间:补充题,View Variable:,View Data:,
30、74,Transform Compute,Target Variable:logx,Numeric Expression:LG10(x),OK,Data,Weight Cases,Weight Cases by Frequency Variable:f,OK,Analyze Descriptive Statistics Explore,Dependent list:logx,Display:Statistics,Statistics,:Descriptives,Continue,OK,75,76,教材:,余松林,.,医学统计学,.,人民卫生出版社,,2002.3,第,1,版,.,参考文献:,颜虹,.,医学统计学,.,人民卫生出版社,,2010.8,第,2,版,.,陈平雁,.,SPSS13.0,统计软件应用教程,.,人民卫生出版社,,2005.9.,第,1,版,.,77,