1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,.,*,南京医科大学流行病与卫生统计学系,Department of epidemiology and biostatistics,医学统计学,Contact:86862755,mspzh2003,彭志行,南京医科大学,Nanjing Medical University,流行病与卫生统计学系,1,.,第一章 绪论,统计学与医学统计学,医学统计学的内容,医学研究的三个步骤,三类资料,医学统计中的基本概念,建立统计学思维,2,.,统计学是当今最重要的科学技术之一,美国,“,科学84年,”,杂志选出,“,20世纪对
2、人类生活影响最大的20项科技成果,”,;统计学入选其中(其它如:相对论、激光、电视、DNA等).,3,.,统计学定义:,Statistics is the science dealing with the collections,analysis,interpretation and presentation of masses of numerical data,.,(Webster),Statistics is the,science and art,of dealing with variation in data through collection,classification an
3、d analysis in such a way as to obtain reliable result.,(Armitage),4,.,“统计学是收集和分析数据的科学与艺术。”,不列颠百科全书,不像其他学科,统计从来不打算使自己完美无缺,统计意味着你永远不需要确定无疑。,GudmundR.lversen,5,.,Believe it or not?You are using statistics almost every day!,我要在中午12:40赶到新街口,12:00走比较好,天气预报说今天有70的几率会下雨,我还是带伞吧!,我这次找张大夫治疗效果不错,下次还要找他!,6,.,医学统
4、计学(,medical statistics,),,,是以,医学理论,为指导,应用,概率论与数理统计,的有关原理和方法,研究,医学资料,的,搜集、整理、分析和推断,的一门科学。,7,.,数理统计学与生物医学的结合,生物统计学,(,Biostatistics,),应用于生物学研究,又称生物测量学,Biometrics,医学统计学(,Medical Statistics,),应用于医学研究,侧重于医学的生物性,卫生统计学(,Health Statistics,),应用于医学研究,侧重于医学的社会性,8,.,三个步骤:,研究设计,运用医学统计学的起点,也是高质量地完成整个研究的重要基础。,资料分析,
5、在研究设计基础上,通过实验,(,试验,),或调查,将所得数据进行统计学处理的过程。,结论,在数据分析的基础上,应用统计学处理的结果,进行统计学推断;同时,依据相应的专业知识,作出专业性的结论。,9,.,Example:,10,.,1936年美国总统选举;,literary digest,民意调查;,堪萨斯州州长A1f landon?,当任总统,Franklin D.Roosevelt?,电话簿和车辆登记簿上的名单,“A1f landon win!”,In fact,Franklin win!,why?,11,.,三类资料:,(1)定量资料,(,quantitative data,),(2)定性
6、资料,(,qualitative data,),(3)等级资料,(,ranked data,ordinal data,),12,.,资料类型的判断:,病例号,年龄,(岁),性别,身高,(cm),血型,心电图,尿WBC,职业,RBC,10,12,/L,1,35,女,1.65,A,正常,教师,4.67,2,44,男,1.74,B,正常,工人,5.21,3,26,男,1.80,O,正常,职员,4.10,4,25,女,1.61,AB,正常,农民,3.92,5,41,男,1.71,A,异常,+,工人,3.49,6,45,女,1.58,B,正常,+,工人,5.48,7,50,女,1.60,O,异常,+,干
7、部,6.78,8,28,男,1.76,AB,正常,+,干部,7.10,9,31,女,1.62,O,正常,军人,5.24,13,.,另一种分类:,数值变量资料,(numerical variable),分类资料,(categorical variable),二分类(,binary(dichotomous)variable,),多分类(,polytomous variable,),无序多分类,(,multinomial,),有序多分类(,ordinal,),(等级资料,ranked data,),14,.,数学上的分类,连续型资料(continuous data),离散型资料(discrete d
8、ata),15,.,1950-2003年全国法定传染病报告情况,0.00,1000.00,2000.00,3000.00,4000.00,5000.00,6000.00,7000.00,8000.00,50,53,56,59,62,65,68,71,74,77,80,83,86,89,92,95,98,01,发病率(1/100,000),0.00,10.00,20.00,30.00,40.00,50.00,60.00,死亡率(1/100,000),总发病率,总死亡率,16,.,1950-2003年全国法定报告传染病病死率,50,51,52,53,54,55,56,57,58,59,60,61,
9、62,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,81,82,83,84,85,86,87,88,89,90,91,92,93,94,95,96,97,98,99,0,1,2,3,0,1,2,3,4,5,总病死率(%),1990-2003年全国法定报告传染病病死率,90,91,92,93,94,95,96,97,98,99,2000,2001,2002,2003,0,0.1,0.2,0.3,0.4,17,.,1990-2003年全国甲肝、乙肝发病率,0,10,20,30,40,50,60,1990,1991,1992,1993,1
10、994,1995,1996,1997,1998,1999,2000,2001,2002,2003,发病率(1/10万),甲肝发病率,乙肝发病率,18,.,19852001年全国报告的STD发病率,19,.,近年来全国性病年报告例数不断增加,20,.,1989年,1998年,1995年,1985年,21,.,1955-2003年全国狂犬病发病率,0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,1955,1960,1965,1970,1975,1980,1985,1990,1995,2000,发病率(1/10万),22,.,基本概念(1):,同质与变异:,同质,(,homoge
11、neity,):观察单位具有相的性质。,异质,(,heterogeneity,):性质不同。,同质性是构成研究总体的必备条件;,研究内容(指标/变量)不同,对同质性的要求不同;,23,.,制定血红蛋白参考值范围时:,24,.,制定白细胞参考值范围时:,25,.,基本概念(2):,个体变异(individual variation),同质个体间的差异。,一种或多种不可控因素(已知的或未知的)作用下所产生的反映的综合表现。,结果是随机的(无法绝对正确地预测)。,个体变异是普遍存在的。,个体变异是有规律的。,没有个体变异,就没有统计学!,26,.,例1:,个体变异的表现,某地所有20岁健康男生的血红
12、蛋白,某地所有20岁健康男生和女生的血红蛋白,江苏和西藏所有20岁健康男生的血红蛋白,某地所有20岁健康男生和女生的白细胞计数,27,.,总体,(population),有限总体(finite),无限总体(infinite),个体,(individual),样本,(random sample),代表性,包含了总体的特性,基本概念(3):,28,.,总体参数,(population parameter),未知的,固有的,不变的,!,样本统计量,(sample statistics),已知的,变化的,有误差的!,样本含量,(sample size),基本概念(4):,29,.,基本概念(5):,随
13、机(random),机会均等,随机抽样(random sampling),有相同的机会被抽到,随机分组(random allocation),有相同的机会被分到不同的组中,30,.,基本概念(6):,随机变量(random variable),变量,个体观察指标,31,.,频率:,在n次随机试验中,事件A发生了m次,则比值,称为事件A在这n次试验中出现的,频率(frequency),基本概念(7):,32,.,频率和概率,抛硬币试验在概率的统计学定义上的诠释,试验者,投掷次数,出现“正面”次数,频率,*,20,12,0.6000,Buffon,4040,2048,0.5069,K.Pearso
14、n,12000,6019,0.5016,K.Pearson,24000,12012,0.5005,33,.,概率(probability):,描述了随机事件发生的可能性的大小。是一种参数。,数理统计学中的大数定理表明:当观察次数,n,越来越大,频率,f,的随机波动幅度越来越小,并最终趋向于一个常数:随机事件,A,发生的概率(又称为统计学上的概率定义)。,34,.,小概率事件(rare event),小概率原理,如果某事件的发生概率很小则在一次试验中,认为不发生。,35,.,基本概念(8):,抽样误差(sampling error),由抽样引起的样本统计量与总体参数间的差别,原因:个体变异抽样,
15、表现:,样本统计量与总体参数间的差别,不同样本统计量间的差别,抽样误差是有规律的!,36,.,基本概念汇总,总体,个体、个体变异,总体参数,未知,样本,代表性、抽样误差,随机,抽样,样本统计量,已知,统计推断,风 险,37,.,医学统计学思维,归纳型思维 推理型思维,从样本到总体,从个别到一般,38,.,建立医学统计学思维,生物体的变异是普遍存在的,这种变异是有规律的;,抽样误差是不可避免的,抽样误差是有规律的;,统计推断是有风险的,这种风险是可以控制的。,39,.,统计学的作用:,统计学上得到的结论都具有概率性,它不能证明什么,但可以提供结论成立或不成立的概率,从而提高研究者的分辨能力,为科
16、学决策提供依据,。,发现规律,而不是创造规律,统计学,不能创造原本不存在的结论,。,统计方法是一个中立性的,工具,。,40,.,学习医学统计学的要求:,建立统计学思维,学会从不确定性、机遇、风险和推断的角度去思考医学问题提高自身的科学素质和医学研究能力;,学会设计,结合专业作出严密的试验设计并获得可靠、准确、完整的资料;,学会分析与表达,学会运用统计方法充分挖掘资料中蕴含的信息,恰如其分地进行理性概括,写出具有科学认证的研究报告和学术论文。,41,.,第二章、统计资料的整理与描述,频数分布,描述集中趋势的指标,描述离散程度的指标,42,.,例2:乱七八糟的原始数据,某地120名14岁女童身高(
17、cm)资料如下,给我给我一双慧眼吧,让我把这纷扰看个清清楚楚明明白白真真切切,142.3,156.6,142.7,145.7,138.2,141.6,142.5,130.5,134.5,148.8,134.4,148.8,137.9,151.3,140.8,149.8,145.2,141.8,146.8,135.1,150.3,133.1,142.7,143.9,151.1,144.0,145.4,146.2,143.3,156.3,141.9,140.7,141.2,141.5,148.8,140.1,150.6,139.5,146.4,143.8,143.5,139.2,144.7,139
18、3,141.9,147.8,140.5,138.9,134.7,147.3,138.1,140.2,137.4,145.1,145.8,147.9,150.8,144.5,137.1,147.1,142.9,134.9,143.6,142.3,125.9,132.7,152.9,147.9,141.8,141.4,140.9,141.4,160.9,154.2,137.9,139.9,149.7,147.5,136.9,148.1,134.7,138.5,138.9,137.7,138.5,139.6,143.5,142.9,129.4,142.5,141.2,148.9,154.0,147
19、7,152.3,146.6,132.1,145.9,146.7,144.0,135.5,144.4,143.4,137.4,143.6,150.0,143.3,146.5,149.0,142.1,140.2,145.4,142.4,148.9,146.7,139.2,139.6,142.4,138.7,139.9,43,.,计量资料的频数、频率分布,组 段,(1),频 数,(2),频 率,(3),124,1,0.0083,128,2,0.0167,132,10,0.0833,136,22,0.1834,140,37,0.3083,144,26,0.2167,148,15,0.1250,152
20、4,0.0333,156,2,0.0167,160,1,0.0083,合 计,120,1.0000,44,.,2.1 频数分布,原因:,由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(,distribution,)。,现状:,医学研究得到的原始数据(,raw data,)往往是庞大的、混乱的。,解决:,频数分布的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。,45,.,120名14岁女童身高的频数分布图,124,132,140,148,156,164,0
21、10,20,30,40,人,数,身高(cm),46,.,某城市892名老年人生存质量自评分的频数分布,0,10,20,30,40,50,60,70,80,90,100,100,200,3,0,0,0,400,自评分,人,数,47,.,102名黑色素瘤患者的生存时间频数分布,0,5,10,15,20,25,30,35,40,45,0,1,0,2,0,3,0,4,0,生存时间(月),人,数,48,.,某地某年10000例死亡者年龄分布,0,10,20,30,4,0,50,60,70,80,0,1000,2000,3000,4000,死亡年龄(岁),人,数,49,.,分类资料的频数分布,血型频数频
22、率(%),O205 40.43,A112 22.09,B150 29.59,AB 40 7.89,合计507100.00,50,.,频数分布所提供的信息,频数分布图用以表示数据的分布规律。,观察有无可疑值。,考察分布的类型。,对称分布,非对称分布(偏态分布),左偏态(负偏态),右偏态(正偏态),考察分布的特征,集中趋势(Central Tendency),离散程度(Tendency of Dispersion),51,.,289名近视患者Lasik术后1月裸眼视力,Frequency,nv,0.00,0.10,0.20,0.30,0.40,0.50,0.60,0.70,0.80,0.90,1.
23、00,1.10,1.20,0.00,71.00,52,.,偏态分布1:老年人生存质量自评分,0,10,20,30,40,50,60,70,80,90,100,100,200,3,0,0,0,400,自评分,人,数,53,.,偏态分布2:,黑色素瘤患者的生存时间,0,5,10,15,20,25,30,35,40,45,0,1,0,2,0,3,0,4,0,生存时间(月),人,数,54,.,偏态,正偏态和负偏态,分布不对称者称为偏态分布。偏态分布又分为正偏分布和负偏分布。所谓正偏分布是指分布的长尾在峰的右侧,又称右偏分布;所谓负偏分布是指分布的长尾在峰的左侧,又称左偏分布。,55,.,集中趋势和离散
24、程度,124,132,140,148,156,164,0,10,20,30,40,人,数,身高(cm),56,.,2.2 定量资料的统计描述,定量资料的统计描述,图形描述,指标描述,集中趋势,离散程度,57,.,集中趋势的描述算术均数,算术均数(arithmetic mean,mean,,),58,.,加权均数(weighted mean),均数是加权均数的一个特例,59,.,集中趋势的描述几何均数,几何均数(geometric mean,G),60,.,例3、几何均数(,P,14,),1:10,1:20,1:40,1:80,1:160,61,.,集中趋势的描述中位数,中位数(median,M
25、),将一组数据按从小到大的顺序排列,位置居中的数即是中位数。,The Median is that value for which 50 percent of the observations,when arranged in order of magnitude,lie on each side.,62,.,例4、中位数,9例正常人的发汞值:,1.1,1.8 3.5 4.2,4.8,5.6 5.9 7.1 10.5,M,=4.8,10例正常人的发汞值:,1.1,1.8 3.5 4.2,4.8 5.6,5.9 7.1 10.5 16.3,M,=(4.8+5.6)/2=5.2,63,.,集中趋势的描述百分位数,百分位数(percentile),X%,P,X,(100-X)%,50%分位数就是中位数,25%,75%分位数称四分位数(quartile),64,.,描述集中趋势的指标,平均数,(Average),算术均数,(Mean),几何均数,(Geometric Mean),中位数,(Median),百分位数,(Percentile),65,.,Thanks,66,.,






