1、Click to edit the title text format,Click to edit the outline text format,Click to edit the title text format,Click to edit the outline text format,Second Outline Level,Third Outline Level,Fourth Outline Level,Fifth Outline Level,Sixth Outline Level,Seventh Outline Level,Eighth Outline Level,Ninth
2、Outline Level,Click to edit the title text format,Click to edit the outline text format,Second Outline Level,Third Outline Level,Fourth Outline Level,Fifth Outline Level,Sixth Outline Level,Seventh Outline Level,Eighth Outline Level,Ninth Outline Level,*,统计学,统计学,是收集、分析、解释与呈现数据资料的普遍原理和方法的一门学科。,医学统计学,
3、是,用统计学原理和方法研究生物医学问题,统计工作的基本步骤,1.,统计设计,:包括调查、实验设计。,2.,收集资料,:取得准确可靠的原始资料,3.,整理资料,:对资料进行清理、改错,数量化,4.,分析资料,:统计描述、统计推断,统计学基本概念,变量及其分类,总体与样本,参数与统计量,抽样与误差,概率与频率,计量资料,用仪器、工具等测量方法获得的数据,称为计量资料,也叫定量数据。,特点:,有大小、有计量单位、可测量,如患者的身高(,cm,)、体重(,kg,)、血压(,mmHg,),脉搏(次,/,分)、红细胞计数,(,10,12,/L),计数资料,按某种属性分类的数据,称,计数资料,(,count
4、 data,或,enumeration data,)。也叫定性数据,Qualitative data,特点:,无固有计量单位、观察得到,,如肤色(黑、白)、血型(,ABO,)、职业(工农兵)、性别(男女),等级资料,半定性或半定量的观察结果。有大小顺序,所以也叫,有序分类资料,。,癌症分期:早、中、晚。,药物疗效:治愈、好转、无效、死亡。,尿蛋白:,、及以上,三类资料间关系,例:一组,20,40,岁成年人的血压,(,kPa),以,12kPa,为界分为正常与异常两组,统计每组例数,8,低血压,8,正常血压,12,轻度高血压,15,中度高血压,17,重度高血压,计量资料,等级资料,计数资料,总体与
5、样本,总体:根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体,样本:从总体中随机抽取的部分观察单位,随机抽样,为了保证样本的可靠性和代表性,需要采用随机的抽样方法(在总体中每个个体具有相同的机会被抽到)。,总体,样本,随机抽样,参数与统计量,参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为,、,固定的常数,总体,样本,抽取部分观察单位,统计量,参 数,推断,inference,统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 参数附近波动的随机变量,。,误差,误差,:实际观察值与客观真实值之差,(,1,)系统误差,(,2,)随机误差,概率,随机现
6、象:,在同样条件下可能会出现两种或多种结果,究竟会发生哪种结果,事先不能确定。其表现结果称为随机事件。随机事件的特征:,随机性;,规律性:每次发生的可能性的大小是确定的。,概率:,随机事件发生的可能性大小,用大写的,P,表示;取值,0,,,1,。,频率,为,样本的实际发生率。设在相同条件下,独立重复进行,n,次试验,事件,A,出现,f,次,则事件,A,出现的频率为,f,/,n,。,频率与概率间的关系:,样本频率总是围绕概率上下波动,样本含量,n,越大,波动幅度越小,频率越接近概率,频率,frequency,1.,统计描述,分布的描述,集中趋势的描述,离散趋势的描述,2.,统计推断,参数估计,假
7、设检验,统计分析内容,数据分布的描述:频数分布表,组 段,频数,频率,累计频率,2.62.89,3,0.03,0.03,2.93.19,6,0.06,0.09,3.23.49,8,0.08,0.18,3.53.79,17,0.18,0.35,3.84.09,20,0.21,0.56,4.14.39,17,0.18,0.73,4.44.69,12,0.12,0.86,4.74.99,9,0.09,0.95,5.05.29,5,0.05,1.00,合 计,97,1.00,数据分布的描述:频数分布图,集中趋势:,描述一组同质的数值资料集中位置的指标,,反映这组数据的平均状态、中心位置。,常用的有:,
8、算术平均数,几何平均数,中位数,算术平均数,简称均数(,mean,),样本均数用 表示,适用于对称分布,特别是正态分布,几何均数(,geometric mean,),有时也用,G,表示几何均数,几何均数的适用条件与实例,适用条件,:呈倍数关系的等比资料或对数正态分布资料;如抗体滴度资料,例:,血清的抗体效价滴度的倒数分别为:,10,、,100,、,1000,、,10000,、,100000,,求几何均数。,此例的算术均数为,22222,,显然不能代表滴度的平均水平。,中位数,(Median),中位数是一组按大小顺序排列的测量值中位次居中的数值,简记为,Md,或,M,。,常用于描述偏态分布资料的
9、集中趋势,中位数:,50,50,M,小,大,反映数据的离散度,即个体的变异程度。常用的指标有:,1.,极差(全距),R 2.,百分位数,P,x,与四分位数间距,Q,3.,方差,S,2,4.,标准差,S,5.,变异系数,CV,描述计量资料的变异指标,1.,极差,(Range,),(,全距,),优点:简便,缺点:,1.,只利用了两个,极端值,2.,n,大,,R,也会大,3.,不稳定,120,40,20,2.,百分位数与四分位数间距,百分位数,:数据从小到大 排列,在百分尺度下所占百分比对应的值,记为,P,x,四分位间距,:,Q,P,75,P,25,X,100,X,P,X,小,大,3.,方差,方差,
10、variance,)也称,均方差,,(样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。,4.,标准差,标准差,(,standard deviation,)即方差的正平方根;其单位与原变量,X,的单位相同。,5.,变异系数,变异系数,(coefficient of variation,,,CV),适用条件,观察指标单位不同,如身高、体重,同单位资料,但均数相差悬殊,均数,标准差,变异系数,青年男子 身高,170 cm,6 cm,3.5,体重,60 kg,7 kg,11.7,计数资料,-,常用相对数指标,比,/,相对比,(,relative ratio,):,是,A,、,B,两个有
11、关指标之比,说明,A,是,B,的若干倍或百分之几,通常用倍数或分数表示。,如:男:女,医生:护士,教师:学生,率,(,rate,):说明某现象或某事物发生的频率或强度。,率,=,(实际发生数,/,可能发生总数),比例基数,比例基数:,100%,、,1000,、,10000/,万、,10,万,/10,万)等,如:发病率、死亡率、发生率、阳性率、患病率等,构成比,(,proportion,),说明某一事物内部,各组成部分所占的比重。也叫百分比。,构成比,=,(某部分观察单位数,/,各组成部分观察单位总数),*,100%,如:教研室,16,人中高级职称有,4,人,占,25,。,三、应用注意事项,1,
12、进行率的对比分析时,应注意资料可比性。,如比较疗效时,比较组间应病情轻重相同,,性别影响,应按性别分组后再作比较。,2,、计算相对数的分母不宜过小,小则直接叙述。,3,、正确求平均率(合计率)。,例:若,P,1,=,x,1,/,n,1,P,2,=,x,2,/,n,2,P,3,=,x,3,/,n,3,P,(,x,1,+,x,2,+,x,3,),/,(,n,1,+,n,2,+,n,3,),(,正确,),P,(,P,1,+,P,2,+,P,3,),/3,(,错误,),4,、不能以构成比代替率。,第四节 统计表与统计图,统计表(statistical table),数据代替文字描述,,,便于统计结果
13、的精确,、简洁的,表达和对比分析,统计图(statistical chart),用图形代替数据,获得直观、形象的效果,统计表的结构,统计表由以下几个部分组成:,标题、标目、线条、数字、备注,表,2,某省某工厂,1994,、,1998,年四项检测指标异常检出率,检测指标,1994,年,1998,年,受检人数,异常人数,检出率,(%),受检人数,异常人数,检出率,(%),血压,心率,TTT,GPT,519,519,519,519,55,44,36,20,10.16,0.48,6.94,3.85,582,582,582,582,38,39,23,16,6.52,6.70,3.95,2.75,:,TT
14、T,(麝香草酚浊度试验),,:,GPT,(谷丙转氨酶)。,(,丁建生等,.,中国卫生统计,1999;16(3):166),2.,统计图的种类与绘制注意事项,条图,圆图,百分条图,线图,直方图,散点图,条图:用直条的长度表示相互独立的统计指标的大小,可分为:,单式条图:,具有一个统计指标,,一个分组标志。,复式条图:,具有一个统计指标,,两个分组因素。,(,1,)条图(,bar chart,),(,2,)圆图(,pie chart,),圆图:用于表达事物内部,的百分构成比大小,。,各个扇形面积,的大小反映,各,组成,部分,百分比的大小。,从,12,点钟处开始绘制,,顺时针方向排列。,(,3,)百
15、分条图(,percentage chart,),百分条图的作用与圆图相同。但更适用于多组百分比的比较。,图,4,不同性别某癌三种类型的构成,(,4,)线图(,line chart,),普通线图:用线段的升降表示某事物动态变化,或某现象,随另一现象变迁的情况,(,绝对差,),。适用于连续性资料。,纵轴:算术尺度;横轴:连续性变量(时间、年龄等),半对数线图:表示事物,发展速度,(,相对比,),。,纵轴:对数尺度;,横轴:连续性变量,(时间、年龄等),(,5,),直方图(,histogram,),直方图,:,用矩形面积表示连续变量的频数,(,频率,),分布。,1.,横轴:连续变量的组段;,纵轴:频
16、数或频率,尺度从,0,开始。,2.,各矩形条之间不留空隙。,3.,矩形的高度为频数或频,率,宽度为组距。,(,6,),散点图,(scatter diagram),散点图,(scatter diagram),:,用,点的密集程度和趋势表示两种,现象间的相关关系。,横轴:,自变量,X,纵轴:,应变量,Y,纵轴与横轴的起点可,根据资料的情况而定。,正态分布,正态分布,正态分布(,normal distribution,)也叫高斯分布、常态分布,是最常见、最重要的一种连续型分布,正态曲线呈现中间高,两边低,左右对称特征,正态分布有两个参数,标准正态分布,正态分布曲线下面积有规律,正态分布有多种应用,如
17、制定正常值范围,标准正态变换,随机变量,X,N,(,m,,,s,2,),标准正态分布,N,(,0,,,1,2,),u,变换,曲线下面积,u,-,0,-1,1,-1.96,1.96,-2.58,2.58,68.27%,95.00%,99.00%,曲线下面积分布规律,标准正态分布,曲线下面积分布规律,一般正态分布,-,+,-1.96,+1.96,-2.58,+2.58,68.27%,95.00%,99.00%,制定参考值范围步骤:,1.,从,“,正常人,”,总体中抽样:明确研究总体,2.,统一测定方法以控制系统误差。,3.,判断是否需要分组(如性别、年龄)确定。,4.,根据专业知识决定单侧还是双侧
18、单侧下限,-,过低异常 单侧上限,-,过高异常 双侧,-,过高、过低均异常,单侧下限,异常,正常,单侧上限,异常,正常,异常,正常,双侧下限,双侧上限,异常,参数估计,总体参数的估计,参数的估计,点估计:由样本统计量,直接估计总体参数,区间估计:在一定可信度下,同时考虑抽样误差,抽样误差,(,标准误,),:,由于个体差异导致的样本统计量与总体参数间的差别。,样本均数的标准误,样本率的标准误,样本的抽样误差,总体均数的可信区间(小样本),区间的可信度(如,95,或,99,)是重复抽样(如,1000,次)时,样本(如,n,=5,)区间包含总体参数,(,m,),的百分数。常用,100(1-,)%
19、或,(1-,),表示,,值一般取,0.05,或,0.01,。,总体均数的可信区间,(,已知、或大样本),总体率的可信区间(大样本),可信区间的解释,95,可信区间:从总体中作随机抽样,作,100,次抽样,每个样本可算得一个可信区间,得,100,个可信区间,平均有,95,个可信区间包括,(,估计正确,),,只有,5,个可信区间不包括,(,估计错误,),。,准确度(,1-,):,95,99,100,精确度(区间长短),可信区间的两个要素:,准确度,精确度,增加(减少)准确度,将会减少(增加)精确度,增大,n,同时提高,准确度和精确度,准确度与精确度间的关系,假设检验,假设检验的基本思想,1,反证
20、法,的思想,即事先对总体分布(通常是该分布的某个参数)作出某种假设,如果样本信息不支持该假设,则认为原假设不成立。,2,根据,小概率原理,“小概率事件在一次试验中一般不会发生”的原理,用概率的思想决定是否拒绝原假设。,假设检验的基本步骤,1,建立检验假设,确定检验水准。,H,0,:检验假设,或称原假设、零假设、无效假设,H,1,:备择假设,或称对立假设,检验水准,也称显著性水准,是预先规定的判断小概率事件的概率尺度,记为,,一般取值,0.05,2,选择适当的检验方法,计算相应的统计量,根据设计类型,资料特点,研究目的等选择适当的统计检验方法,检验统计量是将服从不同类型的样本统计量与假定的参数的
21、差别转换为服从特定分布的标准值,如,u,值,,t,值,卡方值等,3,根据计算得到的统计量大小确定,P,值,作出推断结论。,P,值指由,H,0,所规定的总体做同样的重复试验,获得等于及大于(或等于及小于)当前检验统计量的概率。实际工作中只根据一次实验(观察)按照小概率原理下结论。,U,检验,(,Z,检验,大样本,),样本均数和总体均数比较的,u,检验,两个大样本均数比较的,u,检验,样本率和总体率的,u,检验,两个大样本率比较的,u,检验,U,变换,假设检验的两类错误,假设检验是在假定,H,0,正确的前提下计算检验统计量并以,P,值作为检验依据,无论拒绝检验假设,H,0,与否都会存在错误。,当,
22、H,0,为真,时(两样本的总体均数本来没有差别),,但,由于抽样误差得到大的检验统计量,拒绝了,H,0,,这种原假设为真而被拒绝的错误称为第一类错误,也称,I,型错误(,type I error,)、假阳性错误或弃真错误。犯,I,型错误的概率记作,。,另一种错误是当原假设,H,0,不真,而,H,1,为真,时,即,H,1,成立(两样本的总体均数有差别),但由于抽样误差得到较小的统计量,从而,不拒绝,H,0,,推论两样本的总体均数没有差别。这种原假设为不真而被接受的错误称为第二类错误,也称,型错误(,type error,)、假阴性错误或存伪错误。犯,型错误的概率记作,。,假设检验的两类错误,t,
23、检验,对于计量资料,,u,检验,适用于总体标准差已知或总体标准差未知但样本含量,n,较大时均数的比较。,t,检验,用于总体标准差未知的小样本均数的比较。,单样本均数,和总体均数的比较的,t,检验,配对设计两样本,均数比较的,t,检验,成组设计两样本,均数比较的,t,检验,t,检验的应用条件:,当样本含量较小时,理论上要求样本来自正态分布总体的随机样本;,两小样本均数比较时,还要求两总体方差相等(称为方差齐性)。,单样本均数的,t,检验,检验的目的是推断样本来自的总体均数,与已知总体均数,0,(,如理论值或标准值,),是否相等。,配对样本均数的,t,检验,亦称配对设计,t,检验,配对设计情形:,
24、同一受试对象同时分别接受两种不同处理。如用两种不同方法测定同一样品,然后对比测定结果已说明两种不同测定方法的差别。,配成对子的同对受试对象分别接受两种不同处理。如在动物实验中,我们常常先将动物按种属、年龄、体重、性别等条件相同或相近者配成若干对子后,再随机地将每对中的两个动物分配于实验组和对照组,然后对比观察各对动物的实验结果以说明实验组与对照组的差别。,实验流程,总体 配对样本 分组 实验,实验,对照,R,R,R,检验统计量,t,为:,例 为比较简便法和常规法测定尿铅含量的结果是否有差别,今对,12,份尿样分别用两种方法进行测定,结果见下表第,(1),(3),栏。问根据该资料能否说明两种方法
25、测定结果不同?,1.,建立假设,H0,:,d,=,0,,即差值的总体均数为“,0”,H1,:,d,0,,即差值的总体均数不为“,0”,2.,计算检验统计量,本题,t=3.051,,,v=12 1=11,3.,确定概率值,作出判断结论,查自由度,v=11,时的,t,值,,,,P 0.05,,按 的检验水准,拒绝,H0,,差别有统计学意义,可认为两种方法测定结果不同。,两独立样本均数的,t,检验,两独立样本均数的,t,检验又称成组设计两样本均数比较的,t,检验或成组比较,t,检验,该方法适用于完全随机设计中两组计量资料均数的比较,或在观察性研究中分别从两个总体中随机抽取样本,对均数作比较,以推断总
26、体均数。,检验统计量,t,为:,自由度为:,v=n,1,+n,2,2,两样本的方差齐性检验,常用的方法主要有,F,检验和,Levene,检验。,v,1,=,n,1,-1,v,2,=,n,2,1,前述成组,t,检验,若两总体方差不等时,可采用,:,变量变换是将原始数据作某种函数转换(如对数变换,平方根变换,平方根反正弦变换)使数据满足成组,t,检验的方差齐性和正态性要求。,如果经数据转换后仍不满足方差齐性的要求,可以用基于秩次的非参数检验外,或用,t,检验(校正,t,检验)。,检验读作卡方检验,是一种用途广泛的统计方法,可以用于:,检验两个(或多个)总体率或构成比之间是否有统计学意义,从而推断两
27、个(或多个)总体率或构成比是否相同。,检验,检验实际频数(,O),和理论频数(,E),的差别是否由抽样误差所引起的,也就是由样本率(或样本构成比)来推断总体率(或总体构成比)。,如果,H,0,成立,则各格子实际观察频数(,O,)与相应的理论期望频数(简称期望频数(,E,)之间的差异只有抽样误差,相差不会太大,即相差大的概率非常小。按小概率反证法的思想来作出检验判断。,检验的基本思想,基本计算公式,式中,,O,为实际频数,、,E,为理论频数,四格表卡方检验的专用公式:,四格表资料,2,公式的正确选择,1)当,n40,,所有,T,5,时,用专用公式或普通公式;,2)当,n40,,但有理论频数1,T
28、5,时,用校正公式;,3),n40,或有,T1,,或,P,时,用确切概率法。,基于秩次的假设检验方法,也称秩和检验,是非参数统计方法中最重要的一种方法。,非参数统计方法对总体分布不作任何规定,不依赖于总体分布类型,又称任意分布检验。,当样本所代表的总体分布不易确定,样本不服从正态分布或数据类型为等级资料时,均可用非参数统计方法。,非参数统计方法的主要优点是应用范围广,计算简单。,秩和检验,秩和检验方法,单样本资料的符号秩检验,配对设计资料的符号秩检验,完全随机化设计两独立样本的秩和检验,完全随机化设计多组独立样本的秩和检验,随机区组设计多组资料的秩和检验,回归是用来研究两个变量,(,或多个变量
29、),之间数量变化关系的一种统计分析方法。,两个变量的资料中,如果一个变量,Y,随另一变量,X,呈现出线性变化规律,则变量,Y,与,X,间便构成了一种线性依存关系,而揭示这种线性依存关系的有效统计学方法就是线性回归。,线性回归,图 正常成年男性的运动后最大心率与年龄的散点图,直线回归是回归分析中最基本、最简单的一种,故又称简单线性回归,其统计学模型为,上述模型假定对于,X,各个取值,相应的,Y,值总体为正态分布,其均数是在一条直线上。其中,为该回归直线的截矩参数,,为回归直线的斜率参数。,最小二乘法原理:,所拟合的直线回归方程能使得各散点到直线的纵向距离平方和最小,。,如何确定直线回归方程的两
30、个系数,a,和,b?,M,(,X,Y,),A(,X,),线性相关,线性相关是在(,X,,,Y,)服从双变量正态分布的假定下,分析两个变量间有无相关关系的一种统计分析方法。当一个变量,X,增大或减少,另一个变量,Y,亦相应地增大或减少,两变量在散点图呈直线趋势,此时这两个变量间可能存在线性相关关系。,如果一个变量随另一个变量的增加而增加,称为正相关。,如果一个变量增加,另一个变量减少,称为负相关。,两变量间线性相关的性质和密切程度用线性相关系数,r,表示。,直线回归与相关的区别和联系,(一)区别,1.,资料要求不同,2.,应用的情况不同,3.r,与,b,大小之间无直接联系,(二)联系,1.,正负符号相同,2.,假设检验等价,3.,用回归解释相关(决定系数,R,2,),






