资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,统计学基础知识,一,.,医学统计学的意义,1.,统计学(,statistics,),:,应用数学的原理与方法,研究数据的搜集、整理与分析的科学,对不确定性数据作出科学的推断。,2.,医学统计学(,statistics of medicine,),:,应用统计学的原理与方法进行医学科研与实践。,3.,统计学方法的特点,:,(1),用数量反映质量,1),体格检查,(,量血压、脉搏,)个体健康质量,2),考试分数个体学习质量,3),期望寿命反映人群健康状况,4),婴儿死亡率反映卫生服务质量,(2)用群体归纳个体,2011年长沙市7岁男孩有多高,?,7岁男孩身高有高有矮,平均身高=119.5cm,95%的长沙市7岁男孩的身高在110.20cm,129.20cm,之间,二、基本概念,1、研究单位(观察单位、,unit,)、变量(,variable,)、,变量值(,value of variable),(1)研究单位(,unit,):研究中的个体,。,如:研究2011年长沙市7岁男孩身高的正常值范围 1个人,测得的身高值(120.2cm,118.6cm,121.8cm,),2,、同质(,homogeneity,)和变异(,variation,),研究长沙市,2011,年,7,岁男孩身高的正常值范围?,同质:同长沙市、,7,岁、男孩、无影响身高的疾病。,变异:长沙市,2011,年,7,岁男孩身高有高有矮,3,、总体(,population,)和样本(,sample,),(,1,)总体:是根据研究目的确定的同质研究单位的全体。更确切地说是同质研究单位某种变量值的集合。,例如:调查某地,2011,年正常成年男子的红细胞数的正常值范围。,总体:,1,)某地所有的正常成年男子,2,)某地所有的正常成年男子的红细胞数,1,)有限总体(,finite population,):研究单位数是有限的。,例如:调查某地,2011,年正常成年男子的红细胞数的正常值范围。,2,)无限总体(,infinite population,):研究单位数是无限的。,例如:高血压患者无时间、空间限制。,(,2,)样本(,sample,):是总体中抽取的有代表性的一部分。,注意:随机抽样(无主观性),样本含量(,sample size,):样本中包含的研究单位数。,例如:某药治疗高血压患者,30,名,样本含量(,n,)为,30,4,、参数(,parameter,)和统计量(,statistic,),(,1,)参数:根据总体个体值统计计算出来的描述总体的特征量。,一般用希腊字母表示,(,2,)统计量:根据样本个体值统计计算出来的描述样本的特征量。,一般用拉丁字母表示,总体参数一般是不知道的,统计学抽样研究的目的就是:,样本统计量总体参数,5,、抽样误差,由于抽样原因所造成的样本统计量与总体参数之间的差别。,特点:,1,)抽样误差是不可避免;,2,)有统计规律性。,产生原因,:,个体差异,(,生物变异,),6,、频率(,frequency,)、概率(,probability,)、小概率事件,(,1,)频率,:,一次随机试验出现各种可能结果的比例。,例如,投掷一枚硬币,结果不外乎出现,“,正面,”,与,“,反面,”,两种,在重复多次后,出现,“,正面,”,或,“,反面,”,这个结果的比例称之为频率。,(2),概率(,probability,)概率是度量随机事件发生可能性大小的一个数值。,频率是就样本而言的,而概率从总体的意义上说的。,0,P,(,A,),1,随机事件,P,(,A,),=1,必然事件,P,(,A,),=0,不可能事件。,(,3,)小概率事件,:,统计分析中的很多结论都基于一定置信程度下的概率推断,习惯上将,称为小概率事件。,湖南风采:,中奖概率大约为:,1/671,万,交通事故:,发生概率为:,1/20,万,三、统计资料的类型,变量与统计资料的分类方法,概述,数值变量,.,构成计量资料,分类变量,无序分类变量,构成计数资料,有序分类变量,构成等级资料,.数值变量与计量资料,1)数值变量(numerical variable):变量值是定量的,表现为数值大小,一般有度量衡单位。如:身高(cm)、体重(kg)。,2)计量资料(measurement data):由一群个体的数值变量值构成的资料,即一群变量值。,如:长沙市2011年7岁男孩身高值(118.6cm,121.8cm,),3.无序分类变量与计数资料,1)无序分类变量(unordered categories variable):变量值是定性的,有类别。,特点:类别是客观存在的,各类无秩序,可任意排列;类与类之间界限清楚,(理论上)不会错判。,如:性别:男、女。,血型:O、A、B、AB。,2)计数资料(enumeration data):一群个体按无序分类变量的类别清点每类有多少个个体,即分类个体数。,如:某人群性别构成:男:,女:7。,某人群血型构成:O:20,A:35,B:30,AB:15,4.,有序分类变量与等级资料,1),有序分类变量,(ordinal categories variable),:变量值是定性的、分等级。,特点:等级是主观划分的,各级有秩序,从低到高或由高到低;级和级之间界限模糊,可能错判。,如:疗效:无效、好转、显效、治愈。,血清反应:,、,+,、,+,2),等级资料,(ranked data),:一群个体按有序分类变量的级别清点每级有多少个个体,即分级个体数。,如:某地某人群,EB,病毒抗体反应:,:,65,,,+,:,5,,,+,:,6,1.,专业设计:选题、建立假说、确定研究对象和技术方法等,2.,统计设计:围绕专业设计确定统计设类型、样本大小、分组方法、统计分析指标及统计分析方法。,四、医学统计工作的基本步骤,设计,统计设计的内容包括资料的搜集、整理和分析全过和的设想和安排。,例如:研究目的和假说?,研究对象和研究单位?,研究因素(变量)?,搜集哪些原始资料?,用什么方式和方法取得这些原始资料?,怎样整理汇总和计算统计指标?,如何控制误差?,预期会得到什么结果?,需要多少经费?,统,(一)资料来源,第一手资料,经常性:统计报表(死亡登记、疫情报告等),工作记录(病历、化验);,一时性:专题调查、实验或临床试验。,第二手资料:已公布的资料,如数据银行、全国、全省卫生统计资料。,收集资料,分析资料,1.统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行测定和描述。,2.统计推断:用样本信息推断总体特征:,参数估计 假设检验。,工具:1)foxbase数据库,2)spss,3)SAS,五、数值变量资料的统计描述,频数分布表(,frequency table,):,例 从某单位,1999,年的职工体检资料中获得,101,名正常成年女子的血清总胆固醇的测量结果如下,试编制频数分布表。,频数表,频数分布图,统计图:指利用点的位置、线段的升降、直条的长短和面积的大小等各种几何图形来表达统计资料。,统计图只能提供概略的情况,而不能获得确切数值,因此不能完全代替统计表,常需要同时列出统计表作为统计图的数值依据。,统计图,统计图的结构,标题:用于简明扼要地说明资料的内容,一般位于图的下方中央位置。,图域:即制图空间,是整个统计图的视觉中心。除圆图外,一般都是存在于特定的坐标体系下。,标目:分为纵标目和横标目,表示坐标系下纵轴与横轴的含义。,图例:用于识别比较的统计图中各种图形所代表的含义。,刻度:即纵轴和横轴上的坐标。刻度数值按从小到大的顺序,纵轴由下向上,横轴由左向右排列。,常用的统计图,直条图,百分条图,圆图,线图,半对数线图,直方图,散点图,直条图,/,条图,图,12-1,某省,1979,年四个地区脊髓灰质炎发病率,图,12-2,某地,1952,年与,1972,年三种疾病死亡率比较,图,12-4,复方猪胆囊治疗单纯型老年性气管炎疗效,图,12-5 20,世纪,70,年代和,80,年代某地,7,常见恶性肿瘤发病构成比较,图,12-6,某地,1968-1974,年结核病死亡率比较,图,12-7,某地,1949-1958,年白喉、伤寒、副伤寒,死亡率比较(普通线图),图,12-8,某地,1949-1958,年白喉、伤寒、副伤寒,死亡率比较(半对数线图),请注意:在普通线图中,白喉死亡率线条的坡度比伤寒、副伤寒死亡率线条下降的陡峭,只能说明两种疾病的死亡率逐年变化幅度不同,不能错认为白喉死亡率的下降速度比伤寒、副伤寒死亡率的下降速度快。在半对数线图中就不会出现这种错觉。,频,数,红细胞数(,10,12,/L,),图,12-9 140,名正常男子红细胞计数的直方图,图,12-10 1997,年某地乙型病毒性脑膜炎病例的年龄分布,1 2 3 4 5 6 7 8 9 10 15 2 0 25 30 35,年龄(岁),散点图(,scatter chart,),散点图:使用点的密集程度和趋势来表示两种指标或变量间的相关关系。,图,10-12 12,名女大学生身高与体重散点图,(,一,),平均指标,1.,算术均数(,mean,):,可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征。,适用范围:对称分布,尤其正态分布,计量资料的描述指标,计算方法,例,:,从某单位,1999,年的职工体检资料中获得,101,名正常成年女子的血清总胆固醇()的测量结果如下,:,2.,中位数,中位数(,median,):是将变量值从小到大按顺序排列,位置,(,位次,),居于中间的那个变量值。,1,,,3,,,7,,,5,,,100,中位数为多少,?,n,为奇数时,n,为偶数时,例,7,名病人患某病的潜伏期分别为,2,3,4,5,6,9,16,天,求其中位数。,本例,n=7,为奇数,例,8,名患者食物中毒的潜伏期分别为,1,2,2,3,5,8,15,24,小时,求其中位数。,本例,n=8,为偶数,应用,适用于,:1,、各种分布类型的资料,2,、特别是偏态分布资料和,开口资,料(一端或两端无确切数值的资料)。,3,、几何均数,几何均数(,geometric mean,):可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。,计算方法,例,某地,5,例微丝蚴血症患者治疗七年后用间接荧光抗体试验测得其抗体滴度倒数分别为,,10,,,20,,,40,,,40,160,,求几何均数。,适用于成等比级数的资料,特别是对数正态分布资料。,(,二,),变异指标,例 三组同龄男孩的身高值,(cm),1.,极差,极差(R):即一组变量值最大值与最小值之差。,2.,方差(,variance,)也称均方差,即将离均差平方和用样本含量,n,取平均,可反映一组数据的平均离散水平。总体方差,-,,样本方差,-,。,样本标准差用,s,表示,公式:,3.,标准差,计算三组资料的标准差,甲组:,4,、百分位数,百分位数(percentile)是一种位置指标。,一个百分位数 将全部变量值分为两部分,在不包含的全部变量值中有 的变量值比它小,变量值比它大。,变异系数(,coefficient of variation,,,CV,),多用于观察指标单位不同时,如身高与体重的变异程度的比较;或均数相差较大时,如儿童身高与成人身高变异程度的比较。,5.,变,异,系数,例,:,某地,7,岁男孩身高的均数为,123.10cm,,标准差为,4.71cm,;体重均数为,22.59kg,,标准差为,2.26kg,比较其变异度?,第五章,计数资料的统计描述,常用的相对数:,一、率。,二、构成比,三、相对比,第一节,常,用相,对数,一、率,率:说明某现象发生的频率或强度。,常以百分率(,%,)、千分率(,)、万分率(,1/,万)、十万分率(,1/10,万)等表示,计算公式为:,例,5-1,某医院,1998,年在某城区随机调查了,8589,例,60,岁及以上老人,体检发现高血压患者为,2823,例。,高血压患病率为:,2823/8589,100%=32.87%,。,、构成比,构成比:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布。,通常以,100%,为比例基数。其计算公式为,例,-,某正常人的白细胞分类计数,三、相对比,相对比简称比(,ratio,),是两个有关指标之比,说明两指标间的比例关系。,两个指标可以是性质相同,如不同时期发病数之比;也可以性质不同,如医院的门诊人次与病床数之比。通常以倍数或百分数(,%,)表示。,例,5-3,某年某医院出生婴儿中,男性婴儿为,370,人,女性婴儿为,358,人,则出生婴儿性别比例为,370/358,100=103,,说明该医院该年每出生,100,名女婴儿,就有,103,名男性婴儿出生,它反映了男性婴儿与女性婴儿出生的对比水平。,第二节,应,用相对数的注意,事项,1,、计算相对数应有足够数量即分母不宜太小。,如,果例数较少会使相对数波动较大。如某种疗法治疗,5,例病人,5,例全部治愈,则计算治愈率为,5,5,100%=100%,,若,4,例治愈,则治愈率为,4,5,100%=80%,,由,100%,至,80%,波动幅度较大,但实际上只有,1,例的变化。在临床试验或流行病调查中,各种偶然因素都可能导致计算结果的较大变化,因此例数很少的情况下最好用绝对数直接表示。,2,、不能以构成比代替率,构成比是用以说明事物内部某种构成所占比重或分布,并不说明某现象发生的频率或强度,在实际工作中经常会出现将构成比指标按率的概念去解释的错误例如表,5-2,研究已婚育龄妇女在不同情况下放置避孕环与失败率的关系。,3,.,正,确计算合计率,对分组资料计算合计率或称平均率时,不能简单地由各组率相加或平均而得,而应用合计的有关实际数字进行计算。例如用某疗法治疗肝炎,甲医院治疗,150,人,治愈,30,人,治愈率为,20%,;乙医院治疗,100,人,治愈,30,人,治愈率为,30%,。两个医院合计治愈率应该是,(30+30)/(150+100),100%=24%,。若算为,20%+30%=50%,或,(20%+30%)/2=25%,,则是错的。,4,.,注意资料的可比性,在,比较相对数时,除了要对比的因素,(,如不同的药物,),,其余的影响因素应尽可能相同或相近。在临床研究和动物实验时,应遵循随机抽样原则进行分组。,5,.,对比不同时期资料应注意客观条件是否相同,例,如,疾病报告制度完善和资料完整的地区或年份,发病率可以,“,升高,”,;居民因医疗普及,就诊机会增加,或诊断技术提高,也会引起发病率,“,升高,”,。因此在分析讨论时,应根据各方面情形全面考虑,慎重对待。,6,.,样本,率(或构成比)的比较应做样本率(或构成比),假设检验,。,假设检验过去称显著性检验。它是利用小概率反证法思想,从问题的对立面,(,H,0,),出发间接判断要解决的问题,(,H,1,),是否成立。然后在,H,0,成立的条件下计算检验统计量,最后获得,P,值来判断。,七、统计推断,例,3-5,某医生测量了,36,名从事铅作业男性工人的血红蛋白含量,算得其均数为,130.83g/L,,标准差为,25.74g/L,。问从事铅作业工人的血红蛋白是否不同于正常成年男性平均值,140g/L,?,130.83g/L 140g/L,原因:,1.,可能是总体均数不同,2.,是抽样造成的,假设检验应注意的,问题,(,1,)要有严密的研究设计 这是假设检验的前提。组间应均衡,具有可比性,也就是除对比的主要因素,(,如临床试验用新药和对照药,),外,其它可能影响结果的因素,(,如年龄、性别、病程、病情轻重等,),在对比组间应相同或相近。保证均衡性的方法主要是从同质总体中随机抽取样本,或随机分配样本。,(,2,)变量变换,常用的变量变换有对数变换、平方根变换、倒数变换、平方根反正弦变换等。,(,3,)合理选用检,验,方法,应根据分析目的、资料类型以及分布、设计方案的种类、样本含量大小等选用适当的检验方法。,(,4,)正确理解,“,显著性,”,一词的含义,差别有或无统计学意义,过去称差别有或无,“,显著性,”,,是对样本统计量与总体参数或样本统计量之间的比较而言,相应推断为:可以认为或还不能认为两个或多个总体参数有差别。,(,5,)结论不能绝,对化,因统计结论具有概率性质,故,“,肯定,”,、,“,一定,”,、,“,必定,”,等词不要使用。在报告结论时,最好列出检验统计量的值,尽量写出具体的,P,值或,P,值的确切范围,如写成,P,=0.040,或,0.02,P,0.05,,而不简单写成,P,0.05,,以便读者与同类研究进行比较或进行循证医学时采用,Meta,分析。,(,6,)注意统计结论和专业结论的区别,若,统计结论和专业结论一致,则最终结论就和这两者均一致,(,即均有或均无意义,),;,若,统计结论和专业结论不一致,则最终结论需根据实际情况加以考,虑。,若,统计结论有意义,而专业结论无意义,则可能由于样本含量过大或设计存在问题,那么最终结论就没有意,义。,谢谢大家!,
展开阅读全文