收藏 分销(赏)

常用医学统计方法--胡国清.ppt

上传人:天**** 文档编号:2050555 上传时间:2024-05-14 格式:PPT 页数:101 大小:1.11MB
下载 相关 举报
常用医学统计方法--胡国清.ppt_第1页
第1页 / 共101页
常用医学统计方法--胡国清.ppt_第2页
第2页 / 共101页
常用医学统计方法--胡国清.ppt_第3页
第3页 / 共101页
常用医学统计方法--胡国清.ppt_第4页
第4页 / 共101页
常用医学统计方法--胡国清.ppt_第5页
第5页 / 共101页
点击查看更多>>
资源描述

1、常用医学统计分析方法基本知识常用医学统计分析方法基本知识胡国清胡国清 副教授副教授中南大学公共卫生学院流行病与卫生统计学系2024/5/12 周日1一一.统计学应用中的常见误区统计学应用中的常见误区2024/5/12 周日2问题1:统计学是数字游戏?数字形式仅是表面现象。几个示例统计学(Statistics):是一门研究数据的搜集、整理、是一门研究数据的搜集、整理、分析的科学。更主要的是分析的科学。更主要的是帮助人类探索未知事物帮助人类探索未知事物规律的工具规律的工具。统计学存在的必要性统计学存在的必要性?2024/5/12 周日3几个例子2003年湖南省省级计划生育工作的人员总数;2003年

2、在湘雅医院出生的新生儿的平均体重;2003年中国艾滋病发病率;湖南省65岁以上人群的平均血压;返回2024/5/12 周日4三个原因人类要了解未知事物的特点或规律人类要了解未知事物的特点或规律;如SARS的病因研究,一些恶性肿瘤的治疗方法探索,一些疾病的预防等等;差异或变异在研究总体中存在的普遍性差异或变异在研究总体中存在的普遍性;如全国正常人群的体重、身高、血压测量值等等。数据的表达或描述的难度。人、财、物的限制,不能够调查或检查总体中人、财、物的限制,不能够调查或检查总体中所有的观察单位,代价太大所有的观察单位,代价太大。2024/5/12 周日5留给统计学的问题如何简洁地、准确地从一大批

3、杂乱无章的数据中提炼出代表性信息?(统计描述)如何合理地由样本的信息(部分信息)推断总体的信息(总体信息)?(统计推断)2024/5/12 周日6统计方法的主要应用1.通过种种手段以最合适的方法搜集数据。2.采用统计指标、统计表、统计图描述数据的规律。3.采用合适的统计方法对数据进行分析,对整个研究的结果下结论。2024/5/12 周日7问题2:数据被恰当地表达了吗?1.统计指标的使用准确吗?还是?各自使用的条件是什么?是万用通行证吗?率与构成比 搞清楚了吗?如此计算率合适吗?2.统计表正确吗?3.统计图正确吗?2024/5/12 周日82024/5/12 周日9集中趋势的描述集中趋势的描述平

4、均数平均数:描述一组变量值的集中位置或平均水平的指标体系。1.(算术)均数:对称分布,尤其是正态分布;2.几何均数:对数转换后呈对称分布,尤其是对数正态分布;3.中位数:一般偏态分布;2024/5/12 周日10离散趋势描述离散趋势描述:描述一组变量值的离散趋势或变异程度的指标体系。1.极差:任何计量资料,是参考变异指标2.四分位数间距:与中位数配套用3.标准差:与算术均数配套用4.变异系数:描述对称分布(特别是正态分布)资料的相对变异程度。2024/5/12 周日11示例1:率和构成比的区分2024/5/12 周日12 示例2:如某种疗法治疗5例病人5例全部治愈,则计算治愈率为5/5100%

5、=100%,若4例治愈,则治愈率为4/5100%=80%,由100%至80%波动幅度较大,但实际上只有1例的变化。2024/5/12 周日13表10-3 不同心理分值的冠心病危险因素水平比较 2024/5/12 周日14统计图的误导作用 直条图的纵轴尺度起点必须为零示意图2024/5/12 周日15问题3:t检验、卡方检验是万能的吗?正态分布、方差齐性的条件满足了吗?是t检验还是方差分析;是t检验还是U检验?是成组t检验还是配对t检验?是t检验,还是校正t检验,或者是非参数检验?对于计数资料,是通常的卡方检验,还是Yates校正检验,或是精确概率检验?是配对设计,还是成组设计的四格表资料?20

6、24/5/12 周日16误区4:统计检验决定论与统计无用论P值一定要小于0.05或者0.01才行吗?P值的决定因素您考虑了哪几个?统计检验判断结果与专业判断结果相比,哪个更重要?2024/5/12 周日172.2.数据特征与统计描述基本知识数据特征与统计描述基本知识 2024/5/12 周日18计量资料的常用统计指标计量资料的常用统计指标描述集中趋势的特征数(描述集中趋势的特征数(选代表选代表)描述离散趋势的特征数(描述离散趋势的特征数(代表程度代表程度)目的:简单、明了传达信息目的:简单、明了传达信息2024/5/12 周日19表表 某地某地150名正常成年男子红细胞数(名正常成年男子红细胞

7、数(1012/L)编号编号红细胞数红细胞数编号编号红细胞数红细胞数1 13.983.982 24.544.541431434.674.673 34.744.741441445.405.404 45.135.131451455.295.295 54.434.431461464.774.776 64.814.811471475.385.387 74.984.981481485.155.158 83.793.791491494.644.641501505.195.19问题:谁能一眼看出下述数据的分布规律?2024/5/12 周日20一、一、描述集中趋势的特征数(描述集中趋势的特征数(平均指标)平均指

8、标)总称为平均数(average)反映了资料的集中趋势(central tendency)。常用的有:1.算术均数(arithmetic mean),简称均数(mean)2.几何均数(geometric mean)3.中位数(median)2024/5/12 周日211.1.算术均数(算术均数(meanmean)符号:总体 样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算:(1)直接法(2)频数表法2.2.几何均数(几何均数(geometric meangeometric mean)适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料。2024/5/12 周日23

9、几何均数的示例几何均数的示例血清的抗体效价滴度的倒数倒数分别为:10、100、1000、10000、100000,求几何均数。此例的算术均数为22222问题:描述此类型资料集中趋势时,为什么倾向选用几何均数?2024/5/12 周日24频数表资料的几何均数频数表资料的几何均数抗体滴度抗体滴度 人数人数,f 滴度倒数滴度倒数,X lgX flgX 1:41:81:161:321:512 合计合计15625724816325120.60210.90311.20411.50512.70930.60214.51557.22463.010213.5465 72.2471 2024/5/12 周日253.

10、3.中位数(中位数(medianmedian)定义:是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。符号:Md/M 适用条件:适合各种类型的资料。尤其适合于大样本偏态分布的资料;资料有不确定数值;资料分布不明等。2024/5/12 周日26中位数计算公式中位数计算公式先将观察值按从小到大顺序排列,按以下公式计算:注意:公式中n的含义,数据自小到大排序后的编号。2024/5/12 周日27频数表资料的中位数频数表资料的中位数下限值下限值L上限值上限值Ui;fm中位数中位数Md2024/5/12 周日28潜伏期潜伏期/h(1)频频数,数,f(2)累累计频计频数数S S

11、f所占百分比所占百分比(3)0171212646434312387070183292922469696300969636499994248 合计合计2100100145例4-8中位数12+6x(145x50%63)/3813.5(h)2024/5/12 周日29小结:集中趋势的描述平均数 平均数:描述一组变量值的集中位置或平均水平的指标体系。不同的分布使用不同的指标 算术)均数:正态或近似正态分布的资料 几何均数:对数正态分布或等比级数资料 中位数:一般偏态分布2024/5/12 周日30离散趋势的特征数离散趋势的特征数常用指标有:1.极差或全距(Range)2.四分位数间距(Quartile

12、 range)3.方差(Variance)4.标准差(Standard Deviation)5.变异系数(Coefficient of Variation)考试要点:表示符号、定义、适用条件、区别2024/5/12 周日31 盘编号盘编号 甲甲乙乙丙丙1 14404804902 24604904953 35005005004 45405105055 5560520510合计合计250025002500250025002500均数均数500500500500500500例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)甲乙丙2024/5/12 周日3

13、21.1.极差极差(Range(Range)(全距全距)符号:R意义:反映全部变量值的变动范围。优点:简便缺点:只利用了两个观测值适用范围:任何计量资料2024/5/12 周日332.2.四分位数间距四分位数间距百分位数百分位数 :数据从:数据从小到大小到大 排列排列;在百分在百分尺度下,所占百分比尺度下,所占百分比对应的值。记为对应的值。记为P Px x。四分位间距四分位间距:Q QP P7575 P P2525 P100(max)P75P50(中位数中位数)P25P0(min)Px2024/5/12 周日34频数表资料的百分位数频数表资料的百分位数下限值下限值L上限值上限值Ui;fm百分位

14、数百分位数Px2024/5/12 周日35P256+6x(145x25%17)/468.51(h)P7518+6x(145x75%101)/3219.45(h)Q19.45-8.5110.94(h)潜伏期潜伏期/h(1)频频数,数,f(2)累累计频计频数数S Sf所占百分比所占百分比(3)0171212646434312387070183292922469696300969636499994248 合计合计21001001452024/5/12 周日36百分位数的应用百分位数的应用可用多个百分位数可用多个百分位数描述计量资料的分布特征描述计量资料的分布特征2024/5/12 周日373.3.方

15、差方差方差(variance)也称均方差(mean square deviation),样本观察值的离均差平方和的均值,表示一组数据的平均离散情况。2024/5/12 周日38方差的优点和缺点方差的优点和缺点优点:利用了所有的观测数值。缺点:容易受极大值或极小值的影响;单位与原观测单位不一致。2024/5/12 周日394.4.标准差标准差标准差(standard deviation)即方差的正平方根;其单位与原变量X的单位相同。2024/5/12 周日40标准差的计算标准差的计算盘编号盘编号 甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 144048049019360023040024010

16、02 24604904952116002401002450253 35005005002500002500002500004 45405105052916002601002550255 5560520510313600270400260100合计合计250025002500250025002500 126040012510001250250标准差标准差50.9915.817.912024/5/12 周日415.变异系数变异系数(coefficient of variation)适用条件适用条件:观察指标单位不同,如身高、体重观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊同单位资料,

17、但均数相差悬殊均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm170 cm6 cm6 cm3.53.5体重体重60 kg60 kg7 kg7 kg11.711.7 意义:意义:挑选指标时变异系数越小,指标越好。2024/5/12 周日42变异指标小结变异指标小结1极差较粗,适合于任何分布2标准差与均数的单位相同,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,组合使用 如 正态分布:均数、标准差;偏态分布:中位数、四分位半间距2024/5/12 周日432024/5/12 周日44计数资料的计数资料的常用统计

18、指标常用统计指标一、计数资料的数据整理一、计数资料的数据整理二、二、常用相对数指标常用相对数指标三、三、应用注意事项应用注意事项2024/5/12 周日45一、计数资料的数据整理一、计数资料的数据整理计数资料/分类资料/定性资料:按某种属性分类,然后清点每类的例数。住院号年龄职业文化程度分娩方式妊娠结局202565527无中学顺产足月202565322无小学助产足月202583025管理人员大学顺产足月202567724知识分子中学顺产早产202564730管理人员大学顺产足月202584832无小学剖宫产足月201991527无中学顺产死产202586129无大学剖宫产足月202460125

19、农民中学顺产足月200038626无小学顺产足月2024/5/12 周日46二、常用相对数二、常用相对数v绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治愈人数、死亡人数等。但绝对数通常不具有可比性:1.如甲、乙两个医院某病出院人数不同时,比较两医院该病的死亡人数没有意义 2.如2002级附二院五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。2024/5/12 周日471.率(强度相对数):某现象或某事物发生的频率或强度。率=(实际发生数/可能发生总数)比例基数比例基数:100%、1000、10000/万、100000(1/1

20、0万)等(按习惯,使结果保留1-2位小数)。频率和速率的区别:分母是否考虑了时间因素(一)率(一)率2024/5/12 周日48(二)构成比(二)构成比构成比(结构相对数)(proportion):表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构成部分在总体中所占的比重或分布,其计算公式为:问题:频率相对数与构成比有何区别?2024/5/12 周日49v相对比简称比,是两个有关指标之比,说明两指标间的比例关系。v计算公式为v式中指标可以是绝对数、相对数或平均数。(三)相对比(三)相对比(ratioratio)2024/5/12 周日50三、应用注意事项三、应用注意事项1

21、.计算相对数的分母不宜过小。2.率与构成比的误用。3.正确求平均率。4.进行率的对比分析时,应注意资料可比性。5.对样本率(或构成比)比较时应做假设检验。2024/5/12 周日51问题:此篇论文作者的结论?2024/5/12 周日52统计图表统计图表2024/5/12 周日53统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式。统计图(statistical graph)是用点、线、面等各种几何图形来形象化表达统计数据。基本概念基本概念2024/5/12 周日54统计表的意义与制作原则n统计表的意义:统计表用简明的表格形式,有条理地罗列数据 和统计量,方

22、便阅读、比较和计算。n制表原则:重点突出、层次清楚。2024/5/12 周日55统计表的基本结构与要求统计表的基本结构与要求n标题:概括表的主要内容,包括研究的时间、地点和研究内容,放在表的上方。n标目:分别用横标目和纵标目说明表格每行和每列数字的意义,注意标明指标的单位。2024/5/12 周日56统计表的基本结构与要求统计表的基本结构与要求n线条:至少用三条线,表格的顶线和底线将表格与文章的其它部分分隔开来,纵标目下横线将标目的文字区与表格的数字区分隔开来。部分表格可再用横线将合计分隔开,或用横线将两重纵标目分割开。其它竖线和斜线一概省去。2024/5/12 周日57统计表的基本结构与要求

23、统计表的基本结构与要求n数字:用阿拉伯数字表示。无数字用“”表示,缺失数字用“”表示,数值为0者记为“0”,不要留空项。数字按小数位对齐。n备注:表中数字区不要插入文字,也不列备注项。必须说明者标“*”号,在表下方说明。2024/5/12 周日58顶顶 线线底底 线线表表 名名 标标 题题2024/5/12 周日59 表 某省某工厂 1994、1998年四项检测指标异常检出率检测指标1994年1998年受检人数 异常人数 检出率(%)受检人数异常人数检出率(%)血压 心率 TTT GPT5195195195195544362010.16 0.48 6.94 3.8558258258258238

24、3923166.526.703.952.75 :TTT(麝香草酚浊度试验),:GPT(谷丙转氨酶)。2024/5/12 周日60统计表的种类2024/5/12 周日611.简单表:统计表的主语只有一个层次 例1 下表列出某地进行喷昔洛韦软膏治疗颜面单纯疱疹与阿昔洛韦软膏比较的随机对照临床试验结果。该表只有试验分组一个层次,属简单表。表 某年某地喷昔洛韦软膏治疗颜面单纯疱疹疗效比较2024/5/12 周日622.组合表:统计表的主语有两个以层次 例2 某年某地分别在城乡进行乙型肝炎病毒抗原携带者的检测,该研究的对象按城乡和年龄两个特征分层,结果列在表10-2。该表属组合表。2024/5/12 周

25、日63表10-2 某年某地城乡各年龄组居民乙型肝炎病毒抗原携带率分析 2024/5/12 周日64编制统计表的注意事项 例3 某地进行冠心病危险因素研究时,调查了居民的心理得分值与其它冠心病有关因素,结果列成表10-3。2024/5/12 周日652024/5/12 周日66上表存在的问题1.将太多的内容放在一个表里,特别是将两种不同类型资料(计量资料和计数资料)的统计量放在同一表中。2.互不相容的内容分别占了不同的列,导致表中有许多空格。3.纵横标目倒置。4.内容较多,层次复杂,表格中数据罗列无条理,较难读懂。2024/5/12 周日67表4 某年某地居民不同心理分值的冠心病危险因素水平比较

26、处理办法:将该表资料分别制成两个统计表,见表4和表5。2024/5/12 周日68表-5 某年某地居民不同心理分值的冠心病危险因素水平比较 2024/5/12 周日69问题1:请评价下表是否符合统计表制作原则,并作改正?2024/5/12 周日70实例分析:下表是复方猪胆胶囊治疗两型老年性慢性支气管炎的疗效比较,请指出该表所存在的问题,并予以纠正。表表 两个组的疗效观察两个组的疗效观察 分型及疗效分型及疗效 单纯型慢性支气管炎单纯型慢性支气管炎 喘息型慢性支气管炎喘息型慢性支气管炎 指标指标 治愈治愈 显效显效 好转好转 无效无效 治愈治愈 显效显效 好转好转 无效无效 例数例数 60 98

27、51 12 23 83 65 11 合计合计 209 12 171 11 疗疗效效 94.6 94.0 2024/5/12 周日71表 复方猪胆胶囊治疗两型老年慢性支气管炎患者疗效比较 2024/5/12 周日72统计图统计图的意义:统计图将统计数据形象化,让读者更易于领会统计资料的核心内容,易于做分析比较,并且可以给读者留下深刻的印象。2024/5/12 周日73n统计图的种类:根据资料类型和统计分析目的不同,需要用不同的统计图表达数据和统计指标值。n常用的统计图:直条图、直方图、百分比条图和圆图、线图、散点图和统计地图等。2024/5/12 周日74统计图制作的一般原则 1.根据资料性质和

28、分析目的正确选用适当的统计图。2.必须有标题,概括统计图资料的时间、地点和主要内容。统计图的标题一般 放在图的下方。2024/5/12 周日753.统计图一般有横轴和纵轴,并分别用横标目和纵标目说明横轴和纵轴代表的指标和单位。一般将两轴的相交点即原点处定为0。纵横轴的比例一般以5:7或7:5为宜。4.统计图用不同线条和颜色表达不同事物和对象的统计量,需要附图例加以说明。图例可放在图的右上角空隙处或下方中间位置。2024/5/12 周日76二、常用统计图1直条图(bar chart)2圆图(pie chart)和百分比条图(percent bar chart)3线图(line graph)4直方

29、图(histogram)5统计地图(statistical map)6其他特殊分析图 箱式图(box plot)茎叶图(stem-leaf plot)误差条图(error bar chart)2024/5/12 周日771直条图(bar chart)用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按直条是横放还是竖放分卧式和立式两种,按对象的分组是单层次和两层次分单式和复式两种。2024/5/12 周日782024/5/12 周日79 例10-4 图10-1显示某地某年主要死因的死亡率资料,不同死因是相互独立的不连续指标,因此用直条图。该图只按死因分类,为单式立式直条图。2024/

30、5/12 周日802024/5/12 周日81 直条图的纵轴尺度起点必须为零示意图药物有效率(%)A药70B药752024/5/12 周日82(a)(b)2024/5/12 周日832圆图和百分比条图圆图(pie chart)是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所占的比例。百分比条图(percent bar chart)是以矩形总长度作为100%,将其分割成不同长度的段表示各构成的比例。圆图和百分比条图适合描述分类变量的构成比资料。问题:这两类统计图适合于什么类型的资料?尤其适合哪个统计描述指标?2024/5/12 周日84 图10-2 某年某地城市婴儿死因构

31、成比 2024/5/12 周日85 例10-5 某年某地进行婴儿死亡原因的调查,根据城市婴儿死因的构成资料绘制成图10-2。从图10-2可见出生窒息是婴儿死亡的首位死因,出生窒息、早产和肺炎头三位死因占总死亡的60.3%,是婴儿死亡防治的重点。2024/5/12 周日86 例10-6 图10-3是根据某地20世纪70年代和80年代恶性肿瘤发病登记资料绘制成的百分比条图。由图可见不同年代主要恶性肿瘤中,鼻咽癌和肝癌构成减少,肺癌明显增加。百分比条图特别适合作多个构成比的比较。2024/5/12 周日87 图10-3 20世纪70年代和80年代某地7常见恶性肿瘤发病构成比较 2024/5/12 周

32、日88图图 美国美国1999、2000年死于机动车事故的人员构成年死于机动车事故的人员构成2024/5/12 周日893线图(line graph)线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。普通线图:横轴和纵轴都是算术尺度。半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较。2024/5/12 周日90 例10-7 图10-4是根据19902000年某沿海城市甲状腺功能亢进(甲亢)发病率资料绘制的普通线图。2024/5/12 周日91图10-4 19902000年某沿海城市甲状

33、腺功能亢进发病率变化趋势 2024/5/12 周日92 例10-8 调查某地1997年2001年两种与性传播有关疾病艾滋病和梅毒的发病率变化趋势,资料分别绘制成普通线图和半对数线图。2024/5/12 周日93(a)纵轴为算术尺度纵轴为算术尺度;(b)纵轴为对数尺度纵轴为对数尺度图图10-5 19972001年某地艾滋病和梅毒发病率的变化趋势年某地艾滋病和梅毒发病率的变化趋势2024/5/12 周日944直方图(histogram)以直方面积描述各组频数的多少,面积的总和相当于各组频数之和,适合表示数值变量的频数分布。直方图的横轴尺度是数值变量值,纵轴是频数。2024/5/12 周日95 例1

34、0-9 1997年某地共报告乙型病毒性脑炎104例,其年龄分布如表10-6。2024/5/12 周日96图10-6 1997年某地乙型病毒性脑膜炎病例的年龄分布 2024/5/12 周日975统计地图(statistical map)统计地图是用不同的颜色和花纹表示统计量的值在地理分布上的变化,适宜描述研究指标的地理分布。例10-10 2003年广东省发生了某急性传染病的流行,图10-7描述了该急性传染病发病数在广东省的分布情况。2024/5/12 周日98图10-7 2003年广东省某急性传染病发病数的地理分布图例中括号内是发生相同病例数的行政区频数,其余指数据缺失的行政区2024/5/12 周日99谢 谢!2024/5/12 周日100感谢亲观看此幻灯片,此课件部分内容来源于网络,感谢亲观看此幻灯片,此课件部分内容来源于网络,如有侵权请及时联系我们删除,谢谢配合!如有侵权请及时联系我们删除,谢谢配合!

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服