流行病学数据统计分析策略...ppt

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,流行病学数据统计分析策略,中南大学湘雅公共卫生学院,谭红专教授,2026/1/24 周六,2,主要内容,概述,专题研究的数据分析,常规收集的流行病学数据的分析,2026/1/24 周六,3,第一节概述,流行病学研究与流行病学数据,流行病学数据分析的目的,流行病学数据中的变量分类,流行病学数据分析的内容,2026/1/24 周六,4,一、流行病学研究与流行病学数据,狭义的,流行病学数据,（,epidemiological data,）,指任何来自针对明确研究目的而开展特定流行病学研究所收集的资料。,广义的流行病学数据还包括出于其他目的和用途而收集的、可以用来定量地探索疾病健康或医疗卫生服务其他问题的资料。,即一切可为流行病学所用的数据。,目前的临床大数据是个宝库。,2026/1/24 周六,5,二、流行病学数据分析的目的,流行病学数据分析是,针对明确研究问题、具有明确目的,、采用特定方法对流行病学数据进行统计整理、统计描述、统计推断和总结。,流行病学研究的问题涉及疾病分布、病因与危险因素、诊断、预防和治疗效果评价等。,数据分析的根本是正确地回答有意义的问题，而不是统计学数字游戏。,2026/1/24 周六,6,流行病学数据分析的目的,估计有关统计学指标，如相对危险度；,估计该统计学指标的可信区间；,控制可能的混杂因素；,分析剂量反应关系；,分析可能的效应修饰因子；,分析可能存在的偏倚。,2026/1/24 周六,7,三、流行病学数据中的变量分类,典型的流行病学研究中变量可根据其用途分为五类：,暴露变量：因，自变量，可以有多个,结局变量：果，因变量，是数据分析的核心,混杂因素：需要控制,效应修饰因素：需要描述,其他变量：,2026/1/24 周六,8,按统计学分类,定性：二分类和多分类（无序多分类）,定量：在多数流行病学研究中被转化为分类变量,半定量（分级，有序多分类）,同一个研究中，因变量和自变量的关系应该是固定的、不能互换。但在不同的研究中，一个变量在这个研究中可能是果，在另一个研究中也可能是因。例如，高血压可能是遗传的结果，血压也可能是心脑血管事件的原因。,2026/1/24 周六,9,四、流行病学数据分析的内容,描述研究对象的数量变动；,变量分类和数据整理；,描述和比较组间基线资料；,估计结局事件发生频率；,估计效应大小及其可信区间；,识别和控制混杂；,识别和测量效应修饰作用；,识别和测量剂量反应关系；,其他分析。,2026/1/24 周六,10,第二节流行病学专题研究的数据分析,一、描述研究对象的数量变动,数据分析的第一步须对研究对象数量随时间的变动进行描述，这是判断选择偏倚是否存在及其大小的主要依据；对选样、抽样和筛选都应交代原则和方法；对退出和失访都应记录数量和原因,。,2026/1/24 周六,11,2026/1/24 周六,12,二、流行病学变量的分类与数据转换,转换目的：习惯、专业考量、模型限制,转换类型：定量转定性或分级，定性转定量,转换常用原则：借鉴既往同类研究的分级方法；按照通用的分级标准，如年龄可按国际通用的婴儿、幼儿、青少年、青年、中年、老年的年龄切点来分级；把研究人群分成每组人数均等的,35,组等。,2026/1/24 周六,13,三、描述基线资料,基线资料就是有关研究对象代表性和混杂因素的信息资料。,基线资料描述的基本目的：一是交待研究对象的特征，提供其代表人群的信息，据此判断结果的外推人群和外推性；二是评估暴露组和非暴露组之间混杂因素的可比性，检查存在混杂的可能性。,描述基线资料时，通常在总体描述基础上，对暴露组和非暴露组还要分别进行描述。,2026/1/24 周六,14,四、结局事件发生的频率,一般要求用率表示，如发病率。发病率由三个因素决定：观察时间、可能发病的总人数和实际发病人数。,一般情况下，发病率的分子是在一定时间内发病的总人数。,分母则因研究设计不同而异。当发病率较低，且每个人的观察时间长短基本一致，可用研究开始时该组人数作分母计算发病率，叫做累积发病率（,cumulative incidence,）。当结局事件发生率较高（如晚期癌症治疗试验中的死亡）或每个人的观察时间相差较大时，这时可用人时数（如人年数，,person-years,）做分母计算发病率，称作人时发病率（,person-time incidence rate,或发病密度（,incidence density,），,2026/1/24 周六,15,五、估计效应值,效应就是暴露或治疗对结局作用或影响的大小，多用暴露组与非暴露组或治疗组与对照组间发病率的差别来表达。,2026/1/24 周六,16,2026/1/24 周六,17,六、估计效应可信区间,由于随机误差，各效应指标的点估计不能代表效应的真实值，可信区间（,Confidence Interval,，,CI,）可用来表达由随机误差引起的效应估计值的不确定性。实践中一般采用,95%,可信区间，可以将其理解为真实效应值有,95%,的可能在这个区间之内。若效应指标的点估计值为,X,，标准误为,SE,，该效应指标的,95,可信区间：,95,CI,X1.96SE,，其中，（,X,1.96SE,）为其下限，（,X,1.96SE,）为其上限。,2026/1/24 周六,18,七、识别和控制混杂,混杂是由于同一个研究里暴露对某疾病的作用与其他病因的作用交织在一起导致暴露效应估计上的误差。,混杂必须同时具备三个条件：其一，是疾病确定的病因或危险因素；其二，不是暴露和疾病间的中间因素；其三，可疑的混杂因素在暴露组和非暴露组的分布不均衡。如性别可能就是吸烟与肺癌关系中的一个混杂因素。,2026/1/24 周六,19,混杂的控制就是控制混杂的第三个条件，办法有：,设计阶段有三种方法：限制、匹配和随机分组；,数据分析阶段也有三种方法：直接标化法、分层分析和多元回归分析。,2026/1/24 周六,20,八、交互作用,交互作用不同于混杂。混杂是粗效应值估计时的一种偏倚，需要控制和消除；交互作用是效应大小随第三因素暴露强度或剂量变化而变化的现象。,区别交互作用和混杂的方法是一致性检验。如果层间差异无显著性（,P,0.05,），说明不存在交互作用，这时可按混杂处理，可以用一个加权平均效应值来表达，如果平均效应值与粗效应值一致，说明无混杂。,2026/1/24 周六,21,交互作用模型及其相对性,决策应基于相加模型,2026/1/24 周六,22,九、识别和测量剂量反应关系,识别和测量剂量反应关系的分析方法主要有分层分析和回归分析。,2026/1/24 周六,23,第三节常规收集的流行病学数据的分析,常规数据分析的特殊性有三点：,第一，对研究问题的设定和对分析结果真实性的评估；,第二，由于没有预先设定研究问题，可研究的问题取决于资料内容和性质；,第三，设计框架不清楚或不完善，存在多种偏倚，结果真实性较差或不确定。,本节将以医院的病人资料为例，说明常规数据分析的目的、方法、步骤和注意事项。,2026/1/24 周六,24,一、常规数据的特征,（一）数据的时间框架和分类,时间框架指数据的时间特征，主要分为随访数据（队列数据）和非随访数据（现况数据）。,现况数据主要探索病人现况、服务状况和诊断准确性，偶尔用于初步探索病因、疗效和不良反应。,队列数据可用于大多数临床问题的探索,。,2026/1/24 周六,25,（二）变量的特征和分类,按照临床特征可将常规数据中的变量分为治疗措施、诊断结果、病因,/,危险因素、预后因素、结局、服务相关因素（如药价、医疗保险等）。,变量决定可能的研究问题,。例如，数据中无治疗信息，则无法研究疗效和副作用；无诊断结果，则无从研究诊断准确性。无结局信息，则不能研究疗效、预后因素、危险因素。,2026/1/24 周六,26,二、形成研究问题,根据数据的变量特征，可以初步形成可研究问题的范围。,欲进行诊断准确性研究，数据库里必须有检查结果和疾病诊断信息。,研究副作用，基线资料中必须有治疗信息，随访资料中须有副作用的信息。,评估疗效，基线资料中须有治疗的信息，随访资料中须有结局信息。,研究危险因素，基线资料中须有可疑病因的信息，随访资料中须有有关疾病的信息。,对研究者最大的挑战不是如何进行分析，而是如何形成研究问题？,2026/1/24 周六,27,三、常规数据,“,研究设计,”,的缺陷,2026/1/24 周六,28,研究设计最重要的三个因素是时间、人群和变量。,时间因素包括时点还是时间段，如何定义起始时间、时间走向、变量间的时间关系；人群因素包括人群特征，选择过程，及比较组的形成；变量因素包括测量指标、何时测量、测量的准确性。,通过比较常规数据收集的,“,设计框架,”,和最佳研究设计，可以发现常规数据的设计缺陷，判断可能引起的偏倚。,在时间、人群和变量特征上与最佳设计的差异，就是常规数据的缺陷所在，,也是偏倚可能出现的地方。,主要缺陷是非随机,失访或变量缺失。,2026/1/24 周六,29,四、估计相应的指标,根据研究目的以及最佳研究设计，就能够确定需要估计的指标。,现况研究中，只需要估计有关变量的均数和百分数；,评估治疗效果时，主要估计治疗对结局作用的大小；,评估诊断的准确性，主要估计灵敏度和特异度；,研究副作用，主要估计治疗对不良结局的作用大小值。,2026/1/24 周六,30,常规数据分析的具体步骤,分析数据的时间框架和变量的特征；,提出可探索的问题，确定最终研究的问题；,与最佳研究设计比较，检查数据的,“,研究设计,”,缺陷；,估计必要的指标及其可信区间与其它必要的分析；,分析数据中可能存在的其他偏倚，例如选择偏倚、信息偏倚和混杂偏倚；,综合设计缺陷、偏倚和结果，对研究问题做出结论。,2026/1/24 周六,31,五、评估数据中的偏倚,分析常规数据时，针对偏倚需考虑以下问题：,设计框架中，是否具有病因（或治疗）、结局和混杂因素的信息，结局的测量是否发生在病因或治疗发生后的一段时间内；,是否存在选择偏倚：数据代表性及失访率等；,是否存在信息偏倚；,是否存在混杂偏倚：有关混杂因素的基线信息是否完整。,2026/1/24 周六,32,（一）评估数据中的选择偏倚,很多数据的代表性很差或总体不明。,病人还经过了检验检查的选择。,最严重的选择偏倚是选择性随访和失访。大多数病人缺乏结局资料可能是我国医院常规数据中最大的问题之一。,2026/1/24 周六,33,（二）评估数据中的信息偏倚,数据的准确性和可靠性取决于医疗机构水平的高低；,另一个常见问题是数据质量不一致，原因包括同一个医院不同时期使用的检查仪器、试剂、方法和标准不同，检验员的水平不同；,随访时间不足也可能造成测量误差。,2026/1/24 周六,34,（三）评估数据中的混杂偏倚,由于利用常规资料的研究多属于探索性研究，并不确定哪些因素是混杂因素；,即使混杂因素已知，常规数据中常缺乏混杂因素的信息，导致无法控制混杂因素；,即使收集了混杂因素的数据，可能信息质量不好，致使混杂的控制不彻底。,2026/1/24 周六,35,六、常规资料的利用,诊断方法准确性的评估,急性病住院病人的转归和预后,围产期和新生儿问题的研究,急诊问题的研究,罕见疾病的病因和转归研究,疾病危险因素初探,药物毒副作用的研究,某类病人特征的观察,有关服务和用药的研究。,2026/1/24 周六,36,由于常规数据的局限性，其分析,目的主要是发现新问题，提出新假设，,很少用来验证和确定研究假设，不适用于已得到广泛研究的、存在高质量证据的、基本定论的问题。,2026/1/24 周六,37,提高使用效果的措施,利用部分常规数据，再依据研究问题收集少量新数据，可以扩展常规数据的研究用途，尤其在诊断准确性研究、病因和副作用的病例对照研究、罕见病的转归和预后研究领域。,扩大数据来源。例如，一个科室或医院的病人可能代表性差、失访率高；如果汇总一个大城市所有医院的数据，将会大大增加代表性，降低失访率；电子病历使跨医院和地区临床数据的合并成为可能。,同时利用多个不同性质的常规数据。例如，死亡作为观察结局时，可以同时利用一个地区或全国的死亡登记资料。,2026/1/24 周六,38,针对研究的问题，尽可能对病人重要的、容易准确测量的结局（如死亡、脑卒中）进行随访。由于移动电话、互联网、电子病历的出现，对重要结局的随访已经变得更加容易和可行。,适当地针对几个重要的疾病扩大资料收集的内容，尤其是常见的混杂因素，如年龄、性别、职业、疾病分级或严重程度等，加强测量和数据收集的质量控制。,当同一变量的检查方法不一致时，可以用一个小样本量对不同方法进行比较，并利用这个比较的结果对数据进行统一的调整。,七、临床研究结果的解释,观察指标的意义：缓解症状还是减少死亡；,效应的大小及其可信区间；,结果的真实性；,结果的外推性,2026/1/24 周六,39,2026/1/24 周六,40,谢谢！,

展开阅读全文