资源描述
医学探究中统计思想1.统计学在医学研究中的作用统计学在医学研究中的作用 三个三个实际问题例例1:最正确配方:最正确配方问题 医医学学中中寻求求“最最正正确确配配方方,在在一一项抗抗生生素素培培养养基基试验中中,考考虑如如温温度度、PH值、水水分分、氧氧气气、水水质、培培养养基基种种类等等8个个有有关关因因素素,每每个个因因素素设有有3个个程程度度,则共共有有38=6561种种组合合,用用析析因因设计需需要要至至少少65612=13122次次试验,用用正正交交法法则只只需需27次次试验。说明明适适当当的的统计设计方方案案可可以以进步步试验效率!效率!2021/1/122021/1/122例例2.历史教训历史教训1962年美国明尼苏达医学院外科教授年美国明尼苏达医学院外科教授Wagensteen根据动物实验结果,认为将胃冷冻根据动物实验结果,认为将胃冷冻在零下在零下510能明显减少胃酸分泌。相当于胃能明显减少胃酸分泌。相当于胃切除术。随后,又对切除术。随后,又对24名胃溃疡病人进展胃冰名胃溃疡病人进展胃冰冻治疗,多数病人病症改善,溃疡愈合。作者冻治疗,多数病人病症改善,溃疡愈合。作者由此肯定了胃冰冻的方法,并在国际学术会上由此肯定了胃冰冻的方法,并在国际学术会上报告。以后,该疗法风行一时,先后制造胃冰报告。以后,该疗法风行一时,先后制造胃冰冻机冻机2500台,治疗病人上万人。但该疗法最终台,治疗病人上万人。但该疗法最终被严格的临床试验否认。被严格的临床试验否认。试验应该严格按照对照、随机、重复的原则!试验应该严格按照对照、随机、重复的原则!2021/1/122021/1/123例例3.Bayes问题问题某地肝癌发病率为某地肝癌发病率为0.5%,肝癌病人用甲,肝癌病人用甲胎蛋白胎蛋白AFP法检验呈阳性为法检验呈阳性为95%,安,安康人用甲胎蛋白法检验呈阴性为康人用甲胎蛋白法检验呈阴性为90%。如。如今人群中进展筛查,问今人群中进展筛查,问:在甲胎蛋白呈阳性在甲胎蛋白呈阳性的人中,真患有肝癌病的可能性是多大?的人中,真患有肝癌病的可能性是多大?A.5%B.60%C.90%经历经历,直觉直觉规律规律2021/1/122021/1/124 医学期刊的统计学审稿医学期刊的统计学审稿 统计审稿人的作用统计审稿人的作用统计审稿人的作用统计审稿人的作用 统计审稿的极大可能性统计审稿的极大可能性统计审稿的极大可能性统计审稿的极大可能性 We have received your revised manuscript.We have received your revised manuscript.Thank you.The editor will read over your paper Thank you.The editor will read over your paper and reply.The manuscript may or may not go and reply.The manuscript may or may not go out for additional peer review,however,out for additional peer review,however,most most manuscripts require additional statistical reviewmanuscripts require additional statistical review.(Response from Tracking a submitted(Response from Tracking a submitted manuscript,manuscript,New England Journal of Medicine)New England Journal of Medicine)2021/1/122021/1/125 1.3 医学研究中统计问题的本质医学研究中统计问题的本质 医医医医学学学学研研研研究究究究中中中中,由由由由于于于于生生生生物物物物现现现现象象象象的的的的变变变变异异异异较较较较大大大大,各各各各种种种种因因因因素素素素又又又又错错错错综综综综复复复复杂杂杂杂,实实实实验验验验与与与与观观观观察察察察的的的的结结结结果果果果往往往往往往往往会会会会受受受受到到到到许许许许多多多多随随随随机机机机因因因因素素素素的的的的影影影影响响响响,而而而而统统统统计计计计学学学学的的的的重重重重要要要要作作作作用用用用就就就就在在在在于于于于可可可可以以以以透透透透过过过过偶偶偶偶尔尔尔尔现现现现象象象象来来来来探探探探究究究究其其其其规规规规律律律律性性性性,并并并并用用用用容容容容易易易易理理理理解解解解的的的的方方方方式式式式将将将将研研研研究究究究结结结结果果果果表表表表达达达达出出出出来来来来概概概概括括括括性性性性。统统统统计计计计分分分分析析析析的的的的核核核核心心心心是是是是将将将将实实实实际际际际问问问问题题题题转转转转化化化化为为为为统统统统计计计计学学学学问问问问题题题题,正正正正确确确确地地地地选选选选用用用用统统统统计计计计分分分分析析析析方方方方法法法法,并结合专业知识做出科学的结论。并结合专业知识做出科学的结论。并结合专业知识做出科学的结论。并结合专业知识做出科学的结论。2021/1/122021/1/1263.医学研究设计中的统计学问题医学研究设计中的统计学问题 研究目的研究目的是探究性问题还是验证性问题是探究性问题还是验证性问题 探究性问题探究性问题(exploratory study)(exploratory study)通常是通常是科学问题科学问题:A A药对血压有什么影响药对血压有什么影响 抗毒素是否减低动物的死亡率抗毒素是否减低动物的死亡率 验证性问题验证性问题(confirmative study)(confirmative study)通常通常是实际问题是实际问题:A A药和药和B B药应选哪一个药应选哪一个 A A方法是否可以替代方法是否可以替代B B方法方法 不同性质问题与统计设计严密关联不同性质问题与统计设计严密关联2021/1/122021/1/127 对象选择和样本量确定对象选择和样本量确定对象选择对象选择动物实验:主要决定种类和品系动物实验:主要决定种类和品系 更多是出于专业方面的考虑。更多是出于专业方面的考虑。临床试验:早期研究范围比较窄,很可能临床试验:早期研究范围比较窄,很可能是最容易显示疗效的一小部分,后期验是最容易显示疗效的一小部分,后期验证性的试验要更具代表性。要从统计学证性的试验要更具代表性。要从统计学上仔细考虑选择的试验对象是否具有代上仔细考虑选择的试验对象是否具有代表性?表性?2021/1/122021/1/128目的目的总体体实际总体体研究研究研究研究样样本本本本(studysamplestudysample)随机随机随机随机样样本本本本试试 验验 结结 果果果果(hypothesishypothesistesttest)统计统计推推推推论论假假假假设检验设检验 随机分随机分随机分随机分组组限制条件限制条件限制条件限制条件(纳纳入入入入标标准准准准+剔除剔除剔除剔除标标准准准准)问题问题:对对一个一个一个一个详细问题选择详细问题选择性偏倚有多大?性偏倚有多大?性偏倚有多大?性偏倚有多大?图图1 1 选择选择性偏倚的性偏倚的性偏倚的性偏倚的产产生及影响生及影响生及影响生及影响2021/1/122021/1/129统计学不单纯是处理实验数据的学问,它更关注实验数统计学不单纯是处理实验数据的学问,它更关注实验数统计学不单纯是处理实验数据的学问,它更关注实验数统计学不单纯是处理实验数据的学问,它更关注实验数据的来源和专业含义。这意味着强调实验数据的代表性据的来源和专业含义。这意味着强调实验数据的代表性据的来源和专业含义。这意味着强调实验数据的代表性据的来源和专业含义。这意味着强调实验数据的代表性如何,更明确地说,实验数据反映的信息是否全面、准如何,更明确地说,实验数据反映的信息是否全面、准如何,更明确地说,实验数据反映的信息是否全面、准如何,更明确地说,实验数据反映的信息是否全面、准确,将直接影响结果和结论的正确性。确,将直接影响结果和结论的正确性。确,将直接影响结果和结论的正确性。确,将直接影响结果和结论的正确性。主要考虑:病型、病期、病情程度。例如治疗脂肪肝:主要考虑:病型、病期、病情程度。例如治疗脂肪肝:主要考虑:病型、病期、病情程度。例如治疗脂肪肝:主要考虑:病型、病期、病情程度。例如治疗脂肪肝:2021/1/122021/1/1210 样本量确定样本量确定:问题:我的实验需要多大的样本?问题:我的实验需要多大的样本?难以答复的问题,没有一个简单的方法难以答复的问题,没有一个简单的方法可以告诉临床医生适宜的答案!一般而言,可以告诉临床医生适宜的答案!一般而言,探究性研究和确认性研究情况不同。探究性研究和确认性研究情况不同。动物实验:通常根据经历法。变异、实际差动物实验:通常根据经历法。变异、实际差异可能多大?异可能多大?临床试验:由统计学专业人员确定临床试验:由统计学专业人员确定GCP)。注意:临床上有注意:临床上有期期10 30、期期100、期期(300)和和 期期(2000)试试验,各期要求的根底样本量不同。主要出验,各期要求的根底样本量不同。主要出于样本代表的人群和平安性方面的考虑。于样本代表的人群和平安性方面的考虑。2021/1/122021/1/1211 对照组选择对照组选择临床试验应尽量防止使用的对照方法临床试验应尽量防止使用的对照方法:历历史对照、非随机化同期对照、自身前后史对照、非随机化同期对照、自身前后对照。对照。试验试验1:早产儿眼晶状体后纤维增生:早产儿眼晶状体后纤维增生(ROP),注射,注射 ACTH后,后,70%治愈治愈(英国英国50年年代代)试验试验2:新生儿眼晶状体后纤维增生,:新生儿眼晶状体后纤维增生,脱离富氧环境脱离富氧环境 后,后,75%治愈治愈 问题问题:临床试验是否应该设立抚慰剂对照临床试验是否应该设立抚慰剂对照?2021/1/122021/1/1212 抚慰剂作用抚慰剂作用抚慰剂作用抚慰剂作用据国内学者报道:抚慰剂治疗慢性头痛有效率为据国内学者报道:抚慰剂治疗慢性头痛有效率为据国内学者报道:抚慰剂治疗慢性头痛有效率为据国内学者报道:抚慰剂治疗慢性头痛有效率为60%,60%,心绞痛发作减少率为心绞痛发作减少率为心绞痛发作减少率为心绞痛发作减少率为80%,80%,甚至术后剧痛也有甚至术后剧痛也有甚至术后剧痛也有甚至术后剧痛也有20%20%的止痛率。国外也有类似报道:美国的止痛率。国外也有类似报道:美国的止痛率。国外也有类似报道:美国的止痛率。国外也有类似报道:美国69006900名患有名患有名患有名患有哮喘、十二指肠溃疡、疱疹的病人中,在使用了并无哮喘、十二指肠溃疡、疱疹的病人中,在使用了并无哮喘、十二指肠溃疡、疱疹的病人中,在使用了并无哮喘、十二指肠溃疡、疱疹的病人中,在使用了并无实际效果的治疗手段的条件下,有实际效果的治疗手段的条件下,有实际效果的治疗手段的条件下,有实际效果的治疗手段的条件下,有70%70%获得了极好或获得了极好或获得了极好或获得了极好或良好的进步;澳大利亚一项研究显示:在经过了假的良好的进步;澳大利亚一项研究显示:在经过了假的良好的进步;澳大利亚一项研究显示:在经过了假的良好的进步;澳大利亚一项研究显示:在经过了假的激光治疗后,约有激光治疗后,约有激光治疗后,约有激光治疗后,约有72%72%的类风湿关节炎患者的指关节的类风湿关节炎患者的指关节的类风湿关节炎患者的指关节的类风湿关节炎患者的指关节疼痛有所减轻。疼痛有所减轻。疼痛有所减轻。疼痛有所减轻。(Heegetal.,1997)(Heegetal.,1997)。此外有国外学者。此外有国外学者。此外有国外学者。此外有国外学者通过一系列研究报道:抚慰剂还可以产生显著的抗焦通过一系列研究报道:抚慰剂还可以产生显著的抗焦通过一系列研究报道:抚慰剂还可以产生显著的抗焦通过一系列研究报道:抚慰剂还可以产生显著的抗焦虑作用,因此对于治疗抑郁或精神分裂患者都有良好虑作用,因此对于治疗抑郁或精神分裂患者都有良好虑作用,因此对于治疗抑郁或精神分裂患者都有良好虑作用,因此对于治疗抑郁或精神分裂患者都有良好的效果的效果的效果的效果Ader,1997andinSher,1997)Ader,1997andinSher,1997)。2021/1/122021/1/1213 实验指标选择实验指标选择 主要变量主要变量(endpoint):提供与临床最有关:提供与临床最有关且可信的证据变量,一般只选且可信的证据变量,一般只选12个主个主要变量。要变量。次要变量:与主要目的相关的有限几个支次要变量:与主要目的相关的有限几个支持性指标,或与次要目的相关的疗效指持性指标,或与次要目的相关的疗效指标。标。辅助变量:其他各种指标,如根底检查、辅助变量:其他各种指标,如根底检查、体征、平安性检查等。体征、平安性检查等。2021/1/122021/1/1214问题问题问题问题1 1:为什么要事先规定主要变量?:为什么要事先规定主要变量?:为什么要事先规定主要变量?:为什么要事先规定主要变量?防止试验结果的任意性,增强结论的可靠性!防止试验结果的任意性,增强结论的可靠性!防止试验结果的任意性,增强结论的可靠性!防止试验结果的任意性,增强结论的可靠性!问题问题问题问题2 2:临床试验如何选择主要变量?:临床试验如何选择主要变量?:临床试验如何选择主要变量?:临床试验如何选择主要变量?重点考虑指标的灵敏性、特异性、客观性!重点考虑指标的灵敏性、特异性、客观性!重点考虑指标的灵敏性、特异性、客观性!重点考虑指标的灵敏性、特异性、客观性!治疗脂肪肝试验治疗脂肪肝试验治疗脂肪肝试验治疗脂肪肝试验:B:B超、超、超、超、CTCT、肝功、血脂、病理、肝功、血脂、病理、肝功、血脂、病理、肝功、血脂、病理、?治治治治疗疗疗疗肾肾肾肾功功功功不不不不全全全全试试试试验验验验:肌肌肌肌酐酐酐酐、尿尿尿尿素素素素氮氮氮氮、硫硫硫硫酸酸酸酸吲吲吲吲哚哚哚哚酚酚酚酚、?治治治治疗疗疗疗急急急急性性性性心心心心肌肌肌肌梗梗梗梗死死死死试试试试验验验验:冠冠冠冠动动动动脉脉脉脉开开开开通通通通率率率率、溶溶溶溶栓栓栓栓后后后后3030天天天天死死死死亡率亡率亡率亡率?治治治治疗疗疗疗脑脑脑脑梗梗梗梗死死死死:CT:CT、核核核核磁磁磁磁、血血血血液液液液流流流流变变变变、ESSESS、NIHSSNIHSS量量量量表表表表、?2021/1/122021/1/12153.6 设计类型与分析方案设计类型与分析方案设计类型:主要根据有多少因素、是否重复等。一设计类型:主要根据有多少因素、是否重复等。一设计类型:主要根据有多少因素、是否重复等。一设计类型:主要根据有多少因素、是否重复等。一般探究性研究通常可以采用更为灵敏的设计。般探究性研究通常可以采用更为灵敏的设计。般探究性研究通常可以采用更为灵敏的设计。般探究性研究通常可以采用更为灵敏的设计。数据管理与分析方案:数据管理与分析方案:数据管理与分析方案:数据管理与分析方案:资料的一般统计学描绘:表格、图形、指标资料的一般统计学描绘:表格、图形、指标资料的一般统计学描绘:表格、图形、指标资料的一般统计学描绘:表格、图形、指标 资料的统计学检验:资料的统计学检验:资料的统计学检验:资料的统计学检验:调整与非调整调整与非调整调整与非调整调整与非调整PP值值值值资料的进一步分析:资料的进一步分析:资料的进一步分析:资料的进一步分析:影响因素分析影响因素分析影响因素分析影响因素分析问题:如何处理脱落数据?问题:如何处理脱落数据?问题:如何处理脱落数据?问题:如何处理脱落数据?intention-to-treat,ITTintention-to-treat,ITT分析:意向性分析分析:意向性分析分析:意向性分析分析:意向性分析FAS)FAS)perprotocolset,PPperprotocolset,PP分析:分析:分析:分析:符合方案数据分析符合方案数据分析符合方案数据分析符合方案数据分析(PPS)(PPS)2021/1/122021/1/1216P 值的意义值的意义 P P 值说明什么?值说明什么?只能说明统计学意义的只能说明统计学意义的“显著,不能说明实显著,不能说明实际效果的际效果的“显著。当观察例数很大时,显著。当观察例数很大时,P P 值可能很小而差异却无实际意义。因此,对值可能很小而差异却无实际意义。因此,对于于P P值的解释一定要结合专业知识,并且用两值的解释一定要结合专业知识,并且用两组均数或两组率之差的可信区间反映实际差组均数或两组率之差的可信区间反映实际差异的大小。异的大小。不表示两组的均数或率相等。如要说明两种药不表示两组的均数或率相等。如要说明两种药物等效或非劣效需要采用特殊的统计方法。物等效或非劣效需要采用特殊的统计方法。2021/1/122021/1/1217 多重比较问题多重比较问题多指标或重复测量的检验很容易出现问题,详细研多指标或重复测量的检验很容易出现问题,详细研究中应尽量防止多个假设检验究中应尽量防止多个假设检验multi-test)multi-test),拒稿理由拒稿理由 。例如例如:治疗高血压的新药临床试验,试验组和治疗高血压的新药临床试验,试验组和对照组治疗在血压治疗过程的对照组治疗在血压治疗过程的0 06 6周重复测量周重复测量5 5次血压,在比较不同时点试验组和对照组药物的次血压,在比较不同时点试验组和对照组药物的差异时做差异时做5 5次次t t 检验,容易出现什么问题?检验,容易出现什么问题?2021/1/122021/1/1218 4.3“混混杂杂对对P 值值的的影影响响:混混杂杂问问题题主主要要出出如如今今观观察察性性研研究究中中,但但临临床床试试验验中中假假如如有有其其他他影影响响疗疗效效的的非非处处理理因因素素(如如年年龄龄、病病情情等等)在在试试验验组组和和对对照照中中分分布布不不平平衡衡,就就有有可可能能夸夸大大或或掩掩盖盖试试验验组组的的治治疗疗效效果果。因因此此要要引引入入多多变变量量分分析析的思想。例如:的思想。例如:2021/1/122021/1/1219对病程进展调整后统计结论发生了变化!对病程进展调整后统计结论发生了变化!2021/1/122021/1/12205.统计和医学面临的挑战统计和医学面临的挑战数据挖掘数据挖掘 基因基因基因基因 蛋白蛋白蛋白蛋白 代谢代谢代谢代谢 Database:Genebank Database:Genebank、KEGGKEGG、WileyWiley和和和和NIST NIST 如:对基因表达谱数据的分析,其重要任务是挑如:对基因表达谱数据的分析,其重要任务是挑如:对基因表达谱数据的分析,其重要任务是挑如:对基因表达谱数据的分析,其重要任务是挑选差异表达基因及对基因或样品进展分类,通过比选差异表达基因及对基因或样品进展分类,通过比选差异表达基因及对基因或样品进展分类,通过比选差异表达基因及对基因或样品进展分类,通过比较正常和疾病状态下基因转录及其表达的差异,研较正常和疾病状态下基因转录及其表达的差异,研较正常和疾病状态下基因转录及其表达的差异,研较正常和疾病状态下基因转录及其表达的差异,研究疾病的发活力理、疾病的早期诊断及治疗。对基究疾病的发活力理、疾病的早期诊断及治疗。对基究疾病的发活力理、疾病的早期诊断及治疗。对基究疾病的发活力理、疾病的早期诊断及治疗。对基因表达谱数据分析的主要困难是相对于给定的样品因表达谱数据分析的主要困难是相对于给定的样品因表达谱数据分析的主要困难是相对于给定的样品因表达谱数据分析的主要困难是相对于给定的样品数目基因的数量宏大,传统的统计方法已不适用。数目基因的数量宏大,传统的统计方法已不适用。数目基因的数量宏大,传统的统计方法已不适用。数目基因的数量宏大,传统的统计方法已不适用。2021/1/122021/1/1221微阵列基因表达数据格式:微阵列基因表达数据格式:A组B组2021/1/122021/1/1222实例:应用随机森林分类器对结肠癌、前列腺癌、实例:应用随机森林分类器对结肠癌、前列腺癌、实例:应用随机森林分类器对结肠癌、前列腺癌、实例:应用随机森林分类器对结肠癌、前列腺癌、白血病三种基因表达数据进展变量挑选。仅用较少白血病三种基因表达数据进展变量挑选。仅用较少白血病三种基因表达数据进展变量挑选。仅用较少白血病三种基因表达数据进展变量挑选。仅用较少数目的基因就可以较好地实现对这三种基因表达数数目的基因就可以较好地实现对这三种基因表达数数目的基因就可以较好地实现对这三种基因表达数数目的基因就可以较好地实现对这三种基因表达数据的判别分类。据的判别分类。据的判别分类。据的判别分类。2021/1/122021/1/12235.2“弱相关问题弱相关问题 现场观察的最大优势是研究现场观察的最大优势是研究“强相关强相关危险因素,如:危险因素,如:抽烟与肺癌抽烟与肺癌,日照与皮肤癌日照与皮肤癌相对危险度相对危险度RR可高达可高达30,如此高的相对危险,如此高的相对危险度,即使观察结果存在混杂和偏倚,也缺乏度,即使观察结果存在混杂和偏倚,也缺乏以改变研究结论。危险因素以改变研究结论。危险因素RR13则研究则研究相当困难。如:杀虫剂残量与癌症、电磁场相当困难。如:杀虫剂残量与癌症、电磁场与儿童白血病、洗发水与骨髓癌、避孕药与与儿童白血病、洗发水与骨髓癌、避孕药与妇科疾病、单基因多态性与恶性肿瘤等。妇科疾病、单基因多态性与恶性肿瘤等。2021/1/122021/1/1224 考虑考虑:我们在做什么我们在做什么Breast cancer Breast cancer:XPD gene Lys/Gln vs XPD gene Lys/Gln vs Lys/Lys Lys/Lys 2021/1/122021/1/1225Thanks2021/1/122021/1/1226资料整理仅供参考,用药方面谨遵医嘱
展开阅读全文