1、医学统计学医学统计学第一章第一章 绪论绪论1 1第一节统计学与医学统计学2 2一统计与统计学的定义一统计、统计学与医一统计、统计学与医学统计学的定义学统计学的定义 3 31.统计是一种对客观现象数量方面进行的调查研究活动;是收集、整理、分析、推断、判断等认识活动的总称。数据汇总仅仅是统计工作的一小部分内数据汇总仅仅是统计工作的一小部分内容。容。4 42统计学作为一门学科的定义是:关于数据收集、表达和分析的普遍原理和方法。5 53.医学统计学 是用统计学原理和方法研究生物医学问题的一门学科。医学统计方法在医学研究中的运用主要有三个方面:6 6以正确的方式收集数据,如实验设计、调查设计等。描述数据
2、的统计特征,如数据化简、统计指标的选择与计算、统计结果的表达等。统计分析及得出正确结论,如根据概率分布,对实验和观察结果存在的差异和关联作出统计推断。7 7工作生活中常见的统计学问题如何判断药物的疗效?(假设检验)明天是否下雨?体育彩票能否中奖?(概率论)子女为什么象父母,其强度有多大?(相关与回归)美国的民意测验是如何进行的?(设计,抽样)中国的市场调查的可信性有多大?(现场调查)统计学是对令人困惑费解的数字问题统计学是对令人困惑费解的数字问题做出设想的艺术。做出设想的艺术。8 8二统计学的发展二统计学的发展简史简史9 91早期 公元前3050年古埃及人为修建金字塔筹集建筑费,对全国的人口和
3、财产进行了普查。1010 2近代 19世纪,应用数学家为解决赌徒们在博彩中出现的输赢概率问题逐渐形成和发展了概率论,从而为统计学的发展奠定了坚实的基础。1111 实例实例(观察对比)(P5)1853-1854年伦敦霍乱死亡率年伦敦霍乱死亡率与饮水与饮水水水源源 用户数用户数死亡人数死亡人数死亡率死亡率(1/万户)万户)重重 污污 染染(Southwark和和Vauxhall公司公司)40046 1263315.4轻污染轻污染(Lambeth公司公司)26107 9837.5伦敦其它地区伦敦其它地区256423 1422 55.5合合计计322576 278386.31212实例实例(实验性研究
4、)(P68)1747年,英国年,英国Lind医生对坏血病的干预研究。医生对坏血病的干预研究。1835年,法国医生年,法国医生Louis 对对“放血放血”疗法治疗肺炎疗法治疗肺炎的效果的效果 评价。评价。1948年,英国发表了评价链霉素治疗肺结核疗效的年,英国发表了评价链霉素治疗肺结核疗效的随机对照的临床试验随机对照的临床试验报告,第一次采用生物统计方法报告,第一次采用生物统计方法进行临床干预试验。进行临床干预试验。1960年英国医生年英国医生Doll,Hill等发现吸烟与肺癌等发现吸烟与肺癌有关。有关。相对危险度相对危险度RR=1.66/0.07=23.713131948年年,郭祖超郭祖超教授
5、(教授(19121999)编著的)编著的医医学与生物统计方法学与生物统计方法,是我国第一部医学统计方,是我国第一部医学统计方法的教科书。法的教科书。3.现代 计算机和统计软件如SAS、SPSS的出现 使统计学得到了突飞猛进的发展。1515 统计方法是建立在现代科学方法之上,由统计学理论指导的数据收集、表达和分析的方法,现代科学方法可以概括为以下几点:1616问题的识别与表达(发现问题、提出问题)。搜集有关资料。通过归纳得出假说:因果联系及重要的模式。从假说作出演绎:进行实验或收集更多的资料。推理:结果与演绎相符,假说得到加强,但不是被证明(例某地区食盐与高血压的关系)。17172.医学论文中的
6、统计学问题医学论文中的统计学问题60年代到年代到80年代,国外医学杂志调查结果:年代,国外医学杂志调查结果:有统计错误的论文有统计错误的论文20%72%。1996年对年对4586篇论文统计(中华医学会系篇论文统计(中华医学会系列杂志占列杂志占6.9%),数据分析方法误用达),数据分析方法误用达55.7%。60年年代代到到80年年代代,国国外外医医学学杂杂志志调调查查表表明明:20%72%的的论论文文有有统计错误。统计错误。1984年年对对中中华华医医学学杂杂志志、中中华华内内科科杂杂志志、中中华华外外科科杂杂志志、中中华华妇妇产产科科杂杂志志、中中华华儿儿科科杂杂志志595篇篇论论文文的的调调
7、查查结结果为:果为:相相对对数数误误用用占占 11.2%,抽抽样样方方法法误误用用占占15.9%,统统计计图图表表误误用用占占11.7%1996年年对对4586篇篇论论文文统统计计(中中华华医医学学会会系系列列杂杂志志占占6.9%),数数据分析方法误用达据分析方法误用达55.7%。2001年年中中华华预预防防医医学学杂杂志志:中中华华医医学学会会系系列列杂杂志志误误用用约约54%(1995)。)。1996年,有机构对申报科技成果的年,有机构对申报科技成果的4586篇科研论文分篇科研论文分析,统计方法使用率为析,统计方法使用率为76%。医学论文中统计运用错误,除了影响论文的科学性,医学论文中统计
8、运用错误,除了影响论文的科学性,还可能导致严重的伦理学问题。还可能导致严重的伦理学问题。19193.伪造统计数据违反科学道德伪造统计数据违反科学道德1976年年New Science 杂志关于科研舞弊杂志关于科研舞弊行为的调查行为的调查(1)74%的调查表反映有不正当修改数据的调查表反映有不正当修改数据的情况的情况(2)17%拼凑实验结果拼凑实验结果(3)7%凭空捏造数据凭空捏造数据(4)2%故意曲解结果故意曲解结果lFancy statistical methods cannot rescue garbage datalFancy statistical methods can help y
9、ou gain insight into your data,over and above what seems obvious on its facelYou should always worry about whether the sampled results are representative of the population,and whether your sample allows you to make inferences about the population.A Warning!三统计学的特点三统计学的特点医学数学,侧重医学,淡化数学。用数量反映质量,如平均期望寿
10、命,解放前为35岁,现在70岁,可反映国家医疗卫生服务总体水平的提高。大量观察+实验数据分析 可以揭示医学规律。2222第二节第二节 统计工作的基本步骤统计工作的基本步骤23231.专业设计:选题、建立假说、确定 研究对象和技术方法等个性2.统计设计:围绕专业设计确定统计 设类型、样本大小、分组方法、统计分析指标及统计分析方法。一、设计一、设计 2424二、收集资料二、收集资料(一)资料来源第一手资料 经常性:统计报表(死亡登记、疫情 报告等),工作记录(病历、化验);一时性:专题调查、实验或临床试验。第二手资料:已公布的资料,如数据银行、全国、全省卫生统计资料。2525(二)资料要求1完整:
11、观察单位及观察项目完整。观察单位:最基本的获取数据的单元。可以是一个体,亦可以是一个单位、家庭、地区,一批样品,一个采样点。2626 2准确:即真实、可靠。真实是统计学的灵魂。3及时:即时限性。如人口普查规定调查开始日期和截止日期。2727三整理资料 整理资料即原始数据的条理化、系统化的过程。所采取的手段合理化分组,目的实现专业目标。质分组:按事物的属性或性质分组分类变量;量分组:按数据的大小数值变量。2828四分析资料 1.统计描述:用统计指标、统计图表对资料的数量特征及分布规律进行测定和描述。2.统计推断:用样本信息推断总体特征:参数估计,假设检验。2929 第三节 统计资料的类型(P25
12、)有三种类型的资料:计量资料,计数资料,等级资料 基本概念:变量及变量值,研究者对每个观察单位的某项特征进行观察和测量,这种特征称为变量,变量的测得值叫变量值(也叫观察值),称为资料。按变量值的性质可将资料分为定量资料和定性资料。30301.计量资料定义:通过度量衡的方法,测量每一个观察单位的某项研究指标的量的大小,得到的一系列数据资料。特点:有度量衡单位 多为连续性资料 (通过测量得到)如患者的身高(如患者的身高(cm)、)、体重(体重(kg)、)、血压(血压(mmHg)、)、脉搏(次脉搏(次/分)、分)、红细胞计数(红细胞计数(10/L)3131定义:将全体观测单位按照某种性质或特征分组,
13、然后再分别清点各组观察单位的个数。特点:没有度量衡单位 多为间断性资料(通过枚举或记数得来)如肤色(黑、白)、血型(如肤色(黑、白)、血型(ABO)、)、职职业(工农兵)、性别(男女)业(工农兵)、性别(男女)2.计数资料3232定义:介于计量资料和计数资料之间的一种资料,通过半定量方法测量得到。特点:每一个观察单位没有确切值各组之间有性质上的差别或程度上的不同。癌症分期:早、中、晚。癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死亡。药物疗效:治愈、好转、无效、死亡。尿蛋白:尿蛋白:,+,+及以上及以上3.等级资料3333(三)资料的转化(变量类型的转化)数值变量 分类变量3434例如:
14、测得5人的WBC(个/m3)数如下:3000 6000 5000 8000 12000 数值变量 过低 正常 正常 正常 异常 分类变量若按正常3人,异常2人分组二分类变量若按过低1人,正常3人,过高1人分组等级资料3535*提示:多途径;尽量用定量指标,否则损失信息量;定性指标可转化为定量指标,但较粗糙。3636第四节 统计学中的几个基本概念1、变异、变异2、总体与样本、总体与样本3、参数与统计量参数与统计量 4、误差、误差5、频率、频率 37371.变 异(P34)同质事物个体间的差异。来源于一些未加控制或无法控制的甚至不明原因的因素。是统计学存在的基础,从本质上说,统计学就是研究变异的科
15、学。3838对变异的认识:(1)自然变异的范围是有限的,可以度量;参差不齐的测量值,通过大量重复观测可以显现出统计分布规律,如表1-1(P4)数据的变异特征至少有以下两点:3939变异的范围在3.296.18;有明显的统计分布规律,4.75.0的人数最多。根据表1-1的数据,统计上还可以进一步推论出正常成年男子红细胞计数的正常值参考范围。4040表表1-1 1201-1 120名正常成年男子红细胞计数值名正常成年男子红细胞计数值 5.125.134.584.314.094.414.334.584.245.454.324.844.915.145.254.894.794.905.094.645.1
16、45.464.664.204.213.735.175.795.464.494.855.284.784.324.945.214.685.094.684.915.135.263.844.174.563.526.004.054.924.874.284.465.035.695.254.565.534.584.864.974.704.284.375.334.784.755.395.274.896.184.135.224.444.134.434.025.865.125.363.864.685.485.314.534.834.113.294.184.134.063.424.684.525.193.705.5
17、14.644.924.934.903.925.044.704.543.954.404.313.774.164.585.353.715.274.525.214.374.804.753.865.69最大值=6.18,最小值=3.29,极差=2.89。算术均数=4.72,标准差=0.57 41414242 (2)用统计的方法可以确定出所有研究对象的变异范围,如正常成年男性的细胞数的范围。身高范围等等。(3)没有变异就没有统计,变异使统计有了用武之地。4343总体:根据研究目的确定的同质研究对象的全体。当研究有具体而明确的指标时,总体是指该项变量植的全体。样本:从总体中随机抽取的有代表性代表性的一部分
18、。观察单位(个体):最基本的研究单位 分为有限总体和无限总体。由于调查总体的不可能性、巨大性和没必要。对其中的一部分对象进行调查-样本 (总体与样本的关系。举例。)样本选择的原则-?样本量(sample size)2.总体与样本(population and sample)(P31)4444population and sample总体总体:根据研究目的根据研究目的确定的确定的同质同质研究对象研究对象的的全体全体(集合)。分(集合)。分有限总体与无限总体有限总体与无限总体样本样本:从总体中随机:从总体中随机抽取的部分观察单位抽取的部分观察单位 随机抽样随机抽样 random sampling为
19、了保证样本的为了保证样本的可可靠性靠性和和代表性代表性,需,需要采用随机的抽样要采用随机的抽样方法(在总体中每方法(在总体中每个个体具有个个体具有相同的相同的机会机会被抽到)。被抽到)。对样本数据进行观察或计算统计指标,目的是推论总体。47473.参数与统计量参数与统计量(P31)parameter and statistic参数参数:总体总体的统计指标,的统计指标,如总体均数,采用希腊字如总体均数,采用希腊字母记为母记为。固定的常数固定的常数 总体总体样本样本抽取部分观察单位抽取部分观察单位?推断推断inference统计量统计量:样本样本的统计指标,如样本均数,采用拉丁字母分的统计指标,如
20、样本均数,采用拉丁字母分别记为别记为 。统计量是参数附近波动的随机变量统计量是参数附近波动的随机变量。48484.误误 差差误差:误差:统计上所说的误差泛指测量值与真值之差,样本指标与总体指标之差。主要有以下二种:系统误差和随机误差(随机测量误差,抽样误差)。(1)系统误差:系统误差:指数据搜集和测量过程中由于仪器不准确、标准不规范等原因,造成观察结果呈倾向性的偏大或偏小,这种误差称为系统误差。特点:具有累加性(2).随机误差:随机误差:由于一些非人为的偶然因素使得结果或大或小,是不确定、不可预知的。特点:随测量次数增加而减小。4949 在消除了系统误差的前提下,由于非人为的偶然因素,对于同一
21、样本多次测定结果不完全一样,结果有时偏大有时偏小,没有倾向性,这种误差叫随机测量误差。特点:没有倾向性,多次测量计算平均值可以减小甚至消除随机测量误差。A、随机测量误差随机测量误差5050 这类误差可以通过实验设计和技实验设计和技术措施术措施来消除或使之减少。观察性研究由于组间不可比性产生的系统误差称为偏倚(bias),如吸烟组的平均年龄大于吸烟组,两组死亡率的差异包含年龄偏倚。5151 由于抽样原因造成的样本指标与总体指标之间的差别。特点:有抽样 抽样误差就不可避免。统计上可以计算并在一定范围内控制抽样误差。B、抽样误差抽样误差(P32)5252 (1)改进抽样方法,增加样本的代表性。样本量
22、 n 相等的情况下:整群抽样单纯随机抽样系统抽样分层抽样(2)增加样本量n(3)选择变异程度较小的研究指标 减少抽样误差的方法减少抽样误差的方法:53535.概率概率probability 确定性现象确定性现象:在一定条件下,:在一定条件下,一定一定会发生或一定不会发会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的生的现象。其表现结果为两种事件:肯定发生某种结果的叫叫必然事件必然事件;肯定不发生某种结果的叫;肯定不发生某种结果的叫不可能事件不可能事件。随机现象随机现象:在同样条件下:在同样条件下可能可能会出现两种或多种结果,会出现两种或多种结果,究竟会发生哪种结果,事先不能
23、确定。其表现结果称为究竟会发生哪种结果,事先不能确定。其表现结果称为随随机事件机事件。随机事件的特征:随机事件的特征:随机性随机性;规律性规律性:每次发:每次发生的可能性的大小是确定的。生的可能性的大小是确定的。概率:概率:描述随机事件发生的可能性大小随机事件发生的可能性大小的数值,用大写的用大写的P P 表示;取值表示;取值00,11。5454必然事件必然事件 P P=1 =1 不可能事件不可能事件 P P=0 =0 随机事件随机事件 00P P11 P P 0.05 0.05(5 5)或或P P 0.01 0.01(1 1)称为称为小概率事件小概率事件(习惯习惯),统计学上认为不大可,统计
24、学上认为不大可能发生。能发生。小概率事件小概率事件5555如何学习统计学(特点:灵活、抽象)(特点:灵活、抽象)理解基本的统计原理培养统计思维能力:抽象的,逻辑推理多练习:课堂练习,课下做习题 联系实际:阅读文献 工作和生活实际56561.某年级甲班、乙班各有男生某年级甲班、乙班各有男生50人。从两人。从两个班各抽取个班各抽取10人测量身高,如果甲班的平人测量身高,如果甲班的平均身高大于乙班,能否推论甲班所有同学均身高大于乙班,能否推论甲班所有同学的平均身高也大于乙班?为什么?的平均身高也大于乙班?为什么?2用用A,B两种药物分别治疗一批患者。两种药物分别治疗一批患者。如果如果A药的治愈率高于药的治愈率高于B药,药,证明证明A药的疗药的疗效优于效优于B药。这种说法对吗?为什么?药。这种说法对吗?为什么?3既然既然观察对比观察对比不可避免地存在偏倚,为不可避免地存在偏倚,为什么不能用什么不能用干预试验干预试验取代观察对比?取代观察对比?思考题思考题