1、医学统计学卫生统计学教研室 田考聪绪论一、医学统计学的定义1.引言:Statistics政治算术必然现象 随机现象概率论 数理统计各应用统计学:生物统计学、经济统计学state:国家(征兵 税收)赌博2.定义:医学统计学是运用概率论与数理统计的原理和方法,收集、整理、分析医学中反映随机现象的数字资料,并推断其客观规律的一门学科。这个定义指出了医学统计学的:1)研究对象:医学中的随机现象(数字资 料)2)研究步骤:收集、整理、分析、推断3)研究方法:概率论与数理统计的基本原理 和方法4)研究目的:从随机现象中找出统计规律3.医学统计学的用途 生物医学实验生物医学实验 临床试验临床试验 流行病学调
2、查流行病学调查 公共卫生管理公共卫生管理 医学科研项目申请医学科研项目申请 新药开发和报批新药开发和报批 医学杂志发表研究论文医学杂志发表研究论文二、医学统计学的基本内容1.研究设计 定义:目的定义:目的 安排安排 要求要求 (可行、高效、低误、(可行、高效、低误、经济)经济)要素:对象要素:对象 处理处理 效应效应 原则:对照原则:对照 随机随机 可重复可重复 方案:成组方案:成组 自身自身 配伍配伍 析因析因 正交正交2.2.数据处理数据处理1 1)统计描述:用某些特征值或统计图表来描述统计)统计描述:用某些特征值或统计图表来描述统计资料的特征。资料的特征。2 2)统计推断:运用统计方法对
3、统计资料进行分析、)统计推断:运用统计方法对统计资料进行分析、研究、推断其统计规律性。研究、推断其统计规律性。三、基本概念三、基本概念1.1.随机试验:满足下列条件的试验称为随机试验:随机试验:满足下列条件的试验称为随机试验:1 1)在相同条件下可以重复进行的试验;)在相同条件下可以重复进行的试验;2 2)可能出现的试验结果不止一个;)可能出现的试验结果不止一个;3 3)试验前不能预知本次试验会出现哪一个结果。)试验前不能预知本次试验会出现哪一个结果。为事件A在n次试验中出现的频率。0f(A)12.2.随机事件:随机事件:1 1)基本事件:随机试验所得的结果。)基本事件:随机试验所得的结果。2
4、 2)随机事件:由基本事件及其复合而成的事件。)随机事件:由基本事件及其复合而成的事件。3.3.频率:若在频率:若在n n次试验中,事件次试验中,事件A A出现了出现了mm次,则次,则称称4.4.概率:反映随机事件概率:反映随机事件A A发生的可能性大小的量,通发生的可能性大小的量,通常记为常记为P P(A A)。它是随机事件本身所固有的一种)。它是随机事件本身所固有的一种本质属性。本质属性。5.5.随机变量:为方便计,定义一个变量随机变量:为方便计,定义一个变量X X,按试验的,按试验的不同结果取不同的值。这个变量不同结果取不同的值。这个变量X X称为随机变量。称为随机变量。注:由于事件的发
5、生具有一定的概率,故随机变注:由于事件的发生具有一定的概率,故随机变量量X X的取值也有一定的概率。的取值也有一定的概率。6.6.统计资料的类型:(两大类)统计资料的类型:(两大类)定量资料(计量资料):定量资料(计量资料):测定观察单位某项指标所获得的统计资料。测定观察单位某项指标所获得的统计资料。其特征是:每个观察单位对应一个具体的测量值。其特征是:每个观察单位对应一个具体的测量值。定性资料:定性资料:计数资料:将观察单位的某项指标的观测结果计数资料:将观察单位的某项指标的观测结果按性质或类别的不同,分两类计数而得的统计资按性质或类别的不同,分两类计数而得的统计资料。料。等级资料:将观察单
6、位的某项指标的观测结果等级资料:将观察单位的某项指标的观测结果按性质的不同程度,分等级计数而得的统计资料。按性质的不同程度,分等级计数而得的统计资料。其特征是:各等级之间存在其特征是:各等级之间存在“递进关系递进关系”。分类资料:将观察单位的某项指标的观测结果分类资料:将观察单位的某项指标的观测结果按类别分多类计数而得的统计资料。其特征是各按类别分多类计数而得的统计资料。其特征是各类别间并不存在类别间并不存在“递进关系递进关系”。统计资料的转换:为了研究需要或数据分析方便,有时需要对统计资料进行转换,一般是将计量资料转换为计数或等级资料。7.7.总体与样本总体与样本 个体:各观察单位的某项指标
7、的测定值。个体:各观察单位的某项指标的测定值。总体:根据研究目的所确定的、具有某种相同性总体:根据研究目的所确定的、具有某种相同性 质的所有个体的集合。质的所有个体的集合。样本:同一总体中一部分有代表性的个体所构成样本:同一总体中一部分有代表性的个体所构成 的集合。的集合。样本必须具备的三个条件是:样本必须具备的三个条件是:同一性同一性:保证被研究对象的同质基础,包括时保证被研究对象的同质基础,包括时 间、空间、条件等;间、空间、条件等;随机性随机性:总体中每一个体都以同样的概率被抽总体中每一个体都以同样的概率被抽 到样本中去;到样本中去;可重复性可重复性:保证样本中有足够的个体数,即样保证样
8、本中有足够的个体数,即样 本含量足够大。本含量足够大。医学研究的统计学设计一、医学研究的基本步骤二、医学研究的类型三、实验设计一、医学研究的基本步骤1.1.查阅文献,做出综述,进行评价;查阅文献,做出综述,进行评价;2.2.建立科学假说,提出拟探索和解决的医学问题,明确具体建立科学假说,提出拟探索和解决的医学问题,明确具体 的研究目标;的研究目标;3.3.拟定研究设计方案和技术路线;拟定研究设计方案和技术路线;4.4.实施研究计划;实施研究计划;5.5.收集、整理分析研究所得的信息和资料;收集、整理分析研究所得的信息和资料;6.6.对研究结果进行解释,对提出的假说进行评价。对研究结果进行解释,
9、对提出的假说进行评价。专业设计重要性、科学性、创新性、可行性专业设计重要性、科学性、创新性、可行性 统计设计可靠性、有效性、合理性统计设计可靠性、有效性、合理性二、医学研究的类型 根据研究者是否主动安排处理因素,对观察对象施加根据研究者是否主动安排处理因素,对观察对象施加干预,医学研究分为实验研究与调查研究干预,医学研究分为实验研究与调查研究两大类两大类。实验研究:实验研究:实验研究:实验研究:对研究对象人为施加干预,控制实验条件,比较不同干对研究对象人为施加干预,控制实验条件,比较不同干预措施间的效果。预措施间的效果。调查研究:调查研究:调查研究:调查研究:对研究对象不加任何干预措施,被动地
10、进行观察,比较不同条件下研究对象之间的差异。三、实验设计(一)实验设计的基本内容 一个完整的实验设计方案,从统计学的角度来讲,应该一个完整的实验设计方案,从统计学的角度来讲,应该包含以下主要内容:包含以下主要内容:1.1.研究目的研究目的 2.2.研究方法研究方法 时间时间 现状、回顾、前瞻现状、回顾、前瞻 对象对象 临床实验、动物实验临床实验、动物实验3.3.三要素:三要素:研究对象、处理因素、研究效应研究对象、处理因素、研究效应4.4.三原则三原则 :对照、随机、重复对照、随机、重复5.5.研究的整体程序和方案(包括实验方案、数据分析方案)研究的整体程序和方案(包括实验方案、数据分析方案)
11、技术路线技术路线 关键问题解决方法关键问题解决方法 质控措施质控措施(二)实验设计的三要素1.1.研究对象:根据研究目的所确定的同质的实验观察个体。研究对象:根据研究目的所确定的同质的实验观察个体。同质(纳入标准、排除标准)同质(纳入标准、排除标准)总体、样本总体、样本2.2.处理因素:根据研究目的对研究对象给予的某种干预或措处理因素:根据研究目的对研究对象给予的某种干预或措施。(可以是研究者主动施加的或客观存在的)施。(可以是研究者主动施加的或客观存在的)处理因素的标准化问题:在整个研究过程中,处理因素必处理因素的标准化问题:在整个研究过程中,处理因素必须相对固定,统一标准。须相对固定,统一
12、标准。非处理因素的控制:在实验过程中,应注意控制非处理因非处理因素的控制:在实验过程中,应注意控制非处理因素的干扰,避免混杂效应。素的干扰,避免混杂效应。3.3.实验效应:处理因素作用于研究对象的反应或结果,通常以实验效应:处理因素作用于研究对象的反应或结果,通常以指标(变量)的形式来表达。所选指标应具备:指标(变量)的形式来表达。所选指标应具备:客观性、精确性、敏感性、特异性客观性、精确性、敏感性、特异性 客观性:客观性:主观指标和客观指标。主观指标和客观指标。精确性:精确性:准确度:观察值与真值的接近程度,受系统误差的影响。准确度:观察值与真值的接近程度,受系统误差的影响。精密度:重复观察
13、时,观察值与其均值的接近程度,受随精密度:重复观察时,观察值与其均值的接近程度,受随 机误差的影响。机误差的影响。敏感性和特异性:敏感性和特异性:降压药高血压病人血压值处理因素处理因素研究对象研究对象研究效应研究效应其他因素其他效应实验设计三要素(三)实验设计的三原则1.1.对照原则:对照原则:在确定接受处理因素的实验组时,要同时设立不施加处理因素的对照组。通过对照消除非处理因素对实验结果的影响。设置对照时应满足均衡原则,即对照组与实验组除处理因素不同外,其余影响实验效应的非处理因素应尽量均衡一致。设置对照还应满足同步原则,即对照组与实验组在整个实验过程中始终处于同一空间,同一时间。常用对照形
14、式:安慰剂对照安慰剂对照(placebo control)(placebo control):对照组给安慰剂:对照组给安慰剂 特点:克服心理导致的偏倚;消除疾病自然进程的影响。特点:克服心理导致的偏倚;消除疾病自然进程的影响。空白对照空白对照(blank control)(blank control):对照组不给予任何处理因素。:对照组不给予任何处理因素。特点:简单易行,易引起心理差异,从而影响实验效应的特点:简单易行,易引起心理差异,从而影响实验效应的 测定。测定。实实实实验验验验对对对对照照照照(experimental(experimental control)control):对对对对
15、照照照照组组组组施施施施加加加加基基基基础础础础实实实实验验验验条条条条件件件件(非非非非处处处处理理理理因因因因素素素素)。如如如如:在在在在赖赖赖赖氨氨氨氨酸酸酸酸添添添添加加加加实实实实验验验验中中中中,儿儿儿儿童童童童课课课课间间间间餐餐餐餐方方方方式为:式为:式为:式为:实验组实验组实验组实验组 赖氨酸面包赖氨酸面包赖氨酸面包赖氨酸面包 对照组对照组对照组对照组 面包面包面包面包自身对照:实验在同一受试对象上进行。自身对照:实验在同一受试对象上进行。自身对照:实验在同一受试对象上进行。自身对照:实验在同一受试对象上进行。特点:简单易行,使用广泛。特点:简单易行,使用广泛。特点:简单易
16、行,使用广泛。特点:简单易行,使用广泛。若试验前后某些环境或自身因素发生改变,会影响若试验前后某些环境或自身因素发生改变,会影响若试验前后某些环境或自身因素发生改变,会影响若试验前后某些环境或自身因素发生改变,会影响 试验结果,难以说明问题。试验结果,难以说明问题。试验结果,难以说明问题。试验结果,难以说明问题。标准对照标准对照标准对照标准对照(standard control)(standard control):以现有的标准或正常值作对照。:以现有的标准或正常值作对照。:以现有的标准或正常值作对照。:以现有的标准或正常值作对照。某种新的方法能否代替传统方法的研究。某种新的方法能否代替传统方
17、法的研究。某种新的方法能否代替传统方法的研究。某种新的方法能否代替传统方法的研究。2.2.随随随随机机机机化化化化原原原原则则则则:指指指指每每每每个个个个受受受受试试试试对对对对象象象象以以以以均均均均等等等等机机机机会会会会被被被被抽抽抽抽取取取取、被被被被随随随随机机机机地地地地分分分分配配配配到到到到试试试试验验验验组组组组和和和和对对对对照照照照组组组组。即即即即每每每每个个个个受受受受试试试试对对对对象象象象接接接接受受受受处处处处理理理理的的的的机机机机会会会会均等。均等。均等。均等。目目目目的的的的是是是是使使使使各各各各组组组组非非非非实实实实验验验验因因因因素素素素的的的的
18、条条条条件件件件均均均均衡衡衡衡一一一一致致致致,以以以以消消消消除除除除对对对对实实实实验结果的影响。验结果的影响。验结果的影响。验结果的影响。随机化分组:将实验对象按相同的概率分配至预先设定的几随机化分组:将实验对象按相同的概率分配至预先设定的几 个处理组中去。个处理组中去。随机化分组的方法有很多,我们介绍二种常用的方法:随机化分组的方法有很多,我们介绍二种常用的方法:完全随机设计、随机区组设计。完全随机设计、随机区组设计。例例1.1.完完全全随随机机设设计计:试试试试将将将将1212头头头头动动动动物物物物应应应应用用用用随随随随机机机机数数数数字字字字表表表表分分分分配配配配到到到到甲
19、甲甲甲、乙两组。乙两组。乙两组。乙两组。将动物编号:将动物编号:将动物编号:将动物编号:1 1,2 2,1212。从附表从附表从附表从附表1 1的第的第的第的第1111行,第行,第行,第行,第1 11 1列往右查列往右查列往右查列往右查1212个个个个2 2位数的随机数。位数的随机数。位数的随机数。位数的随机数。规规规规定定定定按按按按随随随随机机机机数数数数大大大大小小小小分分分分组组组组,较较较较小小小小的的的的6 6个个个个数数数数对对对对应应应应的的的的动动动动物物物物为为为为甲甲甲甲组组组组,较大的较大的较大的较大的6 6个数对应的动物为乙组。个数对应的动物为乙组。个数对应的动物为乙
20、组。个数对应的动物为乙组。动物编号动物编号123456789101112随机数字随机数字411076479144049549663960组组 别别甲甲甲甲乙乙甲甲乙乙甲甲甲甲乙乙乙乙乙乙甲甲乙乙 完全随机设计虽然提高了各组的均衡性,但不能保证各完全随机设计虽然提高了各组的均衡性,但不能保证各组的均衡性。例如在例组的均衡性。例如在例1 1中,如果中,如果1212只动物中雌雄性各有只动物中雌雄性各有6 6只,只,而实验效应可能受动物性别不同的影响,按照完全随机设计而实验效应可能受动物性别不同的影响,按照完全随机设计的方法显然不能保证甲乙两组中同性别的动物数相等。为了的方法显然不能保证甲乙两组中同性
21、别的动物数相等。为了解决这个问题,我们可用随机区组的方法来进行分组。解决这个问题,我们可用随机区组的方法来进行分组。随机区组设计:先将可能影响实验结果的非处理因素进行分随机区组设计:先将可能影响实验结果的非处理因素进行分层,即区组化(层,即区组化(blockingblocking),然后在每一层内进行随机化分),然后在每一层内进行随机化分组。组。例2.随机区组设计:如果体重是影响实验效应的非处理因素,需要将16头动物分为4组,怎样分组才能保证均衡性?(1)将16头动物称重后,按体重由小到大依次为1,2,16号.(2)把体重相近的4头动物作为一个区组,即等分成4个区组.(3)对于每一个区组,从随
22、机数字表中任意一行一列作起点顺序取4个随机数字,取两位随机数字,对应于该区组的4个动物,然后将随机数字由小到大顺序排列后得序号,再按序号的大小依次排列组别。随机区组设计动物编号动物编号随机数字随机数字序号序号分组分组1.1222B1.2171A1.3684D1.4653C4.1682B4.2954D4.3231A4.4923C练习:将例1中的12只动物随机分为甲乙两组,使甲乙两组中同性别的动物数相等。3.3.重复原则:在相同条件下进行多次研究或观察,以保证实重复原则:在相同条件下进行多次研究或观察,以保证实验的可靠性与科学性。即要求研究对象要有足够多的数量验的可靠性与科学性。即要求研究对象要有
23、足够多的数量(样本量)。(样本量)。统计描述一、频数分布1.频数分布表:为了解数据的分布范围、集中位置、分布形态等特征,需要编制频数表。例1:某医生收集了81例30-49岁健康男子血清中的总胆固醇值(mg/dL)测定结果如下,试编制频数分布表。219.7184.0130.0237.0152.5137.4163.2166.3181.7176.0168.8208.0243.1201.0278.8214.0131.7201.0199.9222.6184.9197.8200.6197.0181.4183.1135.2169.0188.6241.2205.5133.6178.8139.4131.6171
24、.0155.7225.7137.9129.2157.5188.1204.8191.7109.7199.1196.7226.3185.0206.2163.8166.9184.0245.6188.5214.397.5175.7129.3188.0160.9225.7199.2174.6168.9166.3176.7220.7252.9183.6177.9160.8117.9159.2251.4181.1164.0153.4246.4196.6155.48181例例30-4930-49岁健康男子血清中的总胆固醇值(岁健康男子血清中的总胆固醇值(mg/dLmg/dL)测定结果)测定结果步骤:1).1)
25、.求全距求全距 R=max-xin=R=max-xin=278.8-97.5=181.32).定组数 K 通常取815组为宜。本例取K10.3).求组距 IR/K (注意取整)。本例I181.3/10=18.13204).制表 确定各组段的下限、统计各组段内的频数、算出各组段的频率、累计频数、累计频率,将所得数据填入表中。8181例健康男子血清总胆固醇值(例健康男子血清总胆固醇值(mg/dlmg/dl)的频数分布表)的频数分布表组段组段(mg/dlmg/dl)频数频数频率(频率(%)累计频数累计频数累计频率累计频率(%)90902 22.472.472 22.472.471101103 33.
26、703.705 56.176.171301308 89.889.88131316.0516.05150150171720.9920.99303037.0437.04170170202024.6924.69505061.7361.73190190151518.5218.52656580.2580.252102108 89.889.88737390.1290.122302305 56.176.17787896.3096.302502502 22.472.47808098.7798.772702902702901 11.231.238181100.00100.00合计合计8181100.00100.
27、002.频数分布表的作用1 1)描述数据分布特征;)描述数据分布特征;2 2)计算有关指标;)计算有关指标;3 3)发现奇异值。)发现奇异值。二、计量资料的统计描述二、计量资料的统计描述1.1.集中趋势:反映集中趋势和集中位置的指标,亦集中趋势:反映集中趋势和集中位置的指标,亦称平均数。称平均数。1 1)算术均数)算术均数 适用于分布比较对称的资料。适用于分布比较对称的资料。定义式:定义式:加权式:例2.3例:由例1的数据:组段组段(mg/dlmg/dl)频数频数(f fi i)组中值组中值(x xioio)f fi ix xioio90902 21001002002001101103 312
28、01203603601301308 8140140112011201501501717160160272027201701702020180180360036001901901515200200300030002102108 8220220176017602302305 5240240120012002502502 22602605205202702902702901 1280280280280合计合计818114760147602)几何均数 适用于变量值呈倍数关系的资料。例2.5 例2.63)3)中位数中位数:将将n n个数据按大小顺序排列个数据按大小顺序排列,位置居中的位置居中的那个数称为
29、中位数那个数称为中位数.中位数有以下特点:1.对离群值不敏感.故当有离群值或数据分布不对称时,可 采用中位数来描述集中趋势.2.当数据分布对称时,均数和中位数很接近,当数据呈右偏态时,均数大于中位数;当数据呈左偏态时,均数小于中位数.例2.72.2.离散趋势:反映数据分布的离散程度离散趋势:反映数据分布的离散程度 例例2.102.10常用的分位数有四分位数、百分位数等。四分位数下四分位数Q1上四分位数Q3中位数Q2M百分位数1 1)全距)全距 R RMAXMAXMINMIN2 2)分位数与分位数间距)分位数与分位数间距 分位数是介于最大值与最小值之分位数是介于最大值与最小值之间的一个数值,它使
30、得一部分观察值小于或等于它,另一间的一个数值,它使得一部分观察值小于或等于它,另一部分观察值大于或等于它。两个分位数之间的距离称为分部分观察值大于或等于它。两个分位数之间的距离称为分位数间距,可用来描述数据的离散程度。位数间距,可用来描述数据的离散程度。Xp%百分位数的计算公式如下:式中:L是所在组段的下限,i是该组段的组距,fp是该组段的频数,n 是总频数,fL是该组段以前的累计频数。显然,中位数即为50%位数,下四分位数即为25%位数,上四分位数即为75%位数。例2.83.3.方差方差4.标准差5.5.变异系数变异系数例2.13例2.15几个离散指标的比较:全距简单易求,但所用的信息较少,对离群值较敏感,与样本含量n有关,n越大,全距可能越大。分位数间距简单易求,对离群值的敏感度小于全距,受样本含量影响较小。但使用的信息量仍然较少。方差使用了全部信息量,特别是利用了数据集中位置的信息,优于全距和分位数间距。但方差作了一个平方处理,夸大了各数据点与集中位置的离散程度。标准差是方差的平方根,它将方差夸大了的离散程度 作了还原,且具有方差的全部优点,因此标准差在实际应用中最为常用。变异系数用来度量相对变异程度,是一个无量纲的指标,可以用来比较不同量纲变量之间的变异程度,也可以用来比较量纲相同但均数相差较大的变量之间的变异程度。