1、第一讲绪论一、医学统计学的理论基础和研究对象:a)问题的提出:在人们的实践活动中,常常会遇到类似下面的一些问题:一种新的疫苗,如何判断它是否有效?吸烟会不会使得肺癌的机会增加?如何抽检几百或几千人来估计某种病的流行程度?某批产品中合格品究竟有多少?该不该报废?如何消耗最少的资源和人力来得到我们所需要的某种信息?某种实验方法(或饲料配方)有没有明显改进?患者分组是否具有可比性?所观察对象的数量是否足够说明其结论?试验结果的误差有多大?研究结果是否适用于观察样本以外的同类对象?等等.其共同特点:只知道事情的不完全信息,或者是单个实验的结 果有某种不确定性。例如:为了知道产品合格与否或它的使用寿命,
2、我们常常需要 对它作破坏性检验,此时显然不能把所有的产品都检验一下,而只能 满足于对少数几个作品的抽检,这样获得的信息显然是不完全的;要检验疫苗的有效性,就一般来说,接种过疫苗的动物也不一定全不发病,而未接种的也不会全发病.那么发病与不发病的差别究竟到多大时我们才能认为接种是有效的呢?这些均涉及了我们如何评价一些并不确定的实验结果的问题。要 从这类问题中得出科学的、可靠的结论,就必须依靠统计学.有人干 脆给统计学下了这样的定义:“统计学就是从不完全的信息里取得准 确知识的一系列技巧”。另外,当必须根据有限的、完全的信息作出决策时(例如决定一 批产品是出厂还是报废,某种新药是否有效等等),统计学
3、可以提供 一种方法,使我们不仅能做出合理的决策,而且知道所冒风险的大小,并帮助我们把可能的损失减至最小。其次,如何花费最小代价取得所关心的信息,也是统计学的一大 课题(实险设计).不注意这一点可能使辛辛苦苦的工作全成为一种 浪费.2.理论基础:“根据数理统计的原理、方法紧密结合医学实践,研究医药卫生领域中的资料收集、整理、分析和推断的一门应用学科,来分析和解释生物界各种现象和实验调查资料的科学”。随着生物医 学研究的不断发展,运用统计学方法来认识、推断和解释生命过程中 的各种现象也越来越广泛。运用统计学方法可以帮助人们分析占有信 息,达到去伪存真,去粗取精,正确认识世界的目的。3.研究对象:人
4、体及与人体健康有关的各种具有不确定性的 医学数据(变异、数量、同质)。二、医学统计学的主要任务和作用:任务:1、结合专业知识和具体研究的要求进行统计设计2、对收集资料进行整理、做统计描述3、对资料进行统计分析和解释作用:1、保证调查或试验设计的科学性、完整性2、指标的确定应具有特异性、客观性,灵敏性和精密度高3、样本含量足够大,数据真实可靠4、选用统计分析方法正确三、医学统计学的主要内容:1、统计设计(design)在进行统计工作和研究之前必须有一个周密的设计,设计的内容 包括资料收集、整理和分析全过程总的设想和安排。统计设计可按照在研究过程中对研究对象是否进行干预分作调 查研究设计和实验研究
5、设计。调查研究设计:研究者旨在客观地描述研究总体,未加任何干预 措施,如:调查了解某地的学龄儿童缺铁性贫血的患病率,某地新生 儿畸形的发生率,北京地区溃疡病患病率等,其目的在于了解某一医 学现象的实际情况,疾病的危害程度,以便为防治和研究这些疾病提 供依据。调查设计主要有抽样方法、调查技术、质量控制技术等。实验研究设计:研究者根据目的(研究假设),主动加以干预措 施,并观察总结其结果,回答研究假设所提出的问题。如:研究脂健乳是否有降脂作用,首无假设脂健乳可以降低血 脂,再将条件相似的20只大鼠先用高脂饲料喂养做成高脂血症的模 型,然后将动物随机分为实验组和对照组,实验组服用脂健乳和豆奶,对照组
6、单纯服用豆奶,喂养一个月后观察比较两组之间各项血脂指标 的差别有无统计学意义,进而得出脂健乳是否具有降低血脂的保健作 用的结论。实验设计主要有各种实验设计模型、分组方法、样本量估计等。由于统计设计的质量直接影响着试验结果的准确性、可靠性、严 密性和代表性,一旦出现设计上的失误或缺陷,可能导致整个研究的 失败。因此,专业设计是研究者对专业知识的把握能力,直接影响着 实验的深度和水平,而统计设计是研究者对医学统计知识的正确运 用,以保证统计描述和推断正确的基础。调查设计与实验研究设计专业设计统计设计要求运用专业知识进行设计运用统计学知识进行设计由家选题、调查(实验)、方法、材料确定设计方案、收集整
7、理资料、确定 统计指标、分析和推断方法方向探讨实验、观察结果的适用性和创 造性探讨实验、观察结果的可重复性、高 效性目的回答和解决科研课题,验证假说,保证科研结果的先进性减少和控制误差。保证样本的代表性 和可靠性,保证实验结果的精确性和 可重复性2、收集资料(collection of data)方式:1、统计报表2、经常性工作记录3、专题调查或实验3、整理资料(sorting data)将原始数据进行核对、整理,使其系统化、条理化,对数据进行 逻辑检查,纠正错误,提供整理和描述数据资料的科学方法,确定数 据的数量特征。4、分析资料(analysis of data)根据不同的资料类型,选择不
8、同的统计处理方法,计算有关指标,反映数据的综合特征,阐明事物的内在联系和规律。统计分析包括:统计描述(d escriptive statistics):用统计指标、统计表、统计图等方法,对资料的数量特征及分布规律进行测定 和描述。统计推断(inferential statistics):包括如何抽样,以及如何在随机变量的样本值基础上推断概率分布和总体值。统 计推断中涉及的各种统计分析方法是本次授课的重点内容。四、医学统计学在科研中的作用:1、系统积累和表达经验临床经验的积累在于大量的临床实践。实际上这些经验都可以整 理和表达为统计信息,掌握了一定的统计学知识,就可以将积累的经 验,通过对资料的
9、收集、整理和分析,转变为正规和系统的统计信息,用以报告或发表,使人类医学知识宝库不断充实和发展。2、完成科研工作生物学是一门实验科学,不管你从事的是生物学的哪一个分支,都不可能完全脱离实验,只进行逻辑推理.而实验所得到的结果几乎 无例外地都带有或多或少的不确定性,即实验误差.在这种情况下,不用统计学要想得到正确的结论是不可能的,可以毫不夸张地说,作 为一个实验科学工作者,离开了统计学就寸步难行,希望通过这门课 程的学习,能够掌握常用的统计方法,尤其是它们的条件,适用范围、优缺点等,从而能够应用它们去解决实践中遇到的问题。否则,他将 无法知道其研究结果是否具有科学意义上的可重复性。要一一回答这
10、些问题,要求研究者必须在整个研究过程中贯穿和运用统计学的理论 和方法。3、撰写研究报告和阅读书刊医学研究中往往要涉及大量的数据,但在撰写研究报告和论文 时,只能使用经过整理和归纳的统计指标,并且用规范的统计表和统 计图表达。止匕外,在阅读国外期刊时,如果不具备统计学的基础知识,则不能判断别人研究结果的可信性和局限性,更谈不上吸收和借鉴。五、医学统计学中几个重要的基本概念:(1)总体(population)、样本(sample)、个体(observed unit)a.总体:根据研究目的所确定的性质相同的所有个体的某种 变量值的集合。如:调查某地1999年正常成年男子的红细胞数,则机察对象:该地1
11、999年正常成年男子。观察单值:统计研究中的最基本单位,如:一个人、一个家庭、一个地区等。观察值rtf(1;:每个人测得的红细胞数。该地1999年正常成年男子的红细胞数就构成一个总体。同质基础:同一地区、同一年份、同为正常成人、同为男性有限总体(finite population):有确定的时间、空间和有限个观 察单位,如上例。无限总体(infinite population):没有确定的时间和空间限制,观 察单位数为无限。如研究用某药治疗缺铁性贫血的疗效,此时,总体 的同质基础是贫血患者,同时用某药治疗,该总体应包括用该药治疗 的所有贫血患者的治疗结果。b.样本:从总体中随机抽取部分个体所组
12、成的集合。(随机化原则:总体中每一个观察单位均有同等机会被抽取)(2)参数(parameter)统计量(statistics)统计学中把总体的指标称为参数,把所得样本的平均数称为统计量。(3)误差(error):袖锌篌差(sampling error)由于总体中的个体间往往存在着 变异,随机抽取的样本仅是总体中的一部分个体,因而样本测得的指 标(统计量)往往与总体指标(参数)存在着差异,这种由于随机抽 样而造成的样本的统计量与总体参数之间的差异,称为抽样误差,它 既不定量,也不定性。系统篌差:由于设计不严,测量仪器不准确,测量者水平的偏 差而造成的,这种误差是定量的,可控的。(4)统计资料对每
13、个观察单位的某项特征进行测量和观察,其特征称为变量,对变量的测值称为变量值,亦称为资料。计量资料(quantitative data)统计资料类型 计数资料(qualitative data)I等级资料(ranked dat)、定量资料(quantitative data)K称为外置费料;用专业仪器测量,具有计量单位的测量数据,表现为数值的大小,如身高(cm)、体重(kg)、血压(kPa)等。特点;每个观察单假的观察值间哧量的区别、定帙资料(qualitative data):其观察值是定性的,表现为 互不相容的类别或属性(即将观察单位按某种属性或类别分组,所得 各组的观察单位数)。特袤;每个
14、观察单位的观察使间哧质的区别分两种情况:1、无序分类(unorcCeredcategories)又称为计数资料a.二项分类 检验结果可以是阳性或阴性、治疗结果可以是治愈或未愈、性别属性等,表现为两类间互相对立。b.多项分类 某种观察结果为互不相容的多个类别,如血型、职业等。2、有序分类(ordinaCcategories)又称为等级资料介于定量测量和定性观察之间的半定量观察结果,如测定某人 群血清反应,以人为观察单位,结果分为一、土、+、+四级,又如 观察以某种药治疗某病患者的治疗结果,以每个患者为观察单位,结 果分为治愈、显效、好转、无效四级,通常有两个以上等级。等级资料与计数资料的区别在于
15、,等级资料虽然是多分类资料,但各个类别存在着大小和程度上的差别。特袤:各类之间哧程点的差别资料的转化和分析:根据分析问题的需要,各类变量可以互相转化。如:观察某人群成年男子的血红蛋白量(g/L),属数值变量;若分析比较某种病人的血红蛋白水平与正常人有无差别,须按计 量资料进行处理。序号 正常人组 病人组23456789若按血红蛋白正常与偏低分为两类,可按二项分类资料处理;正常人组 病人组_偏低合计若按贫血的诊断标准将血红蛋白含量分为五个等级:重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高,可按等级资料处理。正常人组病人组重度贫血中度贫血轻度贫血 正常 血红蛋白增高 合计(5)频率(frequ
16、ency)、概率(probability)医学研究的大多数现象是随机现象,例如用同一种治疗方法治 疗某病的一群患者,可以知道治疗的结果有四种,但对于一个病人其 治疗后的结果是不确定的,此时的每一种可能发生的结果都是一个随 机事件(偶然事件、事件)。定义:在n次随机试验中,随机事件A发生了 k次,记/,)=n 则称力(左)为随机事件A在n次试验中出现的频率。实践证明,大量的试验中随机事件会呈现出频率稳定性。定义:描述随机事件A发生可能性大小的数值,称为A的概率,记作P(A),简记为P。假如临床观察中治疗200病人的样本,求得 治愈率为75%,这只是一个频率。实际应用中,当概率不易求得时,常用n
17、8时的频率作为概率的估计值。但当n较少时,频率的波动 性是很大的,用于估计概率是不可靠的。随机事件概率的大小在0与1之间。P值越接近1,表示某事件发生的可能性越大;P值越接近0,表示某事件发生的可能性越小。严格说,P=1表示事件必然发生,P=0表示事件不可能发生,他 们是确定性的,不是随机事件,但可把他们看成随机事件的特例。统计分析中的很多结论都是带有概率性的。习惯上将PW0.05 称为小概率事件,表示在一次实验或观察中该事件发生的可能性很 小,可以视为很可能不发生。医学统计学的学习重点是:1、掌握其基本知识、基本技能、基本概念、基本方法。建立逻辑思维方法和提高分析问题的能力。2、掌握调查设计
18、和试验设计的基本原则。培养收集、整理、分析统计资料的系统工作能力。3、掌握一套统计软件的使用方法(S AS、S PS S、S TATA等)。能够达到在完成医学统计学课程后,独立完成科研论 文和正确应用统计方法。第二讲集中趋势举例设有A、B两名新战士,他们的射击技术可用下面的分布来表示:战 士 A 战 士 B击中环数 8 9 10 击中环数 8 9 10对应概率 0.3 0.1 0.6 对应概率 0.2 0.5 0.3问哪一个战士射击技术较好?1频数分布表1人频数表的编制相同观察结果出现的次数称为频数。将所有观察结果的频数按一定顺序排列 在一起便是频数表(frequency table)。步骤:
19、找出最大和最小值,计算极差R=Xmax-Xmin根据斯梯阶公式确定组距1+3.322 log”扫描样本值,划记后获得频数2人频数表的用途 大样本数据(不限于计量资料)常用的表达方式。便于观察数据的分布类型。便于发现资料中远离群体的某些特大或特小的可疑值,必要时经 检验后舍去。当样本含量足够大时,各组段的分布频率作为分布概率的估计值。例7.我国某地农村1995年已婚育龄妇女现有子女数的分布子女数(1)妇女数f(2)频率()(3)累计频数(4)累计频率()(5)0137519.45137519.4512519117.303892226.7523042620.916934847.6532856019
20、.629790867.2842171914.9211962782.205136959.4113332291.61672554.9814057796.60732682.2514384598.8581510.1014499699.6493730.2614536999.892101560.11145525100.00合计145525100.002、集中位置的描述平均数(average)是统计中最广泛、最重要的一个指标体系。用来描述一组变 量的集中趋势、中心位置或平均水平,常作为一组资料的代表值,使资料产生简 明概括的印象,又便于组间的比较。常用平均数有均数、儿何均数和中位数。()、均数(mean)的
21、计算_=x,+x2+x3.+x直接法 n 例 1、10名 7岁男童体重(kg)分别为 17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5.求平均体重。元=(17.3+18.0+19.4+20.6+21.2+21.8+22.5+23.2+24.0+25.5)/10=21.35(kg)频数表法:._一斗+力*2+33+项_Z仅例2:某地随机检查了 140名成年男性红细胞数(10l)4.71 5.21 4.94 4.68 5.17 4.91 5.02 4.764.765.26 5.615.954.464.574.315.184.924.274.774.
22、885.004.73 4.475.344.704.814.935.044.405.274.635.505.244.97 4.714.444.945.054.784.524.635.515.244.984.334.83 4.565.444.794.914.264.384.874.995.604.464.955.07 4.805.304.654.774.505.375.495.224.585.074.814.54 3.824.014.894.625.124.854.595.084.824.935.054.40 4.145.014.375.244.604.714.824.945.054.794.52
23、4.64 4.374.874.604.724.835.334.684.804.154.654.764.88 4.613.974.084.584.314.054.165.045.154.504.624.73 4.474.584.704.814.554.284.784.514.634.364.484.59 5.095.205.325.054.414.524.644.754.494.22红细胞数(10L)(1)频数f(2)组中值X(3)Fx(4 户(2)*(3)3.80-23.907.84.00 64.1024.64.20 114.3047.34.40-254.50112.54.60-324.701
24、50.44.80 274.90132.35.00-175.1086.75.20 135.3068.95.40-45.5022.05.60-25.7011.45.80-15.905.9合计140(Ef)669.8(EfX)JX+/13+-+_ Z 及E7 苫=4.78(1070均数的两个重要特征:各离均差的总和等于零Z(x-K)=0证明:z(%,-%)=,“=,=0 各离均差的平方和小于各观察值X与任何数a之差的平方 Z(x&)2Z(x-a均数的应用:1.用来描述一组变量值的平均水平,具有代表性,因此变量值必须是同质的。2.适用于呈正态分布(对称分布)的资料。(2)几何均数(geometric
25、mean)的计算1)直接法G=lxi-x2-x3-xnG=lgT(lg%+lg%2+-7g%)=IgT(S l)n n例3:5人的血清滴度为:1:2,1:4,1:8,1:16,1:32,求平均滴度。G=:2x4x8xl6x32LgG=(lg2+lg4+lg8+lgl6+lg32)/5=0.903G=lg10.903=8故平均滴度为1:8。2)频数表法GM钟)例4:40名麻疹疫苗接种麻疹疫苗后一个月,血凝抑制抗体滴度见下表,求平均滴度。抗体滴度人数f滴度倒数XLgXf*lgX(1)(2)(3)(4)(5 尸(2)*(4)1:4140.60210.60211:8580.90314.51551:16
26、6161.20417.22461:322321.50513.01021:647641.806212.64341:128101282.107221.07201:25642562.40829.63281:51255122.709313.54654072.2471LgG=(2flgX/Zf)=72.2471/40=l.8062G=lg1.8062=64血凝抑制抗体滴度的平均滴度为1:64几何均数的应用:用于等比级数资料和对数正态分布资料,如:某些传染病的潜伏期、抗体滴度、细菌计数等。(3)、中位数和百分位数的计算中位数(med ian,M)是将一组观察值从小到大按顺序排列,位次居中 的数值对应的观察
27、值就是中位数。因而全部观察值中,大于和小于中位数的 观察值的个数相等。1)直接法:将原始观察值按大小顺序排列:M=X四n为奇数时,(三)X“+X(-)(-+1)n为偶数时,M=-2例5.测得5个人的低密度脂蛋白中载体B蛋白的含量(mg/d l)分别为0.84,2.58,5.46,8.58,9.60,求其中位数.=X3=5.46 mg/d l例6.8名新生儿的身长(cm)依此为50,51,52,53,54,54,55,58,求 其中位数。X +X%L m(7+1)J 53+54M=-=-=53.52 22)频数表法例7.对某地630名50岁60岁的正常女性检查了血清甘油三脂含量,并制成如 下频数
28、表,试求中位数及第25、75、90百分位数。甘油三脂mg/d l频数,f累计频数累计频率()(1)(2)(3)(4)1027274.34016919631.17016736357.6100-9445772.51308153885.41604258092.11902860896.52201462298.7250462699.4280362999.8310-1630100.0合计630“630 x0.5-196 c八 小.,.、m=70+-x30=9l.4(mg/dl)八 630 x0.25-27.八,小P25=40+-x 30=63.2(mg/dl),630 x0.75-457 t.p75=13
29、0 H-x 30=135.7(m g/dl)81“八 630 x0.90-538.八 皿八一/、P90=160+-x 30=180.7(mg/dl)例8.某日大气中S 02的日平均浓度(ug/n?)见下表,分别求第25、75、95 百分位数及中位数。浓度(ug/m3)(1)天数,f(2)累计频数(3)累计频率()(4)5393910.8506710629.4756417047.1100-6323364.51254527877.01503030885.31751732590.0200933492.5225734194.5634796.1275535297.5300335598.332563611
30、00.0361%二50+三(361 x 25%-39)=69.12(g/m3)6725 a%=125+后(361 x 75%-233)=145.97(/g/m3)25,舄5=250+(361x95%-341)=258.12(/m3)60=100+(361/2-170)=104.17(/g/m3)63中位数和百分位数的应用:1.用于描述偏态分布资料的集中位置。反映位次居中的观察值的水平。2.百分位数是用于描述样本或总体观察值序列在某百分位置水平,最常用 的百分位数是中位数。3.百分位数常用来确定医学参考值范围。第三讲 离散趋势离散程度的描述三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势
31、与离散趋势。甲组2628303234X 甲=30kgR=8S=3.16已组2427303336X乙二30kgR=12S=4.74丙组2629303134X丙二30kgR=8S=2.91哪一组数值的代表性好?(1)极差(range)一组观察值中,最大值与最小值差,反映个体差异的范围。极差大,说明变 异度大,各变量值离均数越远,数据越分散;反之亦然。(2)四分位数(quartile)间距可看成是特定的百分位数,用它说明个体差异比极差稳定。Q=P75-P25一般来说,样本例数越多,四分位间距越稳定。(3)方差(variance)与标准差的计算方差:。2=Z(x-|i)2/nn-由上式可知:方差考虑了
32、总体中每个变量值X与总体均数之差(x-田,称 为离均差平方和(S S),因此方差近似等于离均差平方和的算数均数,故又称为 均方差(MS),由于S S利用了每一个观察值的信息,因而反映一批数据的变异 程度优于极差和四分位间距。(4)标准差(standard deviation)方差开方后称为标准差,其单位与变量值单位及均数单位相同,变异度越 大,则离均差平方和越大,标准差越大,说明个体差异越大,均数的代表性越差。为了简化计算,标准差的计算公式还可写为:(Z%)2n-分组资料的计算:Sa2-(Ea)2Snn-如上例:n=110 1584990 Z仅=13194S 二ZA2-(EM1584990-1
33、31942/110110-1-4.72cmn 1n(5)变异系数(cofficient of variation,CV)定义:标准差与算术均数之比,cv=-xl00%X其描述了相对于算术均数而言标准差的大小,即描述数据的变异相对于其平 均水平来说是大还是小。与前面介绍的四种离散程度指标相比,变异系数有以下两个不同之处:1:它描述的不是数据分布的绝对离散程度,而是相对离散程度;2:它不象极差、四分位数间距、方差、标准差那样具有取值单位。这两个特点决定了变异系数的应用也不同于前面四个离散程度指标。它常用于:1、比较度量衡单位不同的多组资料的变异度:例如:某地20岁男子100人,其身高均数为166.
34、06cm,标准差为4.95cm;其体重均数为53.72kg,标准差为4.96kg.欲比较身高与体重的变异何者为大,由于度量单位不同,不能比较其标准差而应比较其变异系数4 777身高 cv=X100%=2.98%166.06cm体重cv=4.96 依53.72依x 100%=9.23%由此可见,该地20岁男子体重的变异大于身高的变异。2.比较均数相差悬殊的多组资料的变异度:某地不同年龄组男子身高的变异程度年龄组人数均数土标准差变异系数()3 3.5 岁10090.13.13.230-35 岁100170.25.00.3表中可见,虽然3035岁组的标准差明显大于33.5岁组的标准差,但事 实上30
35、35岁组男子身高的变异并不大,而33.5岁组男童身高的变异却很 大。这种均数相差悬殊的资料比较变异程度时,应当用变异系数说明其变异情况。小结为了解数值变量的分布规律,可将观察值编制频数表,绘制频数分布图,用于描述资料的分布特征(集中趋势和离散趋势),以及分布类型(对称分布 和偏态分布)。平均数是描述频数分布集中位置的指标,它代表一组观察值的平均水平,常用平均数的指标下表:百分位数描述观察序列在某百分位置的水平,是分布的百分界值,可用于 医学参考值范围,适用于任何分布。平均数意义应用场合均数平均数量水平应用甚广,最适用于对称分布,特别是正态分布几何均数平均增(减)倍数等比级数资料,对数正态分布中
36、位数位次居中的观察值水平偏态分布,分布不明,分布末端无确定值二、描述频数分布离散程度的指标有:1)极差与四分位间距,后者较稳定,但均不能综合反映各观察值的变异程度;2)方差和标准差,最为常用,对正态分布尤为重要;3)变异系数常用于:不同测量单位的儿组资料变异度的比较;均数相差悬殊 的儿组资料变异度的比较。第四讲正态分布及其应用一、正态分布的概念和特征根据频数表资料绘制成直方图,可以设想,如果将观察人数 逐渐增多,线段不断分细,图中直条将逐渐变窄,其顶端将逐渐 接近一条光滑的曲线,这条曲线称为频数曲线或频率曲线,略呈 钟型,两头低,中间高,左右对称,近似于数学上的正态分布(normal d is
37、tribution)o由于频率的总和等于100%或1,故横轴上曲线下的 面积等于100%或lorTH H H H rpn rdH H H H l-n正态分布是一种横重要的连基型分布,在生物统计学中,占 有极其重要的地位。许多生物学现象所产生的数据,都服从正态 分布。1、正态分布的图形有了正态分布的密度函数f(x),即正态 分布的方程,就可给出图形上式中右俱M为均数,为标准差,X为自变量。当X确定后,就可由此式求得其密度函数f(X),也就是相应的纵坐标的高度。所以,已知和o,就能绘出正态曲线的图形。2、正态分布的特征(1)正态分布以为中心,左右对称。(2)正态分布有两个参数,即日和o。日是位置参
38、数,当o恒定后,N越大,则曲线沿横轴越向右移动;口越小,则曲线沿横轴越 向左移动。G是变异参数,当|1恒定时,O越大,表示数据越 分散,曲线越“胖”;O越小,表示数据越分散,曲线越“瘦二(3)正态分布的偏斜度丫1=0,峭度丫2=0为了应用方便,常将上式作如下变换,X-/H u=-(7也就是将原点移到H的位置,使横轴尺度以O为单位,使-0,0=1,则正态分布变换为标准正态分布。(stand ard normal d istribution),u 称为标准正态离差(stand ard normal d eviate)标准正态分布的密度函数为:1-=2一般用N(|i,Q2)表示均方为|1,方差为的正
39、态分布。于是标准正态分布用N(0,1)表示。标准正态分布有以下特征:(1)在u=0时,(p(u)达到最大值。(2)当u无论向哪个方向远离0时、(p(u)的值都减小。(3)曲线关于Y轴对称,即(p(u)=(p(-u)o(4)曲线和横轴所夹的面积等于1。二、标准正态曲线下面积的计算P(ui|u|161cm 的概率;(3)X 在 152162cm 间的概率。(1)依题意:P(X 164)=0(164:;6.2)=1 _以1 2)=1-0.94738=0.05262(3)依题意得:尸(152 X 162)=。严2)一(-0.87)=0.88493-0.19215=0.69278下列一些值很重要,应予记
40、忆:u=-l 到 u=l 面积=0.6827U-1.96 到 u=1.96 面积=0.9500u=-2.58 到 u=2.58 面积=0.9900三、小结1、正态分布是一种连续性的分布,不少医学现象服从正态分布 或近似正态分布(如同性别、同年龄儿童的身高,同性别健康成人的 红细胞数、血红蛋白量、脉搏数等,以及实验中的随机误差等);或 经变量变换转换为正态分布(如某些病人的潜伏期以及医院病人住院 天数等),可按正态分布规律来处理,它也是许多统计方法的理论基础。2、正态分布的特征是:(1)曲线在横轴上方,均数处最高;(2)以均数为中心,左右对称;(3)确定正态分布的两个参数是均数p和标准差o。正态
41、分布用N(|i,a2)表示,为了应用的方便,常对变量x作 U=(x-|i)/o使|1=0,0=1,则正态分布转换为标准正态分布用N(0,1)表示。3、运用正态曲线下面积的分布规律,可计算医学参考值范围和质量控制等。第四讲:总体均数的估计和假设检验医学统计学的最基本问题是研究总体与样本的关系。总体与样本的关系,可从两方面研究:(1)由已知的总体,研究样本的分布规律,即由总体到样本的 研究过程;(2)由样本如何去推断未知的总体,属于从样本到总体的研究 过程。1、从一个正态总体中抽取的样本统计量分布生物学中遇到最多的是正态总体。对于正态总体,可以用数学推演的方法,得出严格的样本统计量的抽样分布,有了
42、严格的样 本分布规律,就可以由样本来推断总体了。标准差已知时的样本平均数的分布u分布平均数为山标准差为G的正态总体中,独立随机的抽取含量为n的样本,则:CT样本平均数是一服从正态分布的随机变量,记为X。将平均数标准化,则:x-u u=-a其中的分母称为平均数的标准误差(stand ard error of mean)。如果变量是正态的或近似正态的,则标准化的变量服从或近似地服从N(0,1)分布。1、标准差已知时的样本平均数的分布-1分布(t-distribution)若上式中的o是未知的,可用样本标准差代替总体标准差,标准化变量并不服从正态分布,而服从具有n-1自由度的t分布。x-u4n才分布
43、也是一种对称分布,它只有一个参数,即自由度(d egree of freed om)t分布与标准正态分布相比有以下特征:(1)二者都是单峰分布,以0为中心,左右两侧对称。(2)t分布的峰部较矮而尾部翘得较高,说明远但h值的个数相对较 多,即尾部面积(概率P)较大。自由度越小这种情况越明显。v逐渐增大时,t分布逐渐逼近标准正 态分布;当V=8时,t分布就完全成为标准正态分布了。2、统计推断统计推断是讨论如何通过样本去推断总体。由样本推断总体是以 各种样本统计量的抽样分布为基础的。对总体做统计推断(statistical inference),可以通过两条途径进行。一是通过样本统计量估计总体参数;
44、二是首先对所估计的总体提出一 个假设,例如假设这个总体的平均数日等于某个值No,然后,通过 样本数据去推断这个假设是否可以接受,如果可以接受,样本很可能 抽自这个总体;否则很可能不是抽自这个总体。前一种途径称为总体 参数估计(estimation of population parameter),后一种途径称为统计 假设检验(statistical test of hypothesis)。这两种不同的统计分析方法在实际工作中可互相参照使用。1、总体均数的估计-区间估计(internal estimation)即按一定的概率估计总体均数在哪个范围。可根据资料的条件选用不同的方法。(1)o未知时。
45、一般用t分布的原理作区间估计。根据尸(Tay=(1-为可信度)s/y/n于是得可信度为1-a时,计算总体均数可信区间的通式为:习惯上,常取l-a=0.95,即95%可信区间;或取1-a=0.99,即99%X-ta v(-7=)4 0.05。得出结论按a=0.05水准,拒绝Ho,接受Hb认为该山区的成年男子 脉搏均数高于一般的成年男子脉搏均数。关于检验水准是取0.05、0.01或其他数值,要根据不同的实验而 定。a取值较小,有利于提高“阳性”统计检验结果的可靠性;a取 值较大,有利于发现研究总体可能存在的差异,但可靠性降低。较好 的做法是精确地计算出P值,这会对人们认识你所作的实验有很大 的参考
46、价值。二、随机化配对设计资料均数的t检验配对设计资料分三种情况:(1)配成对子的同对受试对象分别给予两种不同的处理;(2)同一受试对象分别接受两种不同处理;(3)同一受试对象处理前后的比较。(1)与(2)结果的比较,其目的是推断两种处理的效果有无差别;(3)比较,其目的是推断某种处理有无作用。因此,应该首先计算出各对差值d的均数。当两种处理结果无差 别或某种处理不起作用时,理论上差值d的总体均数出=0。故可将 配对设计资料的假设检验视为样本均数与总体均数内=0的比较,配 对设计资料以小样本居多,故常用t检验。其计算公式为:例题2、将大白鼠配成8对,每对分别饲以正常饲料和缺乏维生 素E饲料,测得
47、两组大白鼠肝中维生素A的含量如下表,试比较两 组大白鼠中维生素A的含量有无差别。表 不同饲料组大白鼠肝中维生素A的含量(U/g)大白鼠 配对号正常饲料组维生素E 缺乏组差数,dd213550245011001210000220002400-400160000330001800120014400004395032007505625005380032505503025006375027001050110250073450250095090250083050175013001690000合计650073700001)Ho:内=0,Hi:囱。0,a=0.052)计算统计量d 6500 o 5.d=-=
48、812.5(u/g)n 8 Ed?一(行/d A 7370000-(6500)2/88x(8-l)=193.1298(/g)812.5-0193.1298=4.2070v=n-1=73)确定P值下结论查 t 界值表(双版ij),t tog7=4.O29 P t o,o5,i8=3.197,Pu0.05,P0.05结论:按a=0.05水准,拒绝Ho,接受Hi。可认为男性与女性B脂蛋白平均数有差别,男性高于女性。4.根据P值的结果,给出题目结论。假设检验时,根据样本统计量作出的推断结论(拒绝Ho或不拒 绝Ho)并不是百分之百的正确,可能发生两种错误:.拒绝了实际上成立的Ho,这类“弃真”的错误称为
49、I型错误(type I error).不拒绝了实际上不成立的Ho,这类“存伪”的错误称为n型错误(type II error)如图:a:表示I型错误的概率,若选定a=0.05,则犯I型错误的概 率为0.05,理论上平均100次抽样有5次发生这样的错误。B:表示H型错误的概率,但B值的大小很难确切估计,只有 在已知样本量(n)、两总体参数差值(5)及a确定下,才能估计出 8的大小。当n固定时,a愈小,8愈大;相反a愈大,B愈小。1-3:称为检验效能(把握度),其统计学意义为:若两总体确有差别,按a水准能检验出其差别的能力。第六讲 方差分析方差分析(analysis of variance),简称
50、ANOVA,由英国统计学家 R.A.Fisher首先提出,后人为纪念Fisher,以F命名方差分析的统计 量,故方差分析又称F检验。样本均数的差异,可能有两种原因所致。1、可能由随机误差所致随机误差包括两种成分:个体间的变异和测量误差两部分;2、可能是由于各组所接受的处理不同,不同的处理引起不同的作用和效果,导致各处理组之间均数不同。一般来说,个体之间各不相同是繁杂的生物界的特点;测量误差 也是不可避免的,因此第一种原因肯定存在。而第二种原因是否存在,这正是假设检验要回答的问题。方差分析的基本思想是将所有观察值之间的变异(称总变异)按 设计和需要分解成几部分。如完全随机设计资料的方差分析,将总