资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,5.1 随机变量的概率分布,个体间的,变异,总是客观存在的,且受事物内部客观因素的支配,因此,尽管个体变量值具有随机性,但其变量值的分布是有一定,规律,的,随机变量,随机变量的分类:离散型随机变量和连续型随机变量,取不同随机变量值的概率按随机变量值的分布称为,随机变量的概率分布,概率分布是统计学赖以发展的理论基础,分布函数和密度函数,1.分布函数,F(X),即总体中个体值小于或等于,X,的观察值所占的比例,2.密度函数,f,(,X,),5.2 正态分布,(高斯分布,),频数分布曲线,总体均值为零 ,标准差为1 的正态,分布称为,标准正态分布,,记作,5.2.2 正态分布的性质,正态分布只有一个高峰,高峰位置在,X,=,正态分布以均数为中心,左右对称,正态分布的两个参数,和,决定了分布的位置和形状。其中,是位置参数,,当,恒定时,,越大,则曲线沿横轴越向右移动;反之,,越小,则曲线沿横轴越向左移动。,是变异度参数,,当,恒定时,,越大,表示数据越分散,曲线越“矮胖”;,越小,表示数据越集中,曲线越“瘦高”。,服从标准正态分布,不同均数时的正态分布示意图,不同标准差时的正态分布示意图,5.2.3 正态曲线下面积的分布规律,估计当资料服从正态分布时,某区间的例数占总例数的百分数,或变量值落在某区间的概率,F,(,X,),为正态变量,X,的累计分布函数,反映正态曲线下,横轴尺度自-到,X,的面积,(,u,),为标准正态变量,u,的累计分布函数,例5.1 求标准正态分布曲线下区间(-,1.96)的面积,例5.2 求标准正态分布曲线下区间 的面积与区间 的面积。,例5.3求标准正态分布曲线下区间 的面积,例5.4 求正态分布,N(119.41,4.38,2,),曲线下区间(110.83,127.99)内的面积。,5.2.4 正态分布的应用,概括估计变量值的频数分布,某些医学现象服从正态分布或近似服从正态分布,如同性别、同年龄儿童的身高,同性别健康成人的红细胞数、血红蛋白量、脉搏数等,以及实验中的随机误差,对正态分布的资料,只要求得均数和标准差,便可以就其频数分布做出大概估计,例5.5 在例1.1中,某地120名7岁男童的身高,已知均数=119.41,cm,,标准差,s,=4.38cm,,试(1)估计该地7岁男童身高在110,cm,以下者占该地7岁男童总数的百分数。(2)分别求=1,s,,1.96,s,,2.58,s,范围7岁男童人数占该组儿童总数的实际百分数,说明与理论百分数是否相近。,很多医学资料是呈偏态分布的,有的经过变量变换可转换为正态分布,如环境中某些有害物质的浓度,食品中某些药物的残留量,某些临床检验结果,某些疾病的潜伏期以及医院病人住院天数等,都呈偏态分布,不便作统计处理,常在施以变换后,如果能转换为正态分布,亦可按正态分布规律处理。,2.制定参考值(正常值)范围,参考值范围(,reference ranges),,又称正常值范围(,normal ranges),,是指绝大多数正常人的某指标,范围,。,它来源于临床上对疾病诊断和治疗的实际需要,系指正常人的解剖、生理、生化等各项指标观察值的波动范围。,现代医学对正常值的概念有了较大的发展:,如卫生学上对食品、空气、水、化妆品等的卫生标准的制订;流行病学中某传染病隔离期限的确定;在儿少卫生中不同性别、年龄儿童的各项生长发育指标的等级标准的确定;动物实验中标准动物的确定等等;,确定正常值范围的一般原则和步骤,(1)抽取,足够,例数的,正常人,样本,正常人,:并不是指机体的任何器官、组织的形态和机能都是正常的人,而是指排除了影响所研究指标的疾病和有关因素的人,(2)对选定的正常人进行准确而统一的测定,保证原始资料可靠,是确定正常值范围的前提,(3)决定取单侧范围值还是双侧范围值,正常值范围是取单侧还是双侧需根据指标的实际用途来确定,(4)选定适当的百分范围,绝大多数,习惯上指正常人的80,90,95(最常用)或99等。,例如,根据正常人样本确定了血清谷草转氨酶正常值单侧95上限为37,U/L。,即容许有5的正常人被判为异常,称为假阳性,(5)估计界值,即根据资料的分布类型,样本含量的多少及研究者的要求,选用适当的方法,确定正常值范围的界值。,(2)制定参考值范围的方法,正态分布法:,用本法的条件是资料服从正态分布,样本均数和标准差趋于稳定,样本含量不少于50为宜。亦可用于经变量变换后服从正态分布的资料,如对数正态分布。,2.百分位数法,根据正常人样本,计算选定的百分范围所对应的百分位数,应用本法的条件是样本含量较多,分布趋于稳定,样本含量不少于150为宜。其优点是可用于任何分布甚至分布不明的资料。,3.,质量控制,4.正态分布是许多统计方法的理论基础,5.3,二项分布,在医学上常遇到一些事件,其,结果有且只有两种对立的结果之一,,如在毒理试验中,动物的生存与死亡;在动物诱癌试验中,动物发癌与不发癌;在流行病学观察中,接触某危险因素的个体发病与不发病;在药物治疗方案研究中,病人的治愈与未愈;理化检验结果的阴性与阳性等等,均表现为两种对立的结果,每个个体的观察值取且只取其中之一。对这类事件常用二项分布进行描述。,5.3.1,二项分布的定义,例,5.8,设小白鼠接受某种毒物一定剂量时,其死亡率为,80,,,对于每只小白鼠来说,其死亡概率为,0.8,,生存概率为,0.2,。若每组各用三只小白鼠(分别标记为甲、乙、丙)逐只做实验,观察每组小白鼠存亡情况,如果计算生与死的顺序,则共有,8,种排列方式,如表,5.2,第,(1),栏所示;如果只计生与死的数目,则只有,4,种组合方式,如表,5.2,第,(3)(4),栏所示。,从阳性率为,的总体中随机抽取含量为,的样本,其中阳性数恰好为,X,例的概率为:,称,X,服从参数为,n,和,的二项分布,,记为:,X,B,(,n,),。,5.3.2,二项分布的性质,二项分布的均数与标准差,二项分布的累计概率,1),最多有,k,例阳性的概率,2)最少有,k,例阳性的概率,二项分布的图形,已知,与,n,,,就能按式,(5.9),计算,X,=0,,,1,,,n,时的,P,(,X,),值。以,X,为横坐标,以,P,(,X,),为纵坐标作图,即可绘出二项分布的图形,如图,5.7,。其分布的形状取决于,与,n,的大小。,二项分布的正态近似,当,不接近0或1,,n,不是很小,,n,5,且,n,(1-,)5,时,二项分布近似正态分布。且有:,5.3.3 二项分布的应用条件,1)各观察单位只能具有互相对立的一种结果,如阳性或阴性,生存或死亡等,不允许考虑“可疑”等模糊结果,属于二项分类资料。,2)已知发生某一结果(如阳性)的概率,不变,其对立结果的概率则为1-,。,实际工作中要求,是从大量观察中获得的比较稳定的数值。,3),n,次试验在相同条件下进行,且各观察单位的结果互相独立。即每个观察单位的观察结果不会影响到其他观察单位的结果。如要求疾病无传染性。,5.3.4 二项分布的应用,二项分布是二类分类变量统计分析工作的理论基础,特别是用于总体率的参数估计与率的假设检验,参见第,6,章。此外还可用于产品合格率的质量控制、研究某些疾病的家族集积性及简化实验分析工作等。,
展开阅读全文