收藏 分销(赏)

正态分布参考值抽样误差(课堂PPT).ppt

上传人:快乐****生活 文档编号:7401165 上传时间:2025-01-02 格式:PPT 页数:61 大小:1.01MB 下载积分:14 金币
下载 相关 举报
正态分布参考值抽样误差(课堂PPT).ppt_第1页
第1页 / 共61页
正态分布参考值抽样误差(课堂PPT).ppt_第2页
第2页 / 共61页


点击查看更多>>
资源描述
,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,正态分布,Normal distribution,1,例 某地用随机抽样方法检查了,140,名成年男子的红细胞数,检测结果如表,2,1,5.95,3.82,正态分布和医学参考值范围,2,红细胞数,组中值,频数,频率(),3.80,3.90,2,1.4,4.00,4.10,6,4.3,4.20,4.30,11,7.9,4.40,4.50,25,17.9,4.60,4.70,32,22.9,4.80,4.90,27,19.3,5.00,5.10,17,12.1,5.20,5.30,13,9.3,5.40,5.50,4,2.9,5.60,5.70,2,1.4,5.80,6.00,5.90,1,0.7,某地,140,名正常男子红细胞数频数表,3,直方图,4,f(x)=(f,i,/n),以频率为纵坐标,5,随着组段不断分细和观察人数的增多,直条顶端将逐渐接近于一条光滑的曲线,如下图。这条曲线称为频率密度曲线,呈中间高、两边低、左右对称,形状似座钟。类似于数学上的正态分布曲线。,因为频率的总和等于,1,,故横轴上曲线下的面积等于,1,。,频率密度,f(x)=(f,i,/n)/i,(,i,0.1,),6,7,这条所描述的分布,便近似于我们通常所说的正态概率分布,简称,正态分布,。,正态分布是自然界最常见的一种分布,例如,测量的误差、人体的身高、体重、许多生化指标的值(例如血压、血红蛋白含量、红细胞数等等)等都属于正态分布或近似正态分布。还有些偏态资料可经数据转换成正态或近似正态分布,例如抗体滴度、血铅值等。,8,一、正态分布的密度函数,式中,为总体均数,,为总体标准差,,为圆周率,,e,为自然对数的底,,x,为变量,当,、,已知,以,x,为横轴,,f,(x),为纵轴,即可给出正态分布曲线的图形。,9,二、正态分布的特征,1.,正态分布在横轴上方,均数处最高,以均数,为中心,左右对称。,2.,正态分布的,X,取值范围理论上没有边界,,X,离,越远,,f(X),值越接近,0,,但不会等于,0,。,3.,正态分布曲线下的面积分布有一定的规律。,所有的正态分布曲线,在,左右任意个标准差范围内面积相同。,10,4.,正态分布完全由两个参数即均数,与标准差,决定,其中,是位置参数,,是变异参数。常用,N(,2,),来表示。,11,0,、,1,的标准正态分布,12,标准正态分布曲线及其面积分布,13,三、正态分布的应用,不少医学现象服从正态分布或近似正态分布,确定医学参考值范围,质量控制图,正态分布是很多统计方法的理论基础,14,医学参考值范围的估计,1.,医学参考值范围的概念,指特定的,“,正常,”,人群的解剖、生理、生化指标及组织代谢产物含量等数据中大多数个体的取值所在的范围。,2.,医学参考值范围的确定要求,确定研究总体,例如,“,正常人,”,。,选择足够数量的观察对象。,统一测定方法,控制实验误差,保证数据的可靠性。,决定取单侧范围还是双侧范围值,选择恰当的百分范围,15,医学参考值范围的估计,3.,医学参考值范围的计算方法,正态分布法,百分位数法,16,正态分布法,适用于正态或近似分布资料,式中 为均数,,s,为标准差,,u,值可根据要求查表。,公式为:,17,常用的,u,界值,参考值范围,(%),单侧,双侧,90,95,99,1.282,1.645,2.326,1.645,1.960,2.576,18,19,例,某地调查正常成年男子,144,人的红细胞数近似正态分布,得均数为,5.38,(,10,12,/L,),标准差为,0.44,(,10,12,/L,),试估计该地成年男子红细胞数的,95%,参考值范围。,20,百分位数法,:,适用于偏态分布资料,例如白细胞数的,95,参考值范围,:,因为白细胞数无论过高或过低均属异常,则分别计算,P,2.5,和,P,97.5,,这是双侧,95,参考值范围。,百分范围(,%,),单侧,双侧,下限,上限,下限,上限,95,P,5,P,95,P,2.5,P,97.5,99,P,1,P,99,P,0.5,P,99.5,21,例 某年某市调查了,200,例正常成人血铅含量(,g/100g,)如下,试估计该市成人血铅含量,95,医学参考值范围(,用百分位数法计算,)。,22,23,练习,1,:,调查某地,120,名健康女性血红蛋白,直方图显示,其分布近似于正态分布,其血红蛋白平均值为,117.4,(,g/L,),标准差为,10.2,(,g/L,),试估计该地健康女性血红蛋白的,95,医学参考值范围。,血红蛋白过高、过低均为异常,应按双侧计算:,24,一、均数的抽样分布与抽样误差,抽样研究的目的,就是要,用样本信息来推断总体特征,。由于存在个体变异,样本均数(,X,)往往不等于总体均数(,),,因此抽样后各个样本均数也往往不等于总体均数,且各个样本均数间也不一定都相等。,这种由抽样造成的样本均数与总体均数的差异或各样本均数之间的差异称为抽样误差,,抽样误差是不可避免的。,数值变量的参数估计,25,26,27,110,名,20,岁健康男大学生的身高均数为,172.73cm,。,28,已知,f,110,,,fX,19000,,需要在该表中增加,fx,2,栏,由第,(3),、,(4),栏相乘,再将该栏数据相加,将,fX,2,3283646,代入公式,29,110,名,20,岁男大学生的平均身高,X,172.73cm,,标准差,s,4.09cm,。,假设该,110,个身高数值作为假设的有限总体,即:,172.73cm,,,4.09cm,现在从该总体中随机抽,10,个学生身高为,1,号样本。,计算得:,X,1,=173.22cm,s,1,=4.05cm,30,31,重复,100,次刚才的抽样,得到,100,个样本(每个样本含量均为,10,个),可算得,100,个样本均数,X,。,32,各样本均数的均数,X,172.66 cm,172.73cm,33,34,样本均数的抽样分布具有以下特点:,各样本均数未必等于总体均数;,样本均数之间存在差异;,样本均数的分布很有规律,围绕着总体均数,中间多、两边少,左右基本对称,也服从正态分布;,样本均数的变异较之原变量的变异大大缩小。,35,总体均数为,,标准差,样本,1(,s),样本,2(,s),样本,3(,s),样本,m(,s),抽样,样本量为,n,36,根据正态分布原理,若随机变量,X,服从正态分布,则样本均数,X,也服从正态分布。,随机变量,X,:,N(,2,),样本均数 :,N(,),37,均数的标准误及计算,反映均数抽样误差大小的指标是样本均数,X,的标准差简称,标准误,(理论值),用 表示,或,SE,、,SEM,。,由于在实际抽样研究中,往往未知,通常用某一样本标准差,s,来替代,,得标准误的估计值,(,通常也简称为标准误,),,其计算公式为:,38,以,1,号样本,=173.22cm,,,s,1,=4.05cm,为例:,均数的标准误及计算,39,一般情况下,未知,常用,估计抽样误差的大小,也即 的估计值。,例,2000,年某研究者随机调查某地健康成年男子,27,人,得到血红蛋白量的均数为,125g/L,,标准差为,15g/L,。试估计该样本均数的抽样误差。,将,X=125g/L,s=15g/L,,,n=27,代入,40,例:,已知,s,6.85,,,n,100,则样本均数的抽样误差 为多少?,41,标准误的应用,1.,反映样本均数的可靠性;,标准误反映抽样误差的大小。,标准误大,表示抽样误差大,则样本均数估计总体均数的可靠性差。反之,标准误小,抽样误差小,样本均数估计总体均数的可靠性好。,2.,估计总体均数的可信区间;,3.,用于均数的假设检验。,42,二、总体均数的可信区间估计,即用样本指标(统计量)估计总体指标(参数),有两种常用方法:,点估计和区间估计,(一)点估计:,样本均数()就是总体均数的点估计值(,),该法简单,但未考虑抽样误差,而抽样误差在抽样研究中是不可忽视的。,43,(二)区间估计:,结合样本统计量和标准误可以确定一个具有一定可信度的包含总体参数的区间,该区间称为总体参数的,1,可信区间(,confidence interval,CI,),44,即按一定的概率估计未知总体均数的所在范围。,习惯上用总体均数的,95%(,或,99%),可信区间,表示该区间包含总体均数,的概率为,95%(,或,99%),,用此范围估计总体平均数,表示,100,次抽样中,有,95(99),次包含总体均数。,例如:总体均数的可信区间,45,(,1,),未知,但样本例数,n,足够大(如,n 50,),,总体均数的,1,双侧可信区间,为,总体均数,95%,的双侧可信区间为:,总体均数可信区间的计算,总体均数,99%,的双侧可信区间为:,46,例 某市,2000,年随机测量了,90,名,19,岁健康男大学生的身高,其均数为,172.2cm,,标准差为,4.5cm,,试估计该市,2000,年,19,岁健康男大学生平均身高的,95,可信区间。,本例,n,90,,可按正态分布近似法计算,故该市,2000,年,19,岁健康男大学生平均身高的,95,可信区间为(,171.3,,,173.1,),cm,。,47,t,分 布,48,前面讲过,通过,u,变换,可将正态分布,N(,2,),转换成标准正态分布,N(0,,,1),。同样,若从正态分布,N(,2,),总体中随机抽样并算得多个样本均数,它们仍服从总体均数为,,总体标准差为 的正态分布,N(,),,则,服从,49,标准正态分布,N(0,,,1),。在实际工作中,,往往是未知,常用,替代,,即,这时,对正态变量,X,采取的不是,u,变换而是,t,变换了,,t,值的分布称为,t,分布。,50,51,1.,单峰分布,以,0,为中心,左右对称;,2.t,分布是一簇曲线,其形态变化与自由度,的大小有关,n-1,。,越小,与 的差别越大,,t,值越分散,曲线的峰部越矮,尾部越粗。,越大,,t,分布越接近于标准正态分布。,t,分布的特征:,52,自由度分别为,1,、,5,、的,t,分布,53,由于,t,分布不是一条曲线,而是一簇曲线。因此,,t,分布曲线下面积的,95%,或,99%,界值不是一个常量,而是随着自由度大小而变化的。为便于使用,可根据,t,界值表查找。,54,55,(,2,),未知,且,n,较小时,,总体均数可信区间的计算,或简写为:,56,df,5,时,,若,“,砍去,”,t,分布双侧尾部面积,0.05,5,,则有,95,的,t,值满足:,57,例 已知某地,27,名健康成年男子的血红蛋白量的均数为,125g/L,,标准差为,15g/L,。试问该地健康成年男子的血红蛋白平均含量的,95,可信区间和,99,可信区间各是多少?,将,X=125g/L,s=15g/L,,,n=27,代入,同时查,t,界值表:,t,0.05/2,26,=2.056,t,0.01/2,26,=2.779,58,练习,1,要减小抽样误差,最切实可行的方法是,。,(,1,)增加样本例数,(,2,)控制个体变异,(,3,)遵循随机化原则,(,4,)严格挑选观察对象,59,练习,2,某地调查正常成年男子,144,人的红细胞数近似正态分布,得均数为,5.3810,12,/L,标准差为,0.4410,12,/L,,试估计该该样本均数的抽样误差。,将,s=0.4410,12,,,n=144,代入,60,练习,3,某地抽得正常成人,200,名,测得其血清胆固醇的均数为,3.64mmol/L,,标准差为,1.20mmol/L,,试估计该地正常成人血清胆固醇均数的,95,CI,。,本例,虽未知,但,n,较大,该地正常成人血清胆固醇均数的,95,CI,为,3.47,3.81mmol/L,。,61,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服