收藏 分销(赏)

抽样误差.ppt

上传人:胜**** 文档编号:767149 上传时间:2024-03-08 格式:PPT 页数:50 大小:903.50KB 下载积分:11 金币
下载 相关 举报
抽样误差.ppt_第1页
第1页 / 共50页
抽样误差.ppt_第2页
第2页 / 共50页


点击查看更多>>
资源描述
第七章第七章 参数估计参数估计Sampling Error&Estimation of Parameter南方医科大学生物统计学系Department of Biostatistics Southern Medical University抽样误差与标准误抽样误差与标准误t t分布分布可(置)信区间可(置)信区间主要内容变变 异异“世界上没有两片完全相同的叶子世界上没有两片完全相同的叶子”-植物学家植物学家 “世界的丰富多彩来源于其多样性世界的丰富多彩来源于其多样性”-哲学家哲学家“个体差异是生物医学领域里普遍存在的现象个体差异是生物医学领域里普遍存在的现象”-医学家医学家统计学就是研究统计学就是研究变异(变异(variation)的科学。的科学。抽抽 样样 误误 差差 变变 异异 -抽样误差抽样误差 (variation)-(sampling error)联系?抽抽 样样 实实 验验例1:假定某地正常成年男子的红细胞计数服从正态分布N(5.00,0.502)的总体,单位1012/L。用计算机模拟从该总体中随机抽样,每次抽10例组成一个样本,重复100次抽样。结果见表1。抽抽 样样 实实 验验表表1 1 正常成年男子红细胞计数抽样实验结果正常成年男子红细胞计数抽样实验结果样本号样本号红细胞计数红细胞计数S15.595.114.265.114.745.555.040.4424.654.655.595.704.465.325.030.5234.564.875.214.534.534.234.710.3344.084.734.844.884.655.334.660.46 :1005.164.495.265.024.644.564.900.29抽抽 样样 实实 验验总体抽抽 样样 误误 差差由于事物间普遍存在着由于事物间普遍存在着变异变异,由此产生,由此产生了这么一个现象:了这么一个现象:由于抽样而引起的误差由于抽样而引起的误差 抽样误差抽样误差抽抽 样样 误误 差差 定义:抽样误差(sampling error):是指由于样本的随机性引起的统计量与参数的差别,或同一总体的相同统计量之间的差别。由于抽样而引起的由于抽样而引起的样本指标(统计量)样本指标(统计量)与与总体指标(参数)总体指标(参数)的差异。的差异。属随机误差属随机误差:特点:特点:无倾向性;无倾向性;不可避免。不可避免。抽 样 误 差统计学的分析思路统计学的分析思路 总体population样本samplesamplinginferring抽抽 样样 误误 差差在实际工作中,由于各种条件所限,一般不可能也没有必要观察总体中的每一个个体,常常是通过抽样来进行研究的。虽然抽样误差是不可避免的,但其大小是可以度量的。问题:如何度量抽样误差的大小?抽抽 样样 误误 差差 由表1可见,各个样本均数Xi 并不等于相应的总体均数5.00,相互间也不完全相同。由数理统计可证明,这些样本均数服从均数为(本例为5.00),标准差为X的正态分布。其中,X的计算公式为:一种统计量抽抽 样样 误误 差差标准误(Standard Error,SE)统计学上将样本均数X、样本率P等统计量的标准差称为标准误,它可用于说明抽样误差的大小。抽抽 样样 误误 差差样本均数的标准误样本均数的标准误:即:即样本均数的标准差样本均数的标准差,说明样本均数抽样误差的统计指标。说明样本均数抽样误差的统计指标。总体:总体:样本样本:不同样本量抽样实验结果图示与n成反比,n,SX;n时,SX 0,而S 趋近于稳定。抽抽 样样 误误 差差由 可见:当样本量n一定时,越大,即个体变异越大,则样本均数的抽样误差X 就越大;反之,当固定时,n越大,则X 就越小。样本均数的分布样本均数的分布若原始分布服从正态分布,则其样本均数若原始分布服从正态分布,则其样本均数服从正态分布。服从正态分布。若原始分布不服从正态分布,当样本量够若原始分布不服从正态分布,当样本量够大时(如大时(如n6060),其样本均数一般服从正态分),其样本均数一般服从正态分布布(中心极限定理)。(中心极限定理)。抽抽 样样 误误 差差由数理统计的由数理统计的中心极限定理中心极限定理可知,无论原可知,无论原始总体为何种分布,始总体为何种分布,只要它具有总体均数只要它具有总体均数和标准差和标准差,当样本含量足够大时,当样本含量足够大时(n n6060),X都近似服从均数为都近似服从均数为,标准差标准差为为X 的正态分布。的正态分布。中心极限定理(central limit theorem)X X当n足够大,样本均数逐渐趋于正态分布任一分布的总体这一点具有很高的实用价值的。因为在实际工作中,许多医学测量结果,我们并不知道它的确切分布。有了这条性质,就可以利用正态分布原理对其特征进行推断。抽抽 样样 误误 差差标准差 VS 标准误内容内容SDSDSESE性质性质表示个体变异大小表示个体变异大小统计量的标准差统计量的标准差表示抽样误差大小表示抽样误差大小控制控制方法方法个体变异或自然变异,不可通过统计个体变异或自然变异,不可通过统计方法来控制。方法来控制。增大样本含量可减少增大样本含量可减少算式算式用途用途求参考值范围求参考值范围求可信区间求可信区间随随n n增大增大渐趋于稳定渐趋于稳定渐趋于渐趋于0 0t 分分 布布t Distribution希尔米特哥赛特早在1875年,德国天文学家、测量学家F.R.Helmert 就在数学上发现了t分布。1908年Gosset以Student为笔名发表的论文,提出了t分布的概念,从而开创了小样本统计推断的新纪元。t分布的发现t 分分 布布标准化变换标准化变换 抽样实验中,各个抽样实验中,各个 X 也服从总体均数也服从总体均数 标准差为标准差为 的正态分布,对各个的正态分布,对各个 Xi也做一也做一下标准化变换下标准化变换 在实际工作中在实际工作中,s s通常是未知的通常是未知的,用各用各个样本标准差个样本标准差Si估计估计s s ,则得到,则得到 该式已经不服从标准正态分布了该式已经不服从标准正态分布了,而而是是t t分布分布t 分分 布布 t分布分布 Z转换估计t 分分 布布三条三条t t分布密度曲线分布密度曲线 v=1v=5 v=分布特征分布特征 t t分布曲线是分布曲线是单峰单峰的的关于关于t t=0对称对称t t分布与标准正态分布的关系分布与标准正态分布的关系自由度自由度n n较小时,较小时,t t分布与标准正态分布相差分布与标准正态分布相差较大,并且较大,并且t t分布曲线的尾部面积大于标准分布曲线的尾部面积大于标准正态分布曲线的尾部面积正态分布曲线的尾部面积当自由度当自由度 时,时,t t分布逼近于标准正态分分布逼近于标准正态分布。布。t 分分 布布t t分布与标分布与标准正态分准正态分布的区别布的区别在于:在于:中中间小,两间小,两尾翘(大)。尾翘(大)。t t分布与分布与Z Z分布曲线分布曲线下面积均下面积均为为1 1。X X Xt 分布与正态分布的比较N(0,1)t(n)0t 分分 布布t 界值表界值表给定自由度,t分布曲线的双侧尾部面积为时对应的t值,记为t2,并称其为t的双侧界值.单侧界值:一侧尾部面积为时对应的t 值t2,对称性:2单侧曲线下面积=双侧曲线下面积,同一t值单侧概率是双侧概率的一半。给定曲线下面积对应的界值与自由度给定曲线下面积对应的界值与自由度n n有有关。关。同样的尾部面积,同样的尾部面积,t分布的界值要大于标分布的界值要大于标准正态分布的界值准正态分布的界值t 界值表界值表t 界值表界值表单侧(one-sided/tailed):双侧(two-sided/tailed):t 界值表界值表 t分布界值示意图,表示阴影的面积 t分布曲线下面积双侧t0.05/2,1.96 单侧t0.025,1.96-1.960规律:1.同一下,t值增加,P值减小 2.同一P值下,增加,t值减小1.640反向关系参参 数数 估估 计计Estimation of Parameter参参 数数 估估 计计 统统计计分分析析统计推断统计推断假设检验假设检验参数估计参数估计统计描述统计描述区间估计区间估计点点 估估 计计参数估计(estimation of parameter):用样本统计量估计总体参数。样本统计量 (statistic)总体参数(parameter)利用样本信息计算一个区间,并给出重复试验时该区间包含总体参数的概率参 数 估 计点 估 计区间估计总体均数的估计置信上限置信上限可信可信/置信区间置信区间(区间估计区间估计)置信下限置信下限样本统计量(点估计)点估计:point estimation区间估计:interval estimation点估计点估计(point estimation)直接用直接用样本均数样本均数作为作为总体均数总体均数的估计值的估计值,不足之处在于:不足之处在于:它没有考虑到抽样误差它没有考虑到抽样误差。在大样本情况下,用在大样本情况下,用 X 和和 S S 作为作为和和的估计值计算参考值范围。的估计值计算参考值范围。总体均数总体均数的点估计:的点估计:总体率总体率的点估计:的点估计:即样本均数和样本率分别是总体均数和即样本均数和样本率分别是总体均数和总体率的总体率的估计值估计值。区区 间间 估估 计计(interval estimation)指给出一个区间指给出一个区间(常称为常称为可信区间可信区间,confidence interval,CI),并同时给出并同时给出该区间包含该区间包含总体均数的概率总体均数的概率(即:(即:可能性可能性,一般取,一般取95%)。)。1.重复试验时该区间包含总体均数的概率2.表示为 1-或 100(1-)%常用的有 99%,95%,90%相应的为0.01,0.05,0.10置信水平/可信度 总体均数的区间估计总体均数的双侧1-置信区间为:例例2 2由例由例1 1中的第二个样本计算总体均数的中的第二个样本计算总体均数的9595可信区间。可信区间。(X X5.03,5.03,S S0.52,0.52,n n10 10)查附表查附表2 2的的t t 界值表,得双侧,即界值表,得双侧,即9595可可信区间为:信区间为:从总体中作随机抽样,如:100次,得100个可信区间,平均有95个可信区间包括总体均数m(估计正确),只有5个可信区间不包括总体均数m(估计不正确)。实际中,只作一次抽样,只得到一个可信区间,作为未知总体均数的可能范围的估计,理论上有95的可能是正确的,而5的可能发生错误。95可信区间的含义:可信可信区间区间9599公式公式范围范围 窄窄宽宽估计错估计错误概率误概率 大大 (0.05)小小(0.01)精密度(precision)可靠(reliability)1-增大样本量不同置信度下可信区间的对比参考值范围与可信区间的区别参考值范围与可信区间的区别 例:已知某市例:已知某市100 100 名健康成年男性工人血红名健康成年男性工人血红蛋白量资料服从正态分布蛋白量资料服从正态分布,其其X X=141.8 g/L=141.8 g/L,S S=12.2 g/L=12.2 g/L。试计算。试计算双侧双侧95%95%参考值范围及参考值范围及95%95%可信区间。可信区间。解解:由题意可知,用正态分布法计算由题意可知,用正态分布法计算双侧双侧95%参考值范围:参考值范围:95%可信区间用可信区间用公式公式 计算:计算:本例本例n100,100199,t1.66标准误标准误 ,则则参考值范围与可信区间的区别参考值范围与可信区间的区别我们估计该市我们估计该市95%95%成年男性工人血红蛋白量成年男性工人血红蛋白量在在117.9117.9165.7165.7g/L之间。之间。我们有我们有95%95%的把握的把握,他们的平均血红蛋白量他们的平均血红蛋白量在在139.8139.8143.8143.8g/L之间。之间。显然后者范围要窄于前者。显然后者范围要窄于前者。参考值范围与可信区间的区别参考值范围与可信区间的区别(1 1-a a)100%参考值范围与可信区间的区别参考值范围与可信区间的区别含义:含义:参考值范围参考值范围指该区间包含了指该区间包含了(1-(1-a a)100%)100%的观的观察值。察值。参考区间参考区间指该区间包含总体均数的可能性是指该区间包含总体均数的可能性是(1-(1-a a)100%)100%。计算(双侧):计算(双侧):参考值范围:参考值范围:可可 信信 区区 间:间:
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服