总体均数估计.pptx_咨信网zixin.com.cn

资源描述

1 1第六章第六章总体均数的估计总体均数的估计2 2西南财经大学近日发布中国家庭金融调查报告，报告显示截至2011年8月，中国家庭资产平均为121.69万元，城市家庭平均为247.60万元，农村家庭平均为37.70万元。有网民说，看到这个数字第一个反应是自己“被平均了”。（据现代快报）3 310%的家庭收入占整个社会总收入的57%，5%家庭收入占整个社会总收入的44%，说明中国家庭收入不均等。李宏彬中国城市家庭平均资产有200多万，但平均资产的中位数只有40.5万。两者差距越大，表明财产分布越不均。甘犁4 4城镇单位职工平均工资（城镇单位职工平均工资（1952-2007）5 56 67 78 89 910101111火炮大师：昨天晚上，老弟说去协和医院给我婶挂号看病。结果被工作人员告知，要排队挂号的话，得排3天。我就XXX的！这年头看病也太恐怖了吧。废话少说。上图。你没有看错。这不是收容所。这都是排队挂号的。1212主要内容主要内容均数的抽样误差与标准误均数的抽样误差与标准误 t 分布分布总体均数的估计总体均数的估计 1313一、均数的抽样误差一、均数的抽样误差总体总体样本样本样本样本随机抽样随机抽样随机抽样随机抽样推断推断推断推断1414由由于于个个体体变变异异产产生生的的，随随机机抽抽样样引引起起的的样样本本统统计计量量与与总总体体参参数数之之间间的的差差异异或或各各样样本本统统计计量量之之间的差异称为间的差异称为抽样误差抽样误差。1.抽样误差（抽样误差（sampling error）1515 常把这种由抽样研究造成的样本常把这种由抽样研究造成的样本均数与总体均数间的差异称为均数与总体均数间的差异称为均数均数的抽样误差。的抽样误差。由抽样研究造成的样本率与总由抽样研究造成的样本率与总体率间的差异称为体率间的差异称为率的抽样误差率的抽样误差。1616 抽抽样样误误差差是是不不可可避避免免的的，但但能能估估计计其其大大小小。常常用用样样本本均均数数的的标标准准差差作作为为衡衡量量均均数数抽抽样样误误差差大大小小的的尺尺度度。即即均数标准误。均数标准误。2.标准误（标准误（Standard error)1717标准误示意图标准误示意图xpopulationx1818抽样试验抽样试验从正态分布总体从正态分布总体N N（5.00,0.505.00,0.502 2）中，）中，每次随机抽取样本含量每次随机抽取样本含量n n5 5，并计算其均数，并计算其均数与标准差；重复抽取与标准差；重复抽取10001000次次，获得，获得10001000份样份样本；计算本；计算10001000份样本的均数与标准差，并对份样本的均数与标准差，并对10001000份样本的均数作直方图。份样本的均数作直方图。按上述方法再做样本含量按上述方法再做样本含量n n1010、样本、样本含量含量n n3030的抽样实验；比较计算结果。的抽样实验；比较计算结果。1919抽样试验（抽样试验（n n=5=5）20202121抽样试验（抽样试验（n n=10=10）22222323抽样试验（抽样试验（n n=30=30）2424252510001000份样本抽样计算结果份样本抽样计算结果总体的总体的均数均数总体标总体标准差准差均数的均数的均数均数均数标准差均数标准差n n=5=55.005.000.500.504.994.990.22120.22120.22360.2236n n=10=105.005.000.500.505.005.000.15800.15800.15810.1581n n=30=305.005.000.500.505.005.000.09200.09200.09130.091326263 3个抽样实验结果图示：个抽样实验结果图示：2727抽样实验小结抽样实验小结1.1.均数的均数围绕均数的均数围绕总体均数上下波动。总体均数上下波动。2.2.均数的标准差即均数的标准差即标准误标准误与总体标准差与总体标准差相差一个常数的倍数，即相差一个常数的倍数，即3.3.从正态总体从正态总体N N(m m,2 2)中抽取样本，获得均数的中抽取样本，获得均数的分布仍近似呈分布仍近似呈正态分布正态分布N(m m,2/n)。28281.从从正正态态分分布布N(,2)中中，以以固固定定n抽抽取取样样本本，样样本本均均数数的的分分布布仍仍服服从从正正态态分分布布，样样本本均均数数的总体均数仍为的总体均数仍为，样本均数的标准差为，样本均数的标准差为2.即即使使是是从从偏偏态态分分布布总总体体抽抽样样，只只要要n足足够够大，样本均数的分布也近似正态分布；大，样本均数的分布也近似正态分布；3.随随着着样样本本量量的的增增大大,样样本本均均数数的的变变异异范范围围也逐渐变窄。也逐渐变窄。中心极限定理中心极限定理 central limit theorem2929从同一个总体做从同一个总体做3 3次抽样的结果图示：次抽样的结果图示：3030标准误标准误(standard error)样本均数的标准差称标准误样本均数的标准差称标准误,是说明均数抽样误差是说明均数抽样误差大小的指标，大小的指标，大，抽样误差大；反之，大，抽样误差大；反之，小，抽样误差小小，抽样误差小。标准误的计算：标准误的计算：标准误的估计值标准误的估计值：3131影响标准误大小的因素影响标准误大小的因素的大小与的大小与成正比成正比与样本含量与样本含量n的平方根成反比的平方根成反比 3232例例6.1随机抽取某地正常成年男性随机抽取某地正常成年男性200名，名，测得其血清胆固醇的均数为测得其血清胆固醇的均数为3.64mmol/L，标准差为，标准差为1.20mmol/L，试估计抽样误，试估计抽样误差：差：3333例子例子6.2 两文献表述有何区别两文献表述有何区别3434标准误与标准差的区别标准误与标准差的区别：（1）概念不同）概念不同标准差标准差是描述样本个体值间的变异，标准是描述样本个体值间的变异，标准差小，说明变量值围绕均数的波动小，均差小，说明变量值围绕均数的波动小，均数的代表性好。数的代表性好。标准误标准误是描述样本均数的抽样误差，标准是描述样本均数的抽样误差，标准误越小，表示样本均数围绕总体均数的波误越小，表示样本均数围绕总体均数的波动越小。动越小。3535（2）用途不同）用途不同标准差标准差表示变量值对均数的波动大小，当表示变量值对均数的波动大小，当资料呈正态分布时，与均数结合估计正常资料呈正态分布时，与均数结合估计正常值范围、计算变异系数、标准误等。值范围、计算变异系数、标准误等。标准误标准误表示样本统计量对总体参数的波动表示样本统计量对总体参数的波动情况，用于估计参数的可信区间、进行假情况，用于估计参数的可信区间、进行假设检验。设检验。3636 1）两者均为变异指标；）两者均为变异指标；2）样本含量不变时，均数的标准误与标准）样本含量不变时，均数的标准误与标准差成正比；差成正比；3）两者均可与均数结合使用（但描述的内）两者均可与均数结合使用（但描述的内容各不相同）。容各不相同）。（3）联系）联系3737在应用过程中要注意标准差和在应用过程中要注意标准差和标准误的区别：标准误的区别：383839394040414142424343444445454646t分布分布t t分布的由来分布的由来t t分布的特征分布的特征t t分布曲线下的面积分布曲线下的面积4747总体总体样本均数样本均数中心极限定理中心极限定理标准正态分布标准正态分布标准正态分布标准正态分布未知t分布分布 t分布的由来分布的由来变量变换变量变换4848如果抽取例数如果抽取例数n=5的样本的样本k个，每个样本又都可个，每个样本又都可以按公式（以按公式（9.20）计算出一个）计算出一个t值，可将值，可将k个个t值值编制成频数表，作出直方图，当编制成频数表，作出直方图，当k无限增大时，无限增大时，则可得到一条光滑的曲线。则可得到一条光滑的曲线。（9.20）同理，如果抽取例数同理，如果抽取例数n=10时，仍能得到一时，仍能得到一条条t分布曲线分布曲线，因此，当因此，当n变化时，就可以得到不变化时，就可以得到不同的同的t分布曲线，分布曲线，如下图如下图4949xpopulation t1 t2 t3 tkN=5N=5N=5N=55050 xpopulation t1 t2 t3 tkN=10N=10N=10N=10图图3.2 自由度分别为自由度分别为4、9、的的t分布分布 5252t t分布曲线的特点分布曲线的特点单峰分布，曲线在单峰分布，曲线在t t0 0 处最高，并以处最高，并以t t0 0为中心左为中心左右对称右对称与正态分布相比，曲线最与正态分布相比，曲线最高处较矮，两高处较矮，两尾部翘得高尾部翘得高（见红线）（见红线）其形态变化与其形态变化与自由度自由度的的大小有关。自由度大小有关。自由度越小，越小，则则t t值越分散，曲线越低平；值越分散，曲线越低平；随自由度增大，曲线逐渐接随自由度增大，曲线逐渐接近正态分布。近正态分布。5353它它与与样样本本例例数数 n 或或自自由由度度有有关关，某某个个自自由由度度对对应应于于一一条条 t 分分布布曲曲线线。当当 n 或或不不同同时时，曲曲线线形形状状不不同同。当当时时，t 分分布布趋趋近近于于标标准正态分布。准正态分布。自由度：自由度：=n-1 随机变量能够自由取值的个数随机变量能够自由取值的个数5454t分布曲线下面积规律分布曲线下面积规律t分布曲线下总面积仍为分布曲线下总面积仍为1或或100%由于由于t分布是一簇曲线，故分布是一簇曲线，故t分布曲线下面分布曲线下面积固定面积积固定面积(如如95%或或99%)的界值不是一的界值不是一个常量，而是随自由度的大小而变化，个常量，而是随自由度的大小而变化，如附表如附表3。5555附表附表3，t分布表的特点分布表的特点附表附表3的横标目为自由度的横标目为自由度，纵标目为概率，纵标目为概率P，表中数值为其相应的，表中数值为其相应的t界值，记作界值，记作t,；t 取值于某个区间的概率取值于某个区间的概率P相当与横轴上该相当与横轴上该区间与曲线所夹面积。附表区间与曲线所夹面积。附表3给出了给出了t分布曲分布曲线下单侧或双侧尾部面积所对应的界值；线下单侧或双侧尾部面积所对应的界值；双侧双侧t t0.05/20.05/2，9 92.2622.262单侧单侧t t0.025.90.025.9单侧单侧t t0.050.05，9 91.8331.833双侧双侧t t0.05/20.05/2，1.961.96单侧单侧t t0.0250.025，单侧单侧t t0.050.05，1.641.64t分布曲线下面积分布曲线下面积5757附表附表3只列出正值，若计算的只列出正值，若计算的t值为负值时，值为负值时，可用其绝对值查表可用其绝对值查表。其通式为双侧：P(t-t/2,)+P(tt/2,)=单侧：P(t-t,)=或P(tt,)=图中非阴影部分面积的概率为，图中非阴影部分面积的概率为，P(-t/2,t100）,t 分布逼近分布逼近 z 分布。按分布。按 z 分布原理计算可信区间。分布原理计算可信区间。z -z 由于由于：则：则：所以，总体均数的所以，总体均数的100（1-）%之置信之置信区间的通式为：区间的通式为：7474例例例例测得某地测得某地测得某地测得某地110110名名名名1818岁男大学生身高岁男大学生身高岁男大学生身高岁男大学生身高 =172.73cm172.73cm，s=4.09cms=4.09cm，估计该地估计该地估计该地估计该地1818岁男大学生身高均数的岁男大学生身高均数的岁男大学生身高均数的岁男大学生身高均数的95%95%可信可信可信可信区间。区间。区间。区间。本例n=110,=172.73cm，s=4.09cm，双侧z0.05/2=1.96按式（3.7）计算：即：该地即：该地18岁男大学生身高均数的岁男大学生身高均数的95%可可信区间为信区间为171.97cm173.49cm 7575（3 3）已知：已知：故可按正态分布原理估计总体均数的可信区间，计算公式为：7676 未知，且未知，且n小小已知已知：未知，但未知，但n足够大足够大：三种情况三种情况两总体均数差值的置信区间（自学）两总体均数差值的置信区间（自学）假设正态总体假设正态总体和和，当，当，均未知，均未知，但但时，则两总体均数之差时，则两总体均数之差()的双侧的双侧()置信区间为：置信区间为：其中，其中，当当n1，n2均较大时，差值的置信区间为：均较大时，差值的置信区间为：7878例例6.5 测定测定28例结核病患者和例结核病患者和34例对照者的脑脊液中镁例对照者的脑脊液中镁(mmol/L)的含量，结果见表的含量，结果见表6.5，试估计结核病人和对照者，试估计结核病人和对照者的脑脊液中镁含量的总体均数之差的的脑脊液中镁含量的总体均数之差的95%置信区间。置信区间。表表6.5 两对比组脑脊液中镁含量两对比组脑脊液中镁含量(mmol)组别例数均数标准差结核组281.040.17对照组341.280.14解：假定两组方差齐，根据公式解：假定两组方差齐，根据公式解：假定两组方差齐，根据公式解：假定两组方差齐，根据公式6.76.7，6.86.8，6.96.9可得：可得：可得：可得：故两总体均数之差的故两总体均数之差的95%可信区间为可信区间为(0.16,0.32)mmol/L8080可信区间的注意问题可信区间的注意问题 1可信区间的涵义意思是从总体中作随机可信区间的涵义意思是从总体中作随机抽样，每个样本可以算得一个可信区间。抽样，每个样本可以算得一个可信区间。如如95%可信区间意味着做可信区间意味着做100次抽样，算得次抽样，算得100个可信区间，平均有个可信区间，平均有95个估计正确，估个估计正确，估计错误的只有计错误的只有5次。次。5%是小概率事件，实是小概率事件，实际发生的可能性很小，当然这种估计方法际发生的可能性很小，当然这种估计方法会有会有5%犯错误的风险。犯错误的风险。81812.可信区间的两个要素可信区间的两个要素:一是准确度：一是准确度：反映在可信度的大小，即区间包含反映在可信度的大小，即区间包含总体均数的概率的大小，愈接近总体均数的概率的大小，愈接近1愈好。愈好。二是精密度：二是精密度：反映在区间的长度，长度愈小愈好。反映在区间的长度，长度愈小愈好。在样本含量确定的情况下，二者是矛盾的，若只在样本含量确定的情况下，二者是矛盾的，若只管提高可信度，会把区间变得很长，故不宜认为管提高可信度，会把区间变得很长，故不宜认为99%可信区间比可信区间比95%可信区间好，一般来说可信区间好，一般来说95%可信区间更为常用。可信区间更为常用。8282区别点区别点均数的可信区间均数的可信区间参考值范围参考值范围意义意义包含总体均的可包含总体均的可 “正常人正常人”的解剖、生理的解剖、生理能范围能范围生化指标的波动范围生化指标的波动范围计算公式计算公式用途用途估计总体均数估计总体均数判断观察对象的某判断观察对象的某项指标是否正常项指标是否正常3.均数可信区间与参考值范围的区别均数可信区间与参考值范围的区别8484小结1.抽样误差抽样误差2.标准差与标准误的区别与联系标准差与标准误的区别与联系3.t分布、正态分布与标准正态分布分布、正态分布与标准正态分布的区别与联系的区别与联系4.可信区间与参考值范围的区别与可信区间与参考值范围的区别与联系联系8585

展开阅读全文