资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第三章 平均数、标准差与变异系数,下一张,主 页,退 出,上一张,主要内容,平均数,标准差,变异系数,第一节 平均数,下一张,主 页,退 出,上一张,平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有:,算术平均数,(,arithmetic mean,),中位数,(,median,),众数,(,mode,),几何平均数,(,geometric mean,),调和平均数,(,harmonic mean,),下一张,主 页,退 出,上一张,一、算术平均数,设某一资料包含,n,个观测值:,x,1,、x,2,、x,n,,,则样本平均数可通过下式计算:,(3-1),其中,为总和符号;表示从第一个观测值,x,1,累加到第,n,个观测值,x,n,。当 i的取值区间在意义上已明确时,可简写为,x,,(3-1)式可改写为:,下一张,主 页,退 出,上一张,(一)直接计算法,【例3.1】,某种公牛站测得10头成年公牛的体重分别为500、520、535、560、585、600、480、510、505、490(,kg,),求其平均数。,计算公式为:,(3-2),式中:第,i,组的组中值;,第,i,组的次数;,分组数,第,i,组的次数,f,i,是权衡第,i,组组中值,x,i,在资料中所占比重大小的数量,因此将,f,i,称为是,x,i,的“权”,加权法也由此而得名。,下一张,主 页,退 出,上一张,【例3.2】,将100头长白母猪的仔猪一月窝重(单位:,kg,)资料整理成次数分布表如下,求其加权数平均数。,下一张,主 页,退 出,上一张,表3-1 100头长白母猪仔猪一月窝重次数分布表,下一张,主 页,退 出,上一张,利用(3-2)式得:,即这100头长白母猪仔猪一月龄平均窝重为45.2,kg,。,计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。,下一张,主 页,退 出,上一张,【例3.3】,某牛群有黑白花奶牛 1500头,其平均体重为750,kg,,而另一牛群有黑白花奶牛1200头,平均体重为725,kg,,如果将这两个牛群混合在一起,其混合后平均体重为多少?,下一张,主 页,退 出,上一张,此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即,即两个牛群混合后平均体重为738.89,kg,。,下一张,主 页,退 出,上一张,(三)算术平均数的基本性质,1、样本各观测值与平均数之差的和为零,即,离均差之和等于零,。,或简写成,2、样本各观测值与平均数之差的平方和为最小,即,离均差平方和为最小,。,(常数,a,),或简写为:,下一张,主 页,退 出,上一张,对于总体而言,通常用表示总体平均数,有限总体的平均数为:,(3-3),式中,,N,表示总体所包含的个体数。,当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的,无偏估计量,。,统计学中常用样本平均数()作为总体平均数()的估计量,并,已证明样本平均数是总体平均数的无偏估计量,。,下一张,主 页,退 出,上一张,二、中位数,将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数(median),记为,M,d,。,下一张,主 页,退 出,上一张,当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。,当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。,中位数的计算方法因资料是否分组而有所不同。,下一张,主 页,退 出,上一张,(一)未分组资料中位数的计算方法,对于未分组资料,先将各观测值由小到大依次排列。,下一张,主 页,退 出,上一张,1.当观测值个数,n,为奇数时,(,n+,1),/2,位置的观测值,即,x(n+,1,)/2,为中位数:,2,.,当观测值个数为偶数时,n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,,即:,(3-4),下一张,主 页,退 出,上一张,【例3.4】,观察得9只西农莎能奶山羊的妊娠天数为 144、145、147、149、150、151、153、156、157,求其中位数。,此例,n,=9,为奇数,则:,即西农莎能奶山羊妊娠天数的中位数为150天。,下一张,主 页,退 出,上一张,【例3.5】,某犬场发生犬瘟热,观察得10只仔犬发现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。,此例,n,=10,为偶数,则:,即10只仔犬从发现症状到死亡天数的中位数为11.5天。,下一张,主 页,退 出,上一张,思考:,1、某年某猪场发生猪瘟病,测得10头猪得潜伏期分别为2、2、3、3、4、4、4、5、9、12(天)。试求潜伏期的中位数。,2、现有一窝仔猪的出生重资料为:1.4,1.7,1.0,1.2,1.3,1.5,1.6 Kg,试求其中位数。,3、某病患者5人其潜伏期(天)分别为2,3,5,8,20,求其平均潜伏期。,(二)已分组资料中位数的计算方法,若资料已分组,编制成次数分布表,则可利用次数分布表来计算中位数,其计算公式为:,式中:,L,中位数所在组的下限;,i 组距;,f,中位数所在组的次数;,n,总次数;,c,小于中数所在组的累加次数。,下一张,主 页,退 出,上一张,【例3.6】,某奶牛场68头健康母牛从分娩到第一次发情间隔时间 整理成次数分布表如表 3-2 所示,求中位数。,下一张,主 页,退 出,上一张,表3-2 68头母牛从分娩到第一次发情间隔时间,次数分布表,由表3-2可见:,i,=15,,n,=68,,因而中位数只能在累加头数为,36,所对应的“57-71”这一组,于是可确定,L,=57,,f,=20,c=16,,代入公式(35)得:,(天),即奶牛头胎分娩到第一次发情间隔时间的中位数为70.5天。,下一张,主 页,退 出,上一张,145名食物中毒病人的潜伏期例于下表,求其中位数。,表3-3,粪链球菌食物中毒者的潜伏期,潜伏期,频 数,累计频数,0,17,17,6,46,63,12,38,101,18,32,133,24,6,139,30,0,139,36,4,143,4248,2,145,合计,145,-,算术平均数易受极大值、极小值的影响,,而中位数不易受极端值影响,医学中常用的,半数效量和半数致死量是中位数,,不是算术平均数,.。,当数据分布不对称或不平衡,特别是存在开口组数据或极端值时,中位数作为集中趋势的描述,效果比算数平均数更切合实际,例如在描述差别较大人群的平均收入时,就适宜采用中位数。,但其不足是灵敏度和计算功能差。,三、几何平均数,若资料中有n个观测值,则n,个观测值相乘之积开,n,次方所得的方根,称为,几何平均数(,geometric mean,),,记为,G,。,它主要应用于畜牧业的生产动态分析;畜禽疾病及药物效价的统计分析。如畜禽的增长率;抗体的滴度;药物的效价;畜禽疾病的潜伏期等。,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下:,(3-6),下一张,主 页,退 出,上一张,为了计算方便,可将各观测值取对数后相加除以,n,,得,lgG,,再求,lgG,的反对数,即得,G,值,即,(3-7),下一张,主 页,退 出,上一张,【例3.7】,某地在研究人群中流感抗体水平的调查中,测得12名儿童的血清对某型病毒的血凝抑制抗体效价的倒数为:5,5,5,5,5,5,5,10,10,10,20,40,试计算平均血凝抑制抗体效价。,利用(3-7)式求年平均增长率,G,=,=,=,lg,-1,(0.8997)=7.94,即平均血凝抑制抗体效价约为1:8。,下一张,主 页,退 出,上一张,【例3.7】,某波尔山羊群1997-2000年各年度的存栏数见表3-3,试求其年平均增长率。,表3-3 某波尔山羊群各年度存栏数与增长率,下一张,主 页,退 出,上一张,利用(3-7)式求年平均增长率,G,=,=,lg,-1,(-0.368-0.3980.602),=,lg,-1,(-0.456)=0.3501,即年平均增长率为0.3501或35.01%。,下一张,主 页,退 出,上一张,思考:,对一注射了新城疫疫苗的鸡群测定血球凝集抑制滴度,其抗体滴度的分布情况见下表。求该鸡群的平均抗体滴度。(,324.484/183=1.7731 1:59.31),表3 鸡新城疫的血球凝集抑制滴度分布,ND-HI 滴度,1:10,1:20,1:40,1:80,1:160,1:320,1:640,合计,检查,鸡数,8,38,44,47,29,15,2,183,思考:,40名麻疹易感儿接种麻疹疫苗后一个月,血凝抑制抗体滴度见表,求平均滴度。(,1:64),表3,接种麻疹疫苗后一个月血凝抑制抗体滴度,ND-HI 滴度,1:4,1:8,1:16,1:32,1:64,1:128,1:256,1:512,合计,人数,1,5,6,2,7,10,4,5,40,四、众数,资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数(mode),记为,M,0,。,如表2-3 所列的 50枚受精种蛋出雏天数次数分布中,以22出现的次数最多,则该资料的众数为22天。,又如,【例3.6】,幻灯片 20,所列出的 次数分布表中,57-71这一组次数最多,其组中值为64天,则该资料的众数为64天。,下一张,主 页,退 出,上一张,众数的特点是易理解、不容数值极端值的影响,但其灵敏度、计算功能和稳定性差,,存在不唯一性,,故,当数据集中趋势不明显或有两个以上分布中心时,不宜使用。,下一张,主 页,退 出,上一张,思考:,计算下列资料的算术平均数、中位数和众数。,组限,4-,8-,12-,16-,20-,24-,28-,次数,3,8,11,15,18,3,2,五、调和平均数,资料中各观测值倒数的 算术平均数 的倒数,称为调和平均数(,harmonic mean,),,记为,H,,即,(3-8),调和平均数主要用于反映畜群不同阶段的平均增长率或畜群不同规模的平均规模。,下一张,主 页,退 出,上一张,【例3.8】,某保种牛群不同世代牛群保种的规模分别为:0世代200头,1世代220头,2世代210头;3世代190头,4世代210头,试求其平均规模。,利用(3-9)式求平均规模,:,(头),即保种群平均规模为208.33头。,下一张,主 页,退 出,上一张,思考:,仔猪断奶后育肥试验,在原体重基础上净增重90Kg时,结束试验,已知第一个30Kg的平均日增重为0.4Kg,第二个30Kg的平均日增重为0.5Kg,第三个30Kg的平均日增重为0.7Kg,求全期平均日增重.(H=0.51 =0.53),思考:,用某药物救治12只中毒的小鼠,它们的存活天数记录如下:8,8,8,10,10,7,13,10,9,14,另两只一直未死亡,求平均存活天数。(数据极端右偏,用调和平均数较为合理),思考:,研究猪胚胎发育试验,测得仔猪初生体重为1401g,其胚胎在前1/3时期的生长速度为5.49g/天,中1/3时期的生长速度为35.9g/天,后1/3时期的生长速度为29.19g/天。试问其全期平均生长速度?(H=12.28,=23.53,),各个集中趋势度量指标之间的关系及评价:,1、各个集中趋势度量指标之间的关系,(1)在完全对称分布情况下:算术平均数、中位数,及众数三者相等。,(2)在微偏态分布中,众数与中位数及算术平均数三,者之间存在以下关系:,M,o,=3M,d,-2,(3)一组数据中的几何平均数、算术平均数、调和,平均数之间存在以下关系:,算术平均数几何平均数调和平均数,各个集中趋势度量指标之间的关系及评价:,2、集中趋势指标的评价,作为集中趋势的度量指标,最好应满足以下几个条件:,(1)必须有严格的定义和算法;,(2)计算过程中应利用全部观察值;,(3)简单明了,容易领悟,容易计算;,(4)受抽样变动影响不大,即随机抽样误差小;,(5)适用于代数方法处理。,算术平均数能最好地满足以上标准,但是,当分布不对称时,用算术平均数就难以表示资料的集中趋势。,中位数满足(,2,)、(,3,)条,它在排序时利用了全部观察值,因而在非参数检验时,是一个经常使用的统计量。,众数仅满足(,3,)条。,几何平均数和调和平均数满足(,1,)、(,2,)和(,5,)条,二者都适用于右偏态分布资料。,利用平均数来说服别人接受某一特定的观点,这是常用的技巧。,【例如】,一家小企业有13个员工的工资为:13500,11500,11000,9000,8500,8000,6500,6000,3500,3500,3500,3000元,平均工资为多少?,由资料可以得到:,显示工资高:=7000元,显示工资低:Mo=3500元 Md=6500元,对于学习过统计学的人来说,不能盲目接受别人说的一个统计指标,而应该进行分析并作出科学评价。,第二节 标准差,下一张,主 页,退 出,上一张,全距(极差),离均差,离均差平方和,样本方差,样本标准差,总体方差,总体标准差,一、标准差的意义,用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。,第一组:=10.1,第二组:=10.1,第一组:,8.9,9.6,11.2,9.4 9.9 10.9 10.4 11.0 9.7,第二组:,3.1,17.0 9.9 5.1 18.0 3.8 9.0 2.9,21.2,全距(极差),是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。,下一张,主 页,退 出,上一张,离均差,为了准确地表示样本内各个观测值的变异程度,人们首先会考虑到以平均数为标准,求出各个观测值与平均数的离差(),称为,离均差,。,虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和为零,即()=0,因而不能用离均差之和()来表示资料中所有观测值的总偏离程度。,下一张,主 页,退 出,上一张,平均绝对离差,为了解决离均差有正、有负,离均差之和为零的问题,可先求离均差的绝对值并将各离均差绝对值之和除以观测值个数,n,求得平均绝对离差,即,|/,n,。,虽然平均绝对离差可以表示资料中各观测值的变异程度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用,。,离均差平方和,我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。,先将各个离均差平方,即(),2,,再求,离均差平方和,,即 ,简称,平方和,,记为,SS,;由于,离差平方和常随样本大小而,改变,为了消除样本大小的影响,用平方和除以样本大小,即 ,求出离均差平方和的平均数;,下一张,退 出,上一张,为了使所得的统计量是相应总体参数的无偏估计量,统计学证明,,在求离均差平方和的平均数时,分母不用样本含量,n,,而用自由度,n-,1,,于是,我们采用统计量,表示资料的变异程度。,自由度,即是指资料中能够自由变动的变数的个数,或指变数的个数减去计算过程中使用的条件数,用符号,df,表示。,统计量 称为,均方,(,mean square,缩写为MS),又称,样本方差,,记为,S,2,,即,S,2,=SS/df=,(3-9),下一张,主 页,退 出,上一张,相应的总体参数叫,总体方差,,记为,2,。对于有限总体而言,,2,的计算公式为:,(3-10),样本标准差,由于样本方差带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这时应将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差,S,2,的平方根叫做,样本标准差,,记为,S,,即:,(3-11),下一张,主 页,退 出,上一张,由于,所以(3-11)式可改写为:,(3-12),下一张,主 页,退 出,上一张,相应的总体参数叫,总体标准差,,记为。对于有限总体而言,的计算公式为:,(3-13),在统计学中,常用样本标准差,S,估计总体标准差,。,下一张,主 页,退 出,上一张,二、标准差的计算方法,(一)直接法,对于未分组或小样本资料,可直接利用(3-11)或(3-12)式来计算标准差,【例3.9】,计算10只辽宁绒山羊产绒量:450,450,500,500,500,550,550,550,600,600,650(g)的标准差。,此例,n,=10,经计算得:,x,=5400,,x,2,=2955000,代入(312)式得:,(g),即10只辽宁绒山羊产绒量的标准差为65.828g。,下一张,主 页,退 出,上一张,【例3.10】,测定了8头成年母猪血清球蛋白含量,得结果如下:2.3,2.4,2.5,2.7,2.9,3.0,2.9,3.2(g)计算血清样品球蛋白含量的标准差。(s=0.23 ),(二)加权法,对于已制成,次数分布表的大样本,资料,可利用次数分布表,采用加权法计算标准差。计算公式为:,(3-14),式中,,f,为各组次数;,x,为各组的组中值;,f,=,n,为总次数。,下一张,主 页,退 出,上一张,【例3.10】,利用某纯系蛋鸡200枚蛋重资料的次数分布表(见表3-4)计算标准差。,表3-4 某纯系蛋鸡200枚蛋重资料次数分布,及标准差计算表,将表3-4中的,f、,fx、,代入(3-14)式得:,(,g,),即某纯系蛋鸡200枚蛋重的标准差为3.5524,g,。,思考:,200头奶牛血液镁离子含量(mg)资料见下表,对计算血液镁离子标准差。,200头奶牛血镁含量次数分布表,组限,组中值,频数(f),0.9-,1.0,1,1.1-,1.2,3,1.3-,1.4,7,1.5-,1.6,13,1.7-,1.8,20,1.9-,2.0,34,2.1-,2.2,43,2.3-,2.4,34,2.5-,2.6,21,2.7-,2.8,12,2.9-,3.0,8,3.1-,3.2,3,3.3-,3.4,1,合计,200,三、标准差的特性,1.,标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。,2.,在计算标准差时,在各观测值加上或减去一个常数,其数值不变。,3.,当每个观测值乘以或除以一个常数,a,,则所得的标准差是原来标准差的,a,倍或1,/a,倍。,下一张,主 页,退 出,上一张,4.,在资料服从正态分布的条件下,资料中约有,68.26%,的观测值在平均数左右一倍标准差(S)范围内;约有,95.45%,的观测值在平均数左右两倍标准差(2S)范围内;约有,99.73%,的观测值在平均数左右三倍标准差(3S)范围内。也就是说,全距近似地等于6倍标准差,,可用(全距/6)来粗略估计标准差。,下一张,主 页,退 出,上一张,第三节 变异系数,变异系数是衡量资料中各观测值变异程度的另一个统计量。,标准差与平均数的比值(相对值)称为,变异系数,,记为,CV,。,变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。,下一张,主 页,退 出,上一张,变异系数的计算公式为:,(3-15),下一张,主 页,退 出,上一张,【例3.11】,已知某良种猪场100头长白成年母猪平均体重为 190,kg,,标准差为10.5,kg,,而50头育成母猪平均体重为90,kg,,标准差为8.6,kg,,试问两种不同年龄的母猪,哪一种体重变异程度大。,由于,长白成年母猪体重的变异系数:,育成母猪体重的变异系数:,所以,长白成年母猪体重的变异程度小于育成母猪。,下一张,主 页,退 出,上一张,思考:,某地30岁男子100人,其身高均数为166.06cm,标准差为4.95cm;其体重均数为53.72kg,标准差为4.96kg。欲比较身高与体重的变异度。,(由于度量单位不同,不能直接比较标准差)(CV=2.98,9.23),思考:,调查甲、乙两地某品种成年母水牛的体高(cm)如下表,试比较两地成年母水牛体高的变异程度。,甲地,137 133 130 128 127 119 136 132,乙地,128 130 129 130 131 132 129 130,注意,:,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。,下一张,主 页,退 出,上一张,思考题,一、名词解释,算术平均数 无偏估计 几何平均数 中位数,众数 调和平均数 标准差 方差 离均差的平方和(平方和)变异系数,二、简答题,1.生物统计中常用的平均数有几种?各在什么情况下应用?,2.算术平均数有哪些基本性质?,3.标准差有哪些特性?,4.为什么变异系数要与平均数、标准差配合使用?,思考题,50例 链球菌咽峡炎患者的潜伏期如下,试计算均数、中位数、几何均数,并说明何者的代表性较好。,潜伏期(小时),12-,24-,36-,48-,60-,72-,84-,96-,108-120,合计,病例数,1,7,11,11,7,5,4,2,2,50,
展开阅读全文