收藏 分销(赏)

统计数据的搜集与整理正规版资料.ppt

上传人:二*** 文档编号:5455725 上传时间:2024-11-05 格式:PPT 页数:28 大小:319.04KB
下载 相关 举报
统计数据的搜集与整理正规版资料.ppt_第1页
第1页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、统计数据的搜集统计数据的搜集(suj)与整理与整理第一页,共28页。2024/11/5 周二 总体总体(zngt)(zngt)(Population)Population)指研究的全部指研究的全部对象,是由所研究具有某种共同性质的全部个对象,是由所研究具有某种共同性质的全部个体所组成的集合体。分为有限总体体所组成的集合体。分为有限总体(zngt)(finite population)(zngt)(finite population)和无限总体和无限总体(zngt)(infinite population)(zngt)(infinite population)。样本样本(Sample)(Samp

2、le)为总体为总体(zngt)(zngt)的一部分,样的一部分,样本内包含的个体数目称为样本含量。本内包含的个体数目称为样本含量。总体总体(zngt)(zngt)与样本与样本第二页,共28页。2024/11/5 周二 从总体获得样本的过程称抽样,抽样的目的是希望通过对样本的研究推断其总体。抽样方法有随机抽样、分类(fn li)抽样等。生物统计学上要求抽样具有代表性,应是一个总体的缩影,因此要根据具体情况采用不同抽样方法。1.1.3 1.1.3 抽样抽样(chu(chu yn)yn)第三页,共28页。2024/11/5 周二要求总体中的任何个体要求总体中的任何个体(gt)(gt)都有同等的机都有

3、同等的机会被抽到;要求抽样时不受任何主观因素的会被抽到;要求抽样时不受任何主观因素的影响。如抽签,抓阄,用随机数字表等。随影响。如抽签,抓阄,用随机数字表等。随机表的用法机表的用法(附表附表1 1,自习,自习)1.1.4 1.1.4 随机抽样随机抽样第四页,共28页。2024/11/5 周二放回式抽样放回式抽样:从总体中抽出一个个体从总体中抽出一个个体,记下它的特征后记下它的特征后,放回总体中放回总体中,再做第二次抽样。再做第二次抽样。非放回式抽样非放回式抽样:从总体中抽出个体后从总体中抽出个体后,不再放回。不再放回。有限总体中的抽样:放回式的抽样可能会重复有限总体中的抽样:放回式的抽样可能会

4、重复(chngf)(chngf)抽中某一个体。尤其是总体量不大,或抽样范抽中某一个体。尤其是总体量不大,或抽样范围小的时候。围小的时候。无限总体在同等抽样条件下,放回式抽样和非放回式抽无限总体在同等抽样条件下,放回式抽样和非放回式抽样没有区别。样没有区别。一般情况样本的含量越大越有代表性。一般情况样本的含量越大越有代表性。1.1.5 1.1.5 放回式抽样放回式抽样(chu yn)(chu yn)和非放和非放回式抽样回式抽样(chu yn)(chu yn)第五页,共28页。2024/11/5 周二1.2.1 1.2.1 连续型数据和离散型数据连续型数据和离散型数据统计学的最基本工作是收集数据,

5、数据收集统计学的最基本工作是收集数据,数据收集得越多越有可能揭示客观现象的特性得越多越有可能揭示客观现象的特性(txng)(txng)和变化规律。和变化规律。数据类型:数据类型:连续型数据(度量数据):与某种标准做比连续型数据(度量数据):与某种标准做比较所得到的数据较所得到的数据.例如例如:长度,时间,重量。长度,时间,重量。对连续型数据进行分析的方法,通常称为变对连续型数据进行分析的方法,通常称为变量的方法。量的方法。离散型数据(记数数据):由记录不同类别离散型数据(记数数据):由记录不同类别个体的数目所得到的数据个体的数目所得到的数据.例如例如:尾数,成活尾数,成活或死亡个数对离散型数据

6、进行分析的方法,或死亡个数对离散型数据进行分析的方法,通常称为属性的方法。通常称为属性的方法。1.2 1.2 数据类型及频率数据类型及频率(pnl)(pnl)分布分布第六页,共28页。2024/11/5 周二1.2.2 1.2.2 频数频数(pn sh)(pn sh)(率)表和频数(率)表和频数(pn(pn sh)sh)(率)图的编绘(率)图的编绘离散型数据与连续型数据的频数(率)表和频数离散型数据与连续型数据的频数(率)表和频数(率)图略有不同。(率)图略有不同。离散型数据频数(率)表和频数(率)图。离散型数据频数(率)表和频数(率)图。例:调查每天出生的例:调查每天出生的1010名新生儿中

7、,体重超过名新生儿中,体重超过3kg3kg的人数,共调查的人数,共调查120120天。每天的天。每天的1010名新生儿中,体名新生儿中,体重超过重超过3kg3kg的人数,可能有的人数,可能有1111种情况:种情况:1 1名也没有名也没有(mi yu)(mi yu),有,有1 1名,有名,有2 2名,名,1010名都是,如表名都是,如表1-11-1的第一列所示,这一组称为组值。的第一列所示,这一组称为组值。第七页,共28页。2024/11/5 周二表表1-11-1每每1010名新生儿体重名新生儿体重(tzhng)(tzhng)超过超过3kg3kg的人数频数的人数频数(率率)表表第八页,共28页。

8、2024/11/5 周二图图1-1每每10名新生儿体重名新生儿体重(tzhng)超过超过3kg的人数频数的人数频数图图第九页,共28页。2024/11/5 周二第二十四页,共28页。g0,说明曲线过于陡峭;例:表1-2列出了某农场做高粱“三尺三”提纯时所调查的100个数据(shj),试做其频数(率)表和频数(率)图。1 平均数:数据集中点的度量,种类(zhngli)很多。总体(zngt)(Population)指研究的全部对象,是由所研究具有某种共同性质的全部个体所组成的集合体。没有计算数据变异的性质,因此没有一个绝对的含义。编制(binzh)连续型数据的频数(率)表的步骤:生物统计学中一般都

9、是用平均数,中位数和众数很少使用。非频数资料(zlio)标准差的简化计算公式:2、决定划分的组数,分组数是由数据(shj)的多少决定的,统计学家斯特吉斯提出分组数公式:(式中为样本数)。编制(binzh)连续型数据的频数(率)表的步骤:中位数:居于中间(zhngjin)位置个体的数值。也是用来(yn li)度量曲线形状,其值为四阶中心距m4与二阶中心距m2的平方的商再减去:1、从原始数据(shj)中找出最大值和最小值,并求出极 差。同一总体中随机抽取的样本,其频数分布不完全相同,有时差距还很大。4、在频数表中列出全部组限、组界及中值。例例:表表1-21-2列出了某农场做高粱列出了某农场做高粱“

10、三尺三三尺三”提纯提纯时所调查的时所调查的100100个数据个数据(shj)(shj),试做其频数,试做其频数(率)表和频数(率)图。(率)表和频数(率)图。连续型数据连续型数据(shj)频数(率)表和频数(率)频数(率)表和频数(率)图。图。表表12“三尺三三尺三”株高测量株高测量(cling)结果结果第十页,共28页。2024/11/5 周二 1 1、从原始数据、从原始数据(shj)(shj)中找出最大值和最小值,并求出极中找出最大值和最小值,并求出极 差。差。R=mamx-minx R=mamx-minx (R=170-141=30R=170-141=30)2 2、决定划分的组数,分组数

11、是由数据、决定划分的组数,分组数是由数据(shj)(shj)的多少决定的多少决定的,的,统计学家斯特吉斯提出分组数公式:(式中为样统计学家斯特吉斯提出分组数公式:(式中为样本数)。本数)。3 3、根据极差与决定划分的组数、确定组限。(、根据极差与决定划分的组数、确定组限。(30/1030/103 3)4 4、在频数表中列出全部组限、组界及中值。、在频数表中列出全部组限、组界及中值。5 5、将原始数据、将原始数据(shj)(shj)表中数据表中数据(shj)(shj),填入频数表中,填入频数表中,计算出每组的频数和频率。计算出每组的频数和频率。编制编制(binzh)连续型数据的频数(率)表的步骤

12、:连续型数据的频数(率)表的步骤:第十一页,共28页。2024/11/5 周二表表1-3“1-3“三尺三尺(sn ch)(sn ch)三三”株高频数(率)表株高频数(率)表第十二页,共28页。2024/11/5 周二直方图:又直方图:又称组织图,称组织图,横轴表示组横轴表示组界,纵轴表界,纵轴表示频数(频示频数(频数图)或频数图)或频率(频率图)率(频率图),两者图形,两者图形完全完全(wnqun)(wnqun)一一样。样。直方图直方图第十三页,共28页。2024/11/5 周二多边形图(折线图):横轴表示多边形图(折线图):横轴表示(biosh)(biosh)各各组中值,纵轴表示组中值,纵轴

13、表示(biosh)(biosh)频数(率),连接频数(率),连接各点得到多边形图。各点得到多边形图。累积频数图:横轴表示累积频数图:横轴表示(biosh)(biosh)各组中值,各组中值,纵轴表示纵轴表示(biosh)(biosh)累积频数(率),连接各点累积频数(率),连接各点得到累积频数(率)图(向上累积与向下累积)。得到累积频数(率)图(向上累积与向下累积)。频数频数(pn sh)(率)图的编绘(率)图的编绘第十四页,共28页。2024/11/5 周二根据频数(率)表或频数(率)图,可以根据频数(率)表或频数(率)图,可以看出数据的三个重要特征。看出数据的三个重要特征。集中情况:平均数,

14、中位数,众数。集中情况:平均数,中位数,众数。变异情况:集中在平均数两侧的程度变异情况:集中在平均数两侧的程度(chngd),越集中在平均数附近说明数据,越集中在平均数附近说明数据越整齐。越整齐。图形的形状:对称与不对称,也可能显示图形的形状:对称与不对称,也可能显示异常分布,出现一些不规则的情况,需要异常分布,出现一些不规则的情况,需要寻找原因。寻找原因。1.2.3 1.2.3 研究频数(率)分布研究频数(率)分布(fnb)(fnb)的的意义意义第十五页,共28页。2024/11/5 周二同一总体中随机抽取的样本,其频数分布同一总体中随机抽取的样本,其频数分布不完全相同,有时差距还很大。不完

15、全相同,有时差距还很大。由于样本分布的不恒定性,当用样本去推由于样本分布的不恒定性,当用样本去推断总体时,推断的结果也会有不同,因此,断总体时,推断的结果也会有不同,因此,需要考察结果的可信度。为了回答这一问需要考察结果的可信度。为了回答这一问题题,首先要对总体分布有所了解。后面的首先要对总体分布有所了解。后面的第二第二(d r)、三章的内容就是围绕总体展、三章的内容就是围绕总体展开的。开的。1.2.4 1.2.4 频数频数(pn sh)(pn sh)分布的不恒定性分布的不恒定性第十六页,共28页。2024/11/5 周二样本特征数样本特征数:描述样本频率分布特征的数字描述样本频率分布特征的数

16、字.1.3.1 1.3.1 平均数:数据集中点的度量平均数:数据集中点的度量,种类种类(zhngli)(zhngli)很多。很多。算术平均数算术平均数:通常简称平均数。通常简称平均数。常用简单算术平均数方法,实际应用中也常用加权平常用简单算术平均数方法,实际应用中也常用加权平均的方法来计算。均的方法来计算。几何平均数:几何平均数:处于稳定消长过程中生物群体的数量变化呈几何级数,处于稳定消长过程中生物群体的数量变化呈几何级数,如在细菌、藻类等培养,求平均消长率应采用几何平均如在细菌、藻类等培养,求平均消长率应采用几何平均数,若用算术平均数则偏高数,若用算术平均数则偏高(几何平均数小于算术平均数)

17、几何平均数小于算术平均数)。1.3 1.3 样本样本(yngbn)(yngbn)的几个特征数的几个特征数第十七页,共28页。2024/11/5 周二 中位数:居于中间中位数:居于中间(zhngjin)(zhngjin)位置个体的位置个体的数值。数值。众数:具有最高频数的组值或中值。有单众众数:具有最高频数的组值或中值。有单众数、双众数、三众数等。数、双众数、三众数等。生物统计学中一般都是用平均数,中位数和生物统计学中一般都是用平均数,中位数和众数很少使用。众数很少使用。自习:频数图、频数表、平均数的性质、平自习:频数图、频数表、平均数的性质、平均数的简化计算公式。均数的简化计算公式。1.3.1

18、 平均数平均数第十八页,共28页。2024/11/5 周二数据的变异程度数据的变异程度范围(或极差)(范围(或极差)(R R)R Rmaxx-minxmaxx-minx平均平均(pngjn)(pngjn)离差(离差(MDMD):离均差绝对值的离均差绝对值的和的平均和的平均(pngjn)(pngjn)数。数。1.3.2 1.3.2 标准差标准差第十九页,共28页。2024/11/5 周二 样本方差(样本方差(S2S2):):离均差离均差(jn ch)(jn ch)平方的和平方的和(离差平方和)除以(离差平方和)除以n n。标准差(标准差(SDSD)或()或(S S):):样本方差的开平方。样本方

19、差的开平方。1.3.2 标准差(续)标准差(续)第二十页,共28页。2024/11/5 周二非频数资料非频数资料(zlio)(zlio)标准差的简化计算标准差的简化计算公式:公式:标准差的简化标准差的简化(jinhu)计算方法计算方法第二十一页,共28页。2024/11/5 周二连续型数据:用中值连续型数据:用中值代替代替(dit)(dit),类似,类似离散型数据计算方法离散型数据计算方法(数据较大时可用编(数据较大时可用编码码):频数资料频数资料(zlio)标准差的简化计算公式:标准差的简化计算公式:离散离散(lsn)型数据:型数据:第二十二页,共28页。2024/11/5 周二总体(zng

20、t)(Population)指研究的全部对象,是由所研究具有某种共同性质的全部个体所组成的集合体。编制(binzh)连续型数据的频数(率)表的步骤:3 偏斜(pin xi)度和峭度(续)单位为物理学单位的立方,因此不同类型数据之间不易进行比较2、决定划分的组数,分组数是由数据(shj)的多少决定的,统计学家斯特吉斯提出分组数公式:(式中为样本数)。离散型数据(记数数据):由记录不同类别个体的数目所得到的数据.单位为物理学单位的立方,因此不同类型数据之间不易进行比较由于样本分布的不恒定性,当用样本去推断总体时,推断的结果也会有不同,因此,需要考察结果的可信度。分为有限总体(zngt)(finit

21、e population)和无限总体(zngt)(infinite population)。单位为物理学单位的立方,因此不同类型数据之间不易进行比较偏斜度:度量数据(shj)围绕众数呈不对称的程度。样本特征数:描述样本频率分布特征的数字.中位数:居于中间(zhngjin)位置个体的数值。m30m3 0,说明曲线向左偏斜,称左偏或正偏,此时众数,说明曲线向左偏斜,称左偏或正偏,此时众数小于中位数,而中位数小于平均数。见图小于中位数,而中位数小于平均数。见图A A。m30m300,说明曲线过于陡峭;,说明曲线过于陡峭;g g 200 200、判断峭度、判断峭度g g时,样本含量至少要时,样本含量至

22、少要 1000 1000。峭度峭度g2 g2:也是用来也是用来(yn li)(yn li)度量曲线形状,其值为四度量曲线形状,其值为四阶中心距阶中心距m4m4与二阶中心距与二阶中心距m2m2的平方的商再减去的平方的商再减去:第二十六页,共28页。2024/11/5 周二l考虑标准差和平均数两者关系考虑标准差和平均数两者关系l用来用来(yn li)(yn li)表明样本标准差对平均数的表明样本标准差对平均数的变异幅度。变异幅度。l可以用来可以用来(yn li)(yn li)判断数据整齐程度,变判断数据整齐程度,变异系数比较小的数据组比较整齐。异系数比较小的数据组比较整齐。1.3.4 变异系数变异系数CV第二十七页,共28页。2024/11/5 周二一、名词解释一、名词解释 总体总体 样本样本 标准差标准差 方差方差(fn ch)(fn ch)变变异系数异系数偏斜度偏斜度 峭度峭度习题习题(xt)第二十八页,共28页。2024/11/5 周二

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服