资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,统计数据整理与显示,2026/1/27 周二,第一页,共101页。,本 章 内 容,第一节 统计数据整理概述,第二节 统计分组与频数分布数列,第三节 统计数据的显示,第四节,EXCEL,在数据整理应用示例,2026/1/27 周二,第二页,共101页。,第一节 统计数据整理概述,一、统计数据整理的含义与要求,二、统计数据整理的步骤,三、统计数据的预处理,2026/1/27 周二,第三页,共101页。,包括对原始数据的整理和对次级数据的整理。,一、统计数据整理的含义与要求,(一)统计数据整理的含义,对原始数据而言,统计整理由反映,总体单位特征的标志表现,转化为反映,总体综合特征的统计指标,。,对次级数据而言,整理时通过新的分组、重新计算或调整,使之,满足本次调研目的,需要。,2026/1/27 周二,第四页,共101页。,统计研究过程,数据搜集,数据整理,数据分析,(二),统计数据整理的意义,统计数据整理是统计研究过程的中间环节,发挥着承上启下的作用。,(三),统计数据整理的要求,科学性,条理性,充分性,2026/1/27 周二,第五页,共101页。,二、统计数据资料整理的步骤,制定统计整理方案,数据显示(统计图表),数 据 处 理,(,分组和汇总,),数据的预处理(审核筛选),数据的保存与公布,2026/1/27 周二,第六页,共101页。,统计整理方案是统计整理过程的工作安排。,主要内容:,一是确定总体资料的处理方法,如何分组,用何种形式整理;,二是确定通过整理要得到哪些指标;,三是确定整理资料的显示形式。,讨论:要研究某市中学生参加体育活动与身体素质的关系,从全市抽取,1000,名中学生进行调查,取得了有关资料。你认为需要用哪些指标,才能达到研究目的?,2026/1/27 周二,第七页,共101页。,三、统计数据的预处理,在正式处理之前的前期准备工作,主要包括:,数据审核,数据筛选,数据排序,2026/1/27 周二,第八页,共101页。,审核内容,原始数据,次级数据,完整性,准确性,完整性,时效性,观察检查,计算检查,审核方法,1,、数据审核,逻辑检查,适用性,准确性,抽样复查,2026/1/27 周二,第九页,共101页。,数据筛选,就是根据需要找出符合特定条件的某类数据。,2,、数据筛选,数据筛选形式,:,手工、运用计算机程序,筛选内容:,一是将符合特定条件的数据保留;,二是剔除有明显错误的数据和不符合要求的数据。,2026/1/27 周二,第十页,共101页。,数据排序作用:,发现数据的变化趋势,找到解决问题的线索;,有助于对数据检查纠错,为分类或分组提供依据;有时可直接利用排序结果作分析。,数据排序类型:,定类数据,按类排序:按字母顺序,定量数据,按序排序:升序或降序,数据排序,是按一定顺序将数据排列。,3,、数据排序,2026/1/27 周二,第十一页,共101页。,第二节 统计分组与频数分布数列,一、统计分组,二、频数分布数列,2026/1/27 周二,第十二页,共101页。,(一),统计分组的概念,例如,:,企业按经济类型分组:,国有企业,集体企业 个体企业,其它企业,考试按考分分组:,60,分以下(不及格),60,70,分(及格),70,80,分(中等),80,90,分(良好),90,100,分(优秀),一、统计分组,2026/1/27 周二,第十三页,共101页。,统计分组,是在总体内部进行的一种,定性,分类,把总体划分为,一个个性质不同,范围更小的总体,。,统计分组,有两个方面的含义,即:,统计分组,对总体而言,即将总体区分为性质不同的若干组成部分,是,“,合,”,即将性质相同的总体单位合为一组,是,“,分,”,对总体单位而言,2026/1/27 周二,第十四页,共101页。,(二)统计分组的作用,1.,划分社会经济现象的类型;,分类前,25,33%,分,类,后,25,42,2026/1/27 周二,第十五页,共101页。,2.,研究总体的内部结构和比例关系;,按考分 分 组,学生,人数,比重,%,50,60 60,70 70,80 80,90 90,100,合 计,这五个组反映了学生考试成绩的不同类型,统计各组人数后,可以计算出比重,反映出学生成绩的构成情况。,2026/1/27 周二,第十六页,共101页。,企业按商品销售额分组,(万元),企业单位数,(个),流通费用率,(),400,以下,400,500,500,600,600,800,800,1000,1000,以上,3,10,15,8,7,2,13.84,13.09,12.66,11.94,11.23,10.28,结论:统计分组,是对总体认识深化的手段,它是一切统计研究的基础,应用于统计工作的全过程,是统计研究的基本方法。,某地区,45,个商业企业销售额和流通费用率分组资料,分析:销售额的规模和流通费用率的关系,。,3.,揭示社会经济现象之间的相互依存关系。,2026/1/27 周二,第十七页,共101页。,分组标志是在统计分组时所采用的标志,是分组的标准和依据。选择分组标志的原则有:,必须根据统计研究的目的选择分组标志。,(三)统计分组的要求,必须选择能够反映现象本质的分组标志。,要结合现象所处的具体 条件选择分组标志。,统计分组的关键是选择合适分组标志和正确划分各组界限。,讨论:在研究企业规模的大小和企业经济效益的关系时,采用什么标志分组反映企业规模比较好?,根据企业研究目的和企业的类型选择分组标志,如企业的类型可以分为劳动密集型、资本密集型和技术密集型,可以分别采用职工人数、资产总额和劳动成果等标志作为分组标志。,2026/1/27 周二,第十八页,共101页。,(四)统计分组的种类,按分组标志的性质不同分,按品质标志分组,按数量标志分组,按分组标志的多少及排列不同分,简单分组,复合分组,2026/1/27 周二,第十九页,共101页。,(,1,)简单分组:,即对总体,只按一个标志进分组。,例如:,企业按经济类型分组,国有企业,集体企业 个体企业,其它企业,男生,女生,学生按性别分组,2026/1/27 周二,第二十页,共101页。,(,2,)复合分组:,即对同一总体同时,按两个或两个以上标志,层叠起来,进行的分组。,学生按年级、性别分组,一年级,二年级,男生 女生,男生 女生,例如:,2026/1/27 周二,第二十一页,共101页。,统计分组体系:,是根据统计分组的要求,对同一总体进行多种不同分组而形成的体系,体系中的各种分组相互联系、相互补充,以加深对总体的认识,。,分组体系,有,平行分组体系,和,复合分组体系,两种。,2026/1/27 周二,第二十二页,共101页。,平行分组体系:,对,同一总体选择两个或两个以上的标志分别进行简单分组,就形成平行分组体系,。,工业企业平行分组体系图,例:,全国,工业,企业,按轻重,工业分,按企业,生产,规模分,按经济,类型分,轻工业,重工业,特大型,企业,大型,企业,中型,企业,小型,企业,国有,工业,企业,集体,工业,企业,其他,工业,企业,2026/1/27 周二,第二十三页,共101页。,复合分组体系:,对,同一总体选择多个复合分组,组成的分组体系就是复合分组体系。,复合分组与复合分组体系,例:,货运量,总计,铁路,公路,中央,地方,中央,地方,水路,中央,地方,货运量,总计,铁路,公路,中央,地方,中央,地方,2026/1/27 周二,第二十四页,共101页。,(,3,)按品质标志分组,品质标志分组,就,是用反映事物的属性、性质的标志进行分组。,国民经济按产业分组:,第一产业,第二产业,第三产业,人口按性别分组:男性 女性,品质标志分组一般比较简单,,但是有的分组标志的表现却较复杂,不易划分各组,如产品按用途分组、商品零售额按城乡分组、工业部门的细分类等,为此有关部门制定了相应的统计分类标准。,用文字来表示各组性质上的差别,2026/1/27 周二,第二十五页,共101页。,数量标志分组,,即,变量分组,。,例如,,按考分分组,(分),用数量来表示各组性质上的差别,60,以下,60,70 70,80 80,90 90,100,(,4,)按数量标志分组,即通过数量的变化来区分各组质的差别,而不是单纯的数量差别。,即要以什么样的数量作为划分标准。是单项式或是组距式?如果是组距式分组还要确定组距、组数、等距或不等距、组限等内容,第一,明确分组的目的,,.,第二,采用适当的分组形式,,注意:,2026/1/27 周二,第二十六页,共101页。,(,一,),频数分布概念和种类,在统计分组的基础上列出各组的总体单位数的数列,,或频数分布数列。反映了总体单位在各组的分布情况。如:,频数分布,:,按性别 分 组,男 生 女 生,合 计,按考分 分 组,50,60 60,70 70,80 80,90 90,100,合 计,频数,(人),频率,(),20,30,60,40,50,100,5,人数,(人),频率,(),10,30,10,15,18,50,2,36,4,20,100,二、频数分布数列(次数分布),2026/1/27 周二,第二十七页,共101页。,频数分布数列的构成要素,构成要素,各组的名称或变量值,各组频数,或,频率(次数或比重),频数:,频率:,即分布在各组的单位数。,即各组单位数在总体单位数中所占的比重。,2026/1/27 周二,第二十八页,共101页。,品质数列,分布数列种类,单项式变,量数列,组距式变数列,变量数列,等距数列,不等距数列,频数分布数列的种类,2026/1/27 周二,第二十九页,共101页。,按,品质标志分组,所形成的分配数列称为,品质分布数列。,组的名称,为分类数据和定序数据的表现。,按职业分组,人数,(人),频率,(),运动员,演员,歌手,导演,组合,4,15,6,3,2,13.3,50.0,20.0,10.0,6.7,合计,30,100,例:,品质分布数列,某年中国前,30,位名人职业频数分布表,组的名称为,:,分类,数据,表现,2026/1/27 周二,第三十页,共101页。,(,先确定分组,再汇总出各组频数,即单位数,),资料:某年中国名人前,30,位的职业,运动员,演员,运动员,演员,歌手,导演,演员,歌手,演员,演员,演员,演员,歌手,演员,演员,运动员,运动员,导演,演员,演员,演员,组合,组合,演员,歌手,歌手,演员,演员,歌手,导演,中国,30,位名人职业频数汇总表,职业,运动员,演员,歌手,导演,组合,合计,划记号,频数,4,15,6,3,2,30,品质分布数列的编制,将此表整理后即得到下一页的频数分布表,2026/1/27 周二,第三十一页,共101页。,一般来说品质数列较容易编制,它通常能准确地反映总体的分配特征,一旦分组标志确定以后,,其分布数列的形式是唯一的。,说明:,(,1,)对汇总表加以整理,去掉划记号的过程,计算出各组的频率,就得到,某年中国前,30,位名人职业频数分布表,;,(,2,)划记号属于手工汇总方法。,汇总各组单位数也可以用计算机进行汇总。(方法见本章附录部分),按职业分组,人数,(人),频率,(),运动员,演员,歌手,导演,组合,4,15,6,3,2,13.3,50.0,20.0,10.0,6.7,合计,30,100,某年中国前,30,位名人职业频数分布表,2026/1/27 周二,第三十二页,共101页。,(二)变量数列的编制,1,、单项式变量数列的编制,单项式变量数列,(单项数列)指每个组只用一个变量值编制的次数分布数列。,应用条件:,变量值变动范围不大的离散型变量。,某些取整数的连续型变量(如年龄),如果变量值的种数不多时,也可编制单项式数列。,2026/1/27 周二,第三十三页,共101页。,【,例,】,己知某车间有,24,名工人,其某日的日产量(件)分别是:,20,,,23,,,20,,,24,,,23,,,21,,,22,,,25,,,26,,,20,,,21,,,21,,,22,,,22,,,23,,,22,,,22,,,24,,,25,,,21,,,22,,,21,,,24,,,23,。,要求:编制变量数列。,分析:,日产量计量单位为件,属于离散型变量,且变量值变化范围不大,只有,7,种,因此适合编制单项式变量数列。,编制方法:,先找出日产量的具体变量值,每种变量值为一组,分为,7,组,然后汇总出各组的人数。即得到单项数列。,日产量(件),X,工人数(人,),f,20,21,22,23,24,25,26,3,5,6,4,3,2,1,合计,24,2026/1/27 周二,第三十四页,共101页。,2,、组距式变量数列的编制,组距式变量数列,指每个组的变量值用一个区间来表现所编制的次数分布数列。(组距数列),应用条件:,变量为连续变量,,或,变量不同取值个数较多的离散变量。,2026/1/27 周二,第三十五页,共101页。,例如:,企业按人数分组,499,及以下,500,999,1000,2999,3000,及以上,工人按工资分组,600,700,700,800,800,1200,1200,1500,(人数为离散型变量),(工资额为连续型变量),2026/1/27 周二,第三十六页,共101页。,1,499,500,999,1000,2999,3000,3499,600,700,700,800,800,1200,1200,1500,组限:,组距分组中,每一区间两端的值为组限。,每一组中的最大变量值称为,上限,,,每组最小变量值称为,下限,。,工人按工资分组:,企业按人数分组:,连续组距(重叠组限),不连续组距(不重叠组限),组距式分组中的有关概念,(人数为离散型变量),(工资额为连续型变量),重叠组限在统计时遵循,“,上限不在内,”,的原则。,2026/1/27 周二,第三十七页,共101页。,组限的划分方法,不重叠组限,重叠组限,(只适用于,离散型变量,),(适用于,连续型变量,和,离散型变量,),企业按人数分组:,499,及以下,500,999 1000,2999 3000,及以上,(不重叠组限),企业按人数分组:,500,以下,500,1000 1000,3000 3000,及以上,(重叠组限),例如:,若,第一组出现,“,以下,”,或,最末组出现,“,以上,”,字样的组称为,开口组,,否则称为闭口组。,2026/1/27 周二,第三十八页,共101页。,组数:,是指在组距分组中,将全部变量值划分为多少组(分组的数目)。,全距:,所有变量值中的最大值与最小值之差。,组距:,是指每组变量值的变动范围。,组距,=,本组上限,前组上限,(通用公式),组距,=,本组上限,本组下限,(重叠式组限),组距与组数的关系:,2026/1/27 周二,第三十九页,共101页。,组中值,组中值,是指组距数列中各组上限和下限,之间的,中点数值,。,注意:,组中值用来代表各组标志值的平均水平,,假定一,组内各个标志值呈,均匀分布,。,考生按成绩分组,50,60,60,70,70,80,80,90,90,100,55,75,65,85,95,组中值,人数,5,15,18,10,2,2026/1/27 周二,第四十页,共101页。,首组组中值,=,首组上限,相邻组组距的一半,=,末组下限,+,相邻组组距的一半,末组组中值,50,10,2,100,+,10,2,例如:,.,首组:,末组:,按考分分组 组中值,50,60 55 60,70 65 70,80 75 80,90 85 90,100 95,50,以下,100,以上,45,105,开口组,组中值的确定,2026/1/27 周二,第四十一页,共101页。,组距数列的编制步骤及注意问题:,己知某年某连锁超市,50,个网点商品销售额的数据如下,(单位:百万元):,7.4 12.6 29.0 2.0 12.4 7.0 14.8 17.5 15.0 18.2 18.7 15.5 12.8 26.0 17.3 8.3 14.7 12.0 3.5 6.8 25.0 19.3 6.4 4.0 11.9 8.5 13.2 14.5 17.1 15.6 13.4 4.5 9.5 20.0 15.7,要求根据上述资料编制变量数列,反映不同销售水平的网点分布情况。,【,例,】,2026/1/27 周二,第四十二页,共101页。,第一,将所有变量值排序,计算全距,R,;,第二,确定组数及组距;,注意:按实际惯例,组数一般确定在,10,个以内。,分析:,销售额计量单位为百万元,属于连续型变量,且变量值变化范围较大,因此适合编制组距式变量数列。,2026/1/27 周二,第四十三页,共101页。,也可按经验公式确定组数:统计学家Sturges提出的经验公式来确定。,根据这一公式,可以得出如下表的组数参考标准:,分组组数参考表,n,15,24,25,44,45,89,90,179,180,359,k,5,6,7,8,9,根据这两种方法,本例资料可确定为,7,组左右。,2026/1/27 周二,第四十四页,共101页。,确定组数及组距的原则:,一是要根据现象的性质和特点确定;,二是要根据原数据的分布特征及集中趋势确定;,三是要注意组数既不能太多,也不能太少,要以体现组间差异与反映总体分布特征为标准。,当组数确定了,组距也随之确定。在确定时组数和组距两者要联系考虑。,组距通常以,5,或,10,的整数倍为宜。,R,组数(,K),组距,(d),2026/1/27 周二,第四十五页,共101页。,具体要,以客观反映总体分布特征,为原则,,,当变量分布比较均匀时,可采用,等距数列,;,当变量分布很不均匀,或者变量分布具有某种自身特殊规律时,应该采用,异距数列,。,例如,对人口疾病或死亡率研究中的年龄分组就必须采用异距分组:,1,岁以下可按月分组;,110,岁按年分组;,1120,岁按,5,年分组;,2160,岁按,10,年分组;,60,岁以上按,5,年分组。,确定组距有两种形式,即等距数列和异距数列。,2026/1/27 周二,第四十六页,共101页。,第三,确定组限;,1,、对于离散变量,相邻组组限可以间断,也可重叠;对于连续变量,相邻组组限必须重叠;,2,、在汇总时采用,“,上组限不计入,”,原则;,3,、首末两组可使用,“,以下,”,及,“,以上,”,的开口组。,组限的表示方法,结合上述各项原则要求,本数据资料采用等距数列、开口组、组数为,6,个组。具体形式如下表:,2026/1/27 周二,第四十七页,共101页。,第四,汇总出各组单位数,整理成频数分布表。,销售额,(百万元),划记号,网点数,5,以下,5,10,10,15,15,20,20,25,25,以上,4,10,16,13,4,3,合计,50,设计汇总表手工汇总,汇总后整理,某连锁超市,50,个网点商品销售额频数分布表,销售额,(百万元),网点数,(个),频率,(,%,),5,以下,5,10,10,15,15,20,20,25,25,以上,4,10,16,13,4,3,8,20,32,26,8,6,合计,50,100,2026/1/27 周二,第四十八页,共101页。,52,48,54,61,47,36,51,58,43,39,69,47,49,68,43,47,59,54,68,46,53,34,28,20,38,41,73,47,51,78,【,例,】,某汽车公司,1,月全国,30,家经销单位汽车销售情况,根据上表的资料,对这,30,家经销单位按销售量(辆)分组,编制频数分布表。,2026/1/27 周二,第四十九页,共101页。,分析,汽车销售量为离散变量,变量值的种类数较多,所以适合编制组距数列。,1,、确定组数,根据,Sturges,提出的经验公式:,2,、确定组距:,3,、确定组限:(将确定组距和组限步骤结合考虑),4,、编制频数分布表,2026/1/27 周二,第五十页,共101页。,汽车销售频数分布表,销售量,(辆),频数,(家),频率,(,%,),2029,3039,4049,5059,6069,70,79,2,4,10,8,4,2,6.7,13.3,33.3,26.7,13.3,6.7,合计,30,100.0,2026/1/27 周二,第五十一页,共101页。,按顺序列出的各组变量值及相应的频率,即成为,变量的频率分布。,按考分分组,人数,(人),频率,(),50,60 60,70 70,80 80,90 90,100,5 15 18 10 2,10 30 36 20 4,合 计,50,100,例,:,注意:,任何一个,频率分布,都必须,满足两个条件:,一是各组频率,0,;二是各组频率之和等于,100,。,(三)频率分布,2026/1/27 周二,第五十二页,共101页。,累计频数与累计频率分布,1.,向上累计:,是指将各组次数或频率由,变量值低的组,向,变量高的组,累计,,以表明,各组上限以下,的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多大。,2.,向下累计:,是指将各组次数或频率,由,变量值高的组,向,变量值低的组,逐组,累计,,以表明,各组下限以上,的单位数有多少,以及这些单位数占总体单位数的比重(频率)有多大。,累计分布有,向上累计,和,向下累计,两种:,例:,.,2026/1/27 周二,第五十三页,共101页。,按考分,分 组,人数,(人),频率,(),50,60,60,70,70,80,80,90,90,100,5,15,18,10,2,10,30,36,20,4,合 计,50,100,某班,“,统计学,”,考分分布数列,向上累计,频数,频率,(),5,20,38,48,50,10,40,76,96,100,向下累计,频数,频率,(),50,45,30,12,2,100,90,60,24,4,向上累计:,如,,第一组说明,60,分以下有,5,人,占学生总数的,10,;第二组说明,70,分以下有,20,人,占学生总数的,40,。,向下累计:,如,,第五组说明,90,分以上有,2,人,占学生总数的,4,;第四组说明,80,分以上有,12,人,占学生总数的,24,。,2026/1/27 周二,第五十四页,共101页。,根据频数分布数列资料,横轴表示变量值,纵轴表示各变量值出现的次数。,在坐标系中找出相应的点,然后将各点顺次连接,所形成的形状。对这些形状进行分类,就形成了次数分布的基本形态。,(四)频数(次数)分布的基本形态,频数分布有三种基本形态:,钟型分布、型分布和,J,型分布。,.,2026/1/27 周二,第五十五页,共101页。,钟型分布的,特征,是,中间变量值出现的次数多,两端变量值(即大的变量值和小的变量值)出现的次数少,即,“,中间大,两头小,”,。,1.,钟型分布:,f,x,钟型分布,(正态分布),即其分布曲线形如一口古钟,故称钟型分布例如,,如,人的身高、体重、职工工资、农作物亩产量、市场价格、学生的考分等现象都属于,钟型分布,,又分为以下两种:,正态分布,和,偏态分布。,2026/1/27 周二,第五十六页,共101页。,正态分布:,中间变量值分布的次数最多,两侧变量值分布的次数随着与中间变量值距离的增大而渐次减少,并且围绕中心变量值两侧呈对称分布。,偏态分布:,当变量值存在极大值时,,次数分布曲线会较正态分布向右延伸,这种分布称为,右偏分布,。,右偏分布,当变量值存在极小值时,,次数分布曲线就会较正态分布向左延伸,这种分布称为,左偏分布,。,左偏分布,x,f,f,x,2026/1/27 周二,第五十七页,共101页。,它与钟型分布正好相反,其特点是:越,靠近中间变量值分布次数较少;越靠近两端变量值分布的次数较多,呈现出,“,中间小、两头大,”,的特征。,2.,型分布:,U,型分布,x,f,U,型曲线又称生命曲线或浴盆曲线,人和动物的死亡率近似服从,U,型曲线分布,2026/1/27 周二,第五十八页,共101页。,其,分布特征呈现,“,一头大、一头小,”,的特征,,即形如字母,J,字。,J,型分布有两种类型,即:,正,J,型分布,与,反,J,分布,。,3.,J,型分布:,x,反,J,型分布,x,f,f,正,J,型分布,常见的例子是西方经济学中的供给曲线如,正,J,型,,随着价格的增加,供给量在不断增加;需求曲线如,反,J,型,,随着价格的增加,需求量在不断减少。,2026/1/27 周二,第五十九页,共101页。,第三节 统计数据的显示,一、统计表,二、统计图,2026/1/27 周二,第六十页,共101页。,一、统计表,1,、统计表的概念,狭义:以纵横交叉的线条所形成的表格来表现统计整理资料的形式。,广义:包括统计工作各个阶段中所用的一切表格,如调查表、整理表、分析表。,2026/1/27 周二,第六十一页,共101页。,第三章 数据分布特征的描述,第三节 统计表与统计图,2,、统计表的作用,能使统计资料条理化;,简明、易懂,节省篇幅;,便于比较,便于计算;,便于检查完整性和正确性。,2026/1/27 周二,第六十二页,共101页。,横,行 标 题,总标题,纵栏标题,指 标 数 值,主词,宾词,3,、统计表的构成,2026/1/27 周二,第六十三页,共101页。,4,、统计表的种类,统计表按主词的分组情况可分为三种:,简单表:对主词不分组的统计表。,按总体单位名称或时间排列。如,我国三个城市的人口数,(1990,年,7,月,1,日,0,时,),城 市,人口数,(,人,),较,1982,年,7,月,1,日,0,时,增长,%,北京市,10819407,17.21,天津市,8785402,13.15,上海市,13341896,12.50,我国1998-2002拥有 户数(万户),年 份,固定电话,移动电话,1998,8742,2386,1999,10872,4330,2000,14483,8453,2001,18037,14522,2002,21442,20662,2026/1/27 周二,第六十四页,共101页。,分组表:主词进行简单分组的统计表。,(,按一个标志分组,),某班学生按考试成绩分组表,按成绩分组(分),学生数(人),比率(,%,),60,以下,60,70,70,80,80,90,90,100,2,6,15,12,5,5.0,15.0,37.5,30.0,12.5,合计,40,100.0,2026/1/27 周二,第六十五页,共101页。,复合表:主词进行复合分组的统计表。,(,主词按两个或两个以上标志层叠分组,),按技术等级、性别分,人数(人),高级,男,女,中级,男,女,初级,男,女,8,6,2,64,48,16,147,102,45,合 计,219,某企业技术人员情况统计表,2026/1/27 周二,第六十六页,共101页。,按月工资分组,按性别分(人,),按级别分,小计,男,女,小计,技工,学徒工,300,以下,300,400,400,500,500,600,600,700,700,以上,4,16,22,15,10,5,1,6,10,11,8,4,3,10,12,4,2,1,4,16,22,15,10,5,0,2,4,5,8,5,4,14,18,10,2,0,合计,72,40,32,72,24,48,宾词栏的简单设计,宾词栏的复合设计,按月工资分组,按级别分(人),总计,技工,学徒工,小计,男,女,小计,男,女,性别和级别并列,2026/1/27 周二,第六十七页,共101页。,(,1,)总标题应注明时间、总体范围和内容;,(,2,)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明;,(,3,)表中的上下两条横线一般用粗线,其他线用细线;,(,4,)通常情况下,统计表的左右两边不封口;,(,5,)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一;,(,6,)对于没有数字的表格单元,一般用,“,”,表示;,(,7,)必要时可在表的下方加上注释。,科学、实用、简练、美观,5,、统计表的,设计要求,2026/1/27 周二,第六十八页,共101页。,二、统计图,统计图的特点:直观、醒目、易于理解,统计图是用点、线条、面积等方法描述、显示统计数据的一种形式。,注意:统计图是根据实际资料按比例画出的。,现在大多是利用计算机软件制作的。,组成:坐标系、图形、图例,2026/1/27 周二,第六十九页,共101页。,2026/1/27 周二,第七十页,共101页。,统计图的基本类型,2026/1/27 周二,第七十一页,共101页。,1,、条形图,(bar Chart),(,1,)用宽度相同的条形的高度或长短来表示各类别数据的图形,(,2,)有单式条形图、复式条形图等形式,(,3,)主要用于反映分类数据的频数分布,(,4,)绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图,2026/1/27 周二,第七十二页,共101页。,2,、饼图,(pie Chart),(,1,)也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;,(,2,)主要用于表示总体或样本中各组成部分所占的比例,对于研究结构性问题十分有用;,(,3,)绘制圆形图时,总体中各部分所占的百分比用园内的各个扇形角度表示,这些扇形的中心角度,是按各部分数据百分比占,360,度的相应比例确定的。,第七十三页,共101页。,3,、环形图,(annular chart),(,1,)环形图中间有一个,“,空洞,”,,总体中的每一部分数据用环中的一段表示;,(,2,)环形图与圆形图类似,但又有区别:,圆形图只能显示一个总体各部分所占的比例;,环形图则可以同时绘制多个总体的数据系列,每一个总体的数据系列为一个环。,(,3,)环形图可用于结构比较研究;,(,4,)环形图主要用于展示分类和顺序数据。,8%,36%,31%,15%,7%,33%,26%,21%,13%,10%,非常不满意,不满意,一般,满意,非常满意,甲乙两城市家庭对住房状况的评价,第七十四页,共101页。,4,、直方图,(histogram),(,1,)用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布;,(,2,)在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图;,(,3,)直方图下的总面积等于,1,。,第七十五页,共101页。,140,150,210,某电脑公司销售量分布的直方图,190,200,180,160,170,频,数,(,天,),25,20,15,10,5,30,220,230,240,第七十六页,共101页。,直方图与条形图的区别:,(,1,),条形图是用条形的长度,(,横置时,),表示各类别频数的多少,其宽度,(,表示类别,),则是固定的;,(,2,),直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;,(,3,),直方图的各矩形通常是连续排列,条形图则是分开排列;,(,4,),条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。,第七十七页,共101页。,5,、折线图,(frequency polygon),(,1,)折线图也称频数多边形图;,(,2,)是在直方图的基础上,把直方图顶部的中点,(,组中值,),用直线连接起来,再把原来的直方图抹掉;,(,3,)折线图的两个终点要与横轴相交,具体的做法是,第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴;,折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的。,第七十八页,共101页。,140,150,210,某电脑公司销售量分布的折线图,190,200,180,160,170,220,230,240,频,数,(,天,),25,20,15,10,5,30,第七十九页,共101页。,顺序数据的频数分布表,【,例,】,在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查,300,户,其中的一个问题是:,“,您对您家庭目前的住房状况是否满意?,1,非常不满意;,2,不满意;,3,一般;,4,满意;,5,非常满意。,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),百分比,(%),向上累积,向下累积,户数,(,户,),百分比,(%),户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,24,132,225,270,300,8.0,44.0,75.0,90.0,100.0,300,276,168,75,30,100.0,92,56,25,10,合计,300,100.0,第八十页,共101页。,顺序数据的频数分布表,乙城市家庭对住房状况评价的频数分布,回答类别,乙城市,户数,(,户,),百分比,(%),向上累积,向下累积,户数,(,户,),百分比,(%),户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,21,99,78,64,38,7.0,33.0,26.0,21.3,12.7,21,120,198,262,300,7.0,40.0,66.0,87.3,100.0,300,279,180,102,38,100.0,93.0,60.0,34.0,12.7,合计,300,100.0,第八十一页,共101页。,顺序数据的图示,累计频数分布图,24,300,132,225,270,0,100,200,300,400,非常,不满意,不满意,一般,满意,非常,满意,累,积,户,数,(户),(a),向上累积,276,168,30,300,75,0,100,200,300,400,非常,不满意,不满意,一般,满意,非常,满意,累,积,户,数,(户),(b),向下累积,甲城市家庭对住房状况评价的累积频数分布,第八十二页,共101页。,6,、茎叶图,(stem-and-leaf display),(,1,)用于显示未分组的原始数据的分布,(,2,)由,“,茎,”,和,“,叶,”,两部分构成,其图形是由数字组成的,(,3,)以该组数据的高位数值作树茎,低位数字作树叶,(,4,)树叶上只保留一位数字,(,5,)对于,n(20,n,300),个数据,茎叶图最大行数不超过,L=10 lg(n),(,6,)茎叶图类似于横置的直方图,但又有区别,直方图可观察一组数据的分布状况,但没有给出具体的数值,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,第八十三页,共101页。,未分组数据,茎叶图,第八十四页,共101页。,未分组数据,扩展的茎叶图,第八十五页,共101页。,7,、箱线图,(box plot),(,1,)用于显示未分组的原始数据的分布;,(,2,)箱线图由一组数据的,5,个特征值绘制而成,它由一个箱子和两条线段组成;,(,3,)其绘制方法是:,首先找出一组数据的,5,个特征值,即最大值、最小值、中位数,Me,和两个四分位数,(,下四分位数,Q,L,和上四分位数,Q,U,),连接两个四分(位)数画出箱子,再将两个极值点与箱子相连接。,第八十六页,共101页。,未分组数据:单批数据箱线图,(,箱线图的构成,),中位数,4,6,8,10,12,Q,U,Q,L,X,最大值,X,最小值,简单箱线图,第八十七页,共101页。,单批数据箱线
展开阅读全文