1、请您按击鼠标,编辑标题文的格式。,02/25/07,*,请您按击鼠标,编辑大纲正文格式。,第二个大纲级,第三个大纲级,第四个大纲级,第五个大纲级,第六个大纲级,第七个大纲级,第八个大纲级,第九个大纲级,请您按击鼠标,编辑标题文的格式。,请您按击鼠标,编辑大纲正文格式。,第二个大纲级,第三个大纲级,第四个大纲级,第五个大纲级,第六个大纲级,第七个大纲级,第八个大纲级,第九个大纲级,02/25/07,*,统计学,第四章统计整理,第一节统计整理概述,一、,统,计整理的概念和内容,、,统,计整理的概念:对调查取得的原始资料进行分类和汇总(或对次级资料进行再加工),为统计分析提供系统化条理化统计资料的工
2、作过程就是统计整理。,2,、统计整理的内容,()统计,分组,(关健),()统计,汇总,(中心),()编制,统计表,(手段),二、统计整理的程序,1,、统计整理的方案,2,、统计资料审核,3,、统计资料 的分组和汇总,4,、编制统计图表,5,、统计资料的积累和保管,三、统计资料汇总的方法(略),第二节 统计分组,一、统计分组的,概,念,统计分组:按照选定的变异,标志,,把总体划分为若干个不同性质的类型组。使组内同质性,组间差异性。,统计分组对总体是“分”。对总体单位是“合”,一 统计分组的概念和作用,二、统计分组的,作,用主要有三个方面:,划分社会经济现象的类型。,类型分组:,1 033.5,9
3、38.8,936.5,886.3,林业,27 390.8,2 971.1,8 454.6,14 931.5,2019,年,26 179.6,24 915.8,24 519.1,合计,2 815.0,2 712.6,2 539.0,渔业,7 963.1,7 393.1,6 997.6,牧业,14 462.8,13 873.6,14 106.2,农业,2019,年,2000,年,2019,年,类型,例,单位:亿元,例,100.0,33.0,49.4,17.6,2019,100.0,100.0,100.0,100.0,合计,33.2,32.1,30.9,30.1,第三产业,50.9,49.3,50.
4、0,49.5,第二产业,15.9,18.6,19.1,20.4,第一产业,2000,2019,2019,2019,年份,(,2,)结构分组:,研究总体的结构,“九五”期间我国国内生产总值构成(,%,),例,620,680,12,5,16-18,18-20,540,16,14-16,460,10,12-14,400,7,10-12,平均收获率,(,斤,/,亩,),地块数,耕作深度分组,(cm),(,3,)分析分组:,分析现象之间的数量依存关系,某乡某种农作物的耕作深度与收获率的关系,三、统,计分组的原则,1,、,正确选择分组,标志,根,据研究问题的目的来选择分组标志。,要,选择最能反映被研究现象
5、本质特征的标志作为分组标志。,要,结合现象所处的具体历史条件或经济条件来选择分组标志。,2,、,正确划分各组,界限,(,1,)分组界限不能过大或过小,(,2,)分组不能遗漏,(,3,)分组不能重复,02/25/07,1,、品,质标志分组,品质分组,反映事物属性差异,四、,统计分组的种类及其方法,(一),按,分组标志的不同分为:,(,1,)单变量分组,每组只有一个标志值,运用于变量值少,变动幅度小的情况,如家庭人数分组。,(,2,)组距式分组,每组若干个标志值,运用于变量变动幅度大、项目多的分组。如:按月工资(元)分组(,600,650,,,650,700,,,700,750,,,)连续型变量只
6、能组距式分组,2,、数,量标志分组,变量分组,反映事物数量差异,例,1,单变量分组,某厂第二季度工人平均日产量,20,6,115,合计,40,5,30,4,15,3,10,2,工人人数,(,人,),工人平均日产量,(,件,),例,2,组距式分组,620,680,12,5,16-18,18-20,540,16,14-16,460,10,12-14,400,7,10-12,平均收获率,(,斤,/,亩,),地块数,耕作深度分组,(cm),某乡某种农作物的耕作深度与收获率的关系,在组距式分组中,组限,组,距两端的数值。分为上限和下限。,组距,某,一组的上限和下限的距离,分等距和异距,全距,分,组数列中
7、最大值的上限与最小值的下限之差。,组中值,每组,的上限和下限的中间值。,因数列两端组限形式不同分:,开口组,:最低组与最高组不封口。例:成绩,60,分以下,,90,分以上。,闭口组,:例,40-60,分,,90-100,分。,组距,=,上限,-,下限,关于组中值的计算,闭口组的组中值求法:,开口组的组中值求法:,重叠组限,若将考试成绩仅分为不及格与及格两组,,则可编成如下组距数列:其中,60,分为,重叠,组限。,某班学生统计学考试成绩表,40,合计,38,60-100,2,56-60,人数,(,人,),考试成绩,(,分,),上组限不在内,适,用于越大越好的变量,如产值。,适,用于越小越好的变量
8、如成本。,下组限不在内,对连续变量,相邻两组的组限应重叠。在登记次数时,习惯上遵守:,对离散型变量,组与组之间是间断的,可用不重叠组限,(二),按,分组标志的多少分:,无论是简单分组还是复合分组,都只能对社会经济现象从一个方面或几个方面进行观察和分析研究,而对社会经济现象需要从各方面进行观察和分析研究,这就需要采用一系列相互联系、相互补充的标志对现象进行多种分组,这些分组结合起来构成一个体系,叫做分组体系。,1,、简,单分组,按一个标志对总体进行分组。,2,、复,合分组,按两个或两个以上标志重叠起来对总体进行分组。,平,行分组体系:二个(二个以上)的简单分组并列起来形成的分组体系。,复,合分
9、组体系:二个(二个以上)的复合分组形成的分组体系。,02/25/07,第三节 次数分布,一 次数分布的概念,在统计分组的基础上,形成总体单位在务组间的分布,称之为次数分布数列或频数分布数列。,构成次数分布的二个要素是,分组标志,和,总体单位数,(,次数,)。各组次数与总次数之比又称为,频率,。,1.,概念,例,100.0,530,合 计,25.1,133,1500,以上,35.3,187,1000-1500,39.6,210,1000,以下,占总数比重,(%),工人数,(,人,),月工资分组,(,元,),组别,(,变量,),次数,(,频数,),频率,(,比率,),2.,种类,以分组标志特征不同
10、分为:,品质标志次数分布数列,数量标志次数分布数列,例,某班学生的性别构成情况,100,40,合计,25,10,女,75,30,男,比重,(%),绝对数人数,按性别分组,组别 次数 频率,品,质分布数列,二、,变,量数列:,是数量标志次数分布数列的简称,单,项变量数列,(单项数列),一个变量值代表一个组,适用于,离散,变量。,组,距变量数列,(组距数列),按变量值的变动区间代表一个组。适用于,连续,变量或变量值的数目多,变动范围较大的,离散,变量。,单项数列见例如下:,某厂第二季度工人平均日产量,20,6,115,合计,40,5,30,4,15,3,10,2,工人人数,(,人,),工人平均日产
11、量,(,件,),例 组距数列,100.0,530,合 计,25.1,133,1500,以上,35.3,187,1000-1500,39.6,210,1000,以下,占总数比重,(%),工人数,(,人,),月工资分组,(,元,),数量标志,(,变量,),次数,(,频数,),频率,(,比率,),从另一角度看,变量数列分为:,连,续,型,变量数列,可有小数,采取组距式。,离散,型,变量数列,整数,采取单项式或组距式,(,例:一个地区的企业按职工人数分组,),。,三、变量数列的编制步骤:,1,、排序求全距,2,、确定组数,3,、确定组距,4,、确定组限,(,1,)关于组数,参考公式;,组,数,=1+3
12、322,N,N,为数据的个数。,当数据较少,值过大,缩小取整,当数据较多,值过小,扩大取整,组,距,=,全距,/,组数 (一般取,5,或,10,的倍数),组,距与组数的关系,(,2,),关,于组限问题,一般用整数表示,用,5,或,10,的倍数,最小组下限略小于最小的值,最大组的上限略大于最大的变量值,连续变量用重叠组限,三、编制次数分布表,向,上,累计次数,(,频率,),即较小制累计。就是将各组次数(频率)由变量值小的组向变量值大的组累计。每一组的累计次数(频率)表示小于该组上限(变量值)的次数(频率)累计有多少。,向,下,累计次数,(,频率,),即较大制累计。就是将各组次数(频率)由变量值
13、大的组向变量值小的组累计。每一组的累计次数(频率)表示大于该组下限(变量值)的次数(频率)累计有多少。,例,20.0,8,100.0,40,20.0,8,90-100,-,-,-,-,100.0,40,合计,50.0,20,80.0,32,30.0,12,80-90,77.5,31,50.0,20,27.5,11,70-80,95.0,38,22.5,9,17.5,7,60-70,100.0,40,5.0,2,5.0,2,50-60,比率,(%),人数,(,人,),比率,(%),人数,(,人,),比率,(%),人数,(,人,),向下累计次数,向上累计次数,次 数,考分,某班统计学考试成绩次数分
14、配,P78,资料,第四节 统计数据 的表现一、统计表,一、统,计表的概念,1,、概,念 统计表是一表格,用来表现,统计资料的一种形式。,02/25/07,2,、构成,从,形式上看,:,统计表由总标题、横栏标题、纵栏标题、指标数值构成。,从,内容上看,:,统计表由主词和宾词两部分构成。,主词,统计表要说明的对象或总体。,宾词,用来说明总体的统计指标。,例,中型,2,职工人数,(,人,),合计,小型,大型,3,1,P,劳动生产率,(,元,/,人,),总产值,(,万元,),分组,2019,年某月某公司各企业劳动生产率统计表,单位,_,横,行,标,题,主词,宾词,总标题,纵栏标题,数据资料,(,指标数
15、值,),3,、统计表的种类,(,1,)按用途分:调查 表,汇总表,分析 表,(,2,)按统计数列 的性质分:,时间数列表,空间数列表,时空数列结合表,(,3,)按主词结构分:,简单表,简单分组表,复合分组表,02/25/07,某年某公司所属两企业自行车合格品数量表,12000,合 计,7000,乙厂,5000,甲厂,合格品数量(辆),厂别,例,某年某地区工业增加值和职工人数,4 500,4 400,小型,10 400,5 200,中型,7 500,7 300,大型,外商投资经营企业,10 050,4 200,小型,45 000,8 600,中型,13 800,9 750,大型,内资企业,职工人
16、数(人),增加值(万元),项目,例,4,、统计表的宾词设计,(,1,)平行分组设计:按不同的分组,标志平行排列设计。,(,2,)分组重叠设计:按两个或两个以上标,志进行复合分组,作重叠排列设计(,P85,)。,02/25/07,(,3,)统计表的技术要求,1.,总,标题须简明扼要表达出全表的内容;,2.,各,标题要确切反映表的内容,且表格安排合理;,3.,指,标数值要位数对齐,缺项补,0,。不得用同上、同下、同左、同右代替相同的数字。,4.,对,指标内容作必要说明时,可加注在表的下方;,5.,表,的上下边线(基线)用粗实线或双线,表的两边是开口式;,6.,纵,栏较多时编栏号,指标数值栏要注明计
17、量单位和资料表示的时间。,7.,表,中不允许有空格:若不需要此资料则用“,_”,,暂缺某资料则用“,”,总原则,:合理、科学、实用、简练、美观。,二、统计图,即用几何图形即统计图来表示次数分布,直方图,折线图,曲线图,1,、直方图,仍以上例考试成绩数据,画成如下直方图:,40,50,60,70,80,90,100,110,2,、折线图,在直方图的基础上连接各条形顶边的中点成折线图,如下图红笔围成。在折线图的基础上修匀为平滑曲线即为次数分布曲线图。,(对单项数列可直接绘制次数多边形图),40,50,60,70,80,90,100,110,折,线图还可用来表示,累计次数分布,(,仍以上例数据,),
18、3,、曲线图,是组数趋向于无限多时折线图的极限描绘,是一种理论曲线,其曲线的形态有各种不同的类型,主要有以下几种:,向下累计,向上累计,(,1,)钟型分布曲线,钟型分布的种类很多,主要有对称分布和非对称分布。在统计上具有重要意义的正态分布是一种理想的对称分布。,对称型,Y,Y,右偏型,(上偏型),左偏型,(下偏型),X,X,非对称分布,又称偏态分布曲线,或称偏态曲线,(,2,),U,型分布曲线,:其形状为两头大,中间小,J,型分配曲线,U,型分配曲线,(,3,),J,型分布曲线,有正,J,和反,J,之分如上图,还有双峰曲线,如下图,在社会经济统计中会遇到这样一类问题,即总体 的,标志总量在
19、总体各单位之间的配置是否均衡公平例如,社会资源的区域分配,市场产品在企业 间的分配,,利税收入在部门、地区分配等,(,4,)劳伦茨曲线,统计学家 劳伦茨用累计百分数曲,线来评价总体 标志总量在总体各单位间的配置是否,均衡、公平。这种曲线称为劳伦茨曲线。,劳伦茨在研究居民收入分配公平 程度时 把居民收入,数累计百分比与家庭户数累计百分比结合起来绘制实,际分配曲线用 于揭示居民收入分配的公平程度。,P87,02/25/07,(,5,)基尼系数,(劳伦茨系数),意大利经济学家基尼根据劳伦茨曲,线提出了定量测度收入分配平均程度的,方法。,基本公式,G=S,A,S,A,S,B,其中,G=0,分配绝对公平
20、G=1,分配绝对不公平,0G1,时,接近,0,赿平均,接近,1,差异越大,计算公式,G=(MWiVWi+1,MWi+1V,wi,),评价标准 合理值在,0.25,左右即在,0.2O.3,之间,我国评价标准是,G,0.2,为高度平均,0.2,G,0.3,为相对平均,0.3,G,0.4,为仍属合理,G,0.4,为不公平,02/25/07,一填空题,1,、,_,是统计工作的中间阶段,它是,_,继续,_,前提。,2,、按数量标志分组形成的分配数列,称为,_,它包括,_,和,_,两要素。,3,、用,_,代表各组的一般水平。,4,、组距数列中,组距的大小与组数的多少成,_,。,5,、统计表从形式上看,包
21、括,_,,,_,_,和,_,;从内容上看,包括,_,_,。,6,、统计分组的关健是,_,。,02/25/07,二判断题,1,、连续变量分组只能是组距式 (),2,、较小制累计次数表示大于该组变量值下限的,次数合计有多少 (),3,、洛伦茨曲线是采用次数分布曲线的形,式研究收入分配公平程度的一种方法(),4,、人口按年龄大小的分布呈正,J,分布(),5,、由于离散型变量取的是整数而不能取,小数,因此只能编制单项式分配数列(),02/25/07,三、单选题,1,、次数分布的构成要素是 (),A,分组标志和指标,B,分组标志和次数,C,数量分组标志数值和 频 数,D,品质分组标志值和频数,2,、某连
22、续变量数列,其末组为开口组,下限为,200,,又知其邻组的组中值为,170,则末组组中值为 (),A 260 B 230 C 215 D 185,3,、统计表从内容上看主要由()构,成,A,主词和宾词,B,各标题和数字,C,总体及分组,D,指标和指标数值,02/25/07,三、单选题,4,、简单分组与复合分组的根本区别是,(),A,分组标志的大小,B,分组标志的多少,C,分组标志是品质标志或数量 标志,D,所用统计表是简单表或复合表,5,、统计分组时,在全距一定的情况下,(),A,组距越大,组数越多,B,组距越大 组数越少,C,组距大 小与组数多少无关,D,组距大 小与组数多少成正比,02/2
23、5/07,四、多项选择,1,、统计分组的作用 (),A.,说明总体 基本情况,B.,区分经济类型,C.,研究内部结构,D.,分析现象之间依存关系,E.,揭示总体 变化趋势和规律,2,、统计表按主词是否分组可分为,(),A.,简单表,B.,一览表,C.,分组表,D.,复合表,E.,单一表,02/25/07,3.,下列那组资料可用劳伦茨曲线分析 (),A.,家庭人口数和收入数,B.,企业个数和企业 产值数,C.,学习分数和学生数,D.,科技收入额和科研机构数,E.,农业收入额和工业收入额,4.,下列那些属于连续变量次数分布数列(),A.,工人技术等级和全部工人数,B.,煤炭灰分程度和煤炭产量,C.
24、平均劳动生活率和工人数,D.,在校学生数和全市学生数,E.,产品品种和全部产品产量,02/25/07,5.,钟型分布是统计分布的一种常见形式,这种分布 (),A.,特征是:“中间小两头大”,B.,特征是 “中间大两头小”,C.,中间变量值分布次数多,两端分布次数 少,D.,中间变量值分布次数少,两端分布次数多,E.,有对称分布和非对称分布之分,6.,次数分布主要有以下类型 (),A.,钟型分布,B.,次数分布,C.U,型分布,D.O,型分布,E.J,型分布,02/25/07,五 填空,人数分组,(万人),频 数,(城市个数),频 率,(,%,),向上累计频率,(,%,),10,以下,1030
25、86,44.10,3050,21.84,50100,41,17.90,100200,94.32,200,以上,合计,229,100.00,02/25/07,定额,完成(,%,)分组,职工人,数(按生产人),频率,(,%,),次数,密度,较小制,累计次数,较大制累计频率,8090,6,90100,18,100120,24,120150,12,02/25/07,按行业分组,机构数,(个),技术转让成交额,(千元),农、林,1524,75931,工 业,1904,1493660,地质勘探,81,14790,建 筑,116,87277,交通运输,127,121576,商业饮食,29,2047,房地产,48,3805,卫生体育,354,13137,教育文化,34,2637,综合技术,647,390339,金融保险,4,964,其 他,65,30090,02/25/07,六 计算基尼系数,分析,1988,年我国技术,转成交额在各行业研究与开发机构之间,分布是否均衡?,七 见书,P93,第,3,题,02/25/07,产 量(件,),组中值,X,中,工人数,f,1020,2030,3040,4050,2,8,6,4,合计,02/25/07,






