1、营三章统计整理X统计审核与统计分组频数分布概念与编制M统计图与统计表2011经济学类1-5班第三章统计整理2013序舌:统计整理的内容:1.广义一-五个方面:审核、分组、汇总、制表、(资料)积累。2.狭义-统计分组。第一节统计审核与统计分组L薪箱的预处理;数据整理的先前步骤,包括 审核、筛选、排序等。2.统计审核的要求:原始数据-完整性(个体、项目是否遗漏)准确性(逻辑检查、计算检查)次级资料-完整性、准确性适用性(来源口径背景材料)时效性(时间概念)2011经济学类1-5班 第三章统计整理20133.错误数据、不符合要求数据且无法弥补,予以删除或择选;4.数据排序:定类数据-字母型(升序降序
2、).汉字型(笔画多少);定量数据-递增;递减。八统计分组概述:1.定义:把同质总体中的在某一标志下具有不同表 现的总体单位分开,将统计总体区分为若干组成 部分,从而正确地认识事物的本质及其规律性的 统计研究方法。三、统计分组方法:统计分组关键:选择分组标志;确定分组界限1.选择分组标志:分组依据,应当体现基本原则-一组内一致性;组间差异性;。围绕研究目的,力争反映现象的本质特征;按品质标志分组、按数量标志分组。2.确定分组界限:按品质标志分组-关于属性的不同表现的定义要 清晰,可按照国家的相关统一规定执行。按数量标志分组-将数值界限的确定与事物性质特征相结合。四、统计分组体系:1.两种分组:简
3、单分组一单一分组,按一个标志分组。复合分组-总体选择两个或两个以上标志,进行层叠分组。2.统计分组体系:采用一系列相互联系、相互补充 的标志对现象进行多种分组,以形成一个完整 的体系叫统计分组体系。分为.平行分组体系:同一总体的几个简单分组一一排列。复合分组体系:包含复合分组的体系。第二节频数分布概念与编制一频数分布概念:1.定义:在统计分组的基础上形成的,总体的 各个单位在各组间的个数分布,也称 次数分布,分配数列。频率:各组次数与总次数之比。2.意义:频数分布是统计整理的重要结果,可以 反映总体的结构分布状况和分布特征,对于统计分析是很重要的。3.种1及型类1-5班品质数列第三章条2数列
4、一变量数列分为单项式数列和组距式数列。单项式数列:各组以一个变量值为名称;适用:离散变量,数值变化幅度不大;组距式数列:各组以一个变量值的变化范围 为名称,简称组距数列;适用:变量取值个数多或变化幅度较大。4.几个名词:P52-55上限:各组最大变量值;下限:各组最小变量值;组距:各组上限减下限的差值;组中值:位于各组组限中点的数值;等距数歹各组组距相等的数列;异距数列:各组组距不等的数列;二频数分布编制:(一)数据的预处理:1.排序:常为升序,即由小到大2.计算:全距二最大值-最小值(二)确定数列形式:单项式数列(离散变量)组距式数列(离散变量或连续变量)(三)关于组距数列:1.确定组数:过
5、多(影响组间差异性)过少(影响组内一致性)Sturges提出的经验公式来确定组数Klg(2)或K=3,5,7 组2.确定组距:等距a全距/组数(数值分布均匀)异距总体数值分布不均匀3.确定组限:基本原则:体现组内一致性和组间差异性。离散变量:变量值为整数,相邻组的组限 可界定清楚。连续变量:前一组上限与后一组下限重叠,位于重叠处的数值习惯上归入后一组 则每一组包含下限不包含上限。:闭口组:上下限俱全组中值=(上限+下限)/2(代表各组变量值平均水平)开口组:数列首或末两组为“以下”(缺下限)“以上”(缺上限)组中值:(近似计算)缺下限组组中值=上限-(邻组组距/2)缺上限组组中值二二下限+(邻
6、组组距/2)(四)数列的具体编制:1.总体单位划记入组;2.计算频数、频率、合计等数值;3.列表。三、成绩举例:成绩数据50,51,,97,99(共40人)L排序。计算全距二99-50=492.组数。优秀、良好、中等、及格、不及格,共五组。3.组距。全距/组数=49/5 x 104.分组。5060,6070,7080,8090,90100 o5.划计。将总体单位划归各组并得出各组单位总数 一频数。(注意组限处数值)6.列表。表3-1某班统计学考试成绩频数分布表成绩频数人数(人)比率(%)50-6025.060-70717.570-801127.580-901230.090-100820.0合计
7、40100.0四、累计频数(率):1.较小制累计:以最小值组或类别开始组的 频数为始点,向最大值组或类别结束组逐组 累计各组频数。2.较大制累计:以最大值组或类别结束组的 频数为始点,向最小值组或类别开始组逐组 累计各组频数。3.作用:概括表述数据分布的结构。较小制累计:表示小于该组上限的累计频数。较大制累计:表示大于该组一下限的累计频数。或等于表3-2某班统计学考试成绩累计频数分布表成绩频数较小制累计频数(上限)较大制累计频数(下限)人数(人)比率(%)人数(人)比率(%)人数(人)比率(%)50-6025.025.040100.060-70717.5922.53895.070-801127
8、.52050.03177.580-901230.03280.02050.090-100820.040100.0820.0合计40100.0由统计图和统计表E 组数据的图示方法:用图形来显示频数分布,更加形象和直观。(一)定类测定与定序测定:P43-51 一条形图(Bar chart):1.定义:条形图是用宽度相同的条形的高度(纵置)或长 短(横置)来表示频数(频率)分布的图形。2.绘制:通常用于绘制定类数据的分布,绘制时,各类别名称可以放在纵轴,称为条形图,也可 以放在横轴,称为柱形图。_2011经济学类1-5班第三章统计整理201321条形图例:二 圆形图(Pie chart):1.定义:也
9、称饼图,是用圆形及圆内扇形的面积 来表示数值大小的图形。主要用于定类 测定中表示总体中各组成部分所占的比例,对于研究结构性问题十分有用。2.绘制:将总体中各部分所占的百分比用圆内的各 个扇形面积表示,这些扇形的中心角度,是 按各部分百分比占360。的相应比例确定的。圆形图例:关注服务广告的人数占总人数的百 分比为25.5%,那么其扇形的中心角度就应为360。X 25.5%=918。,其余类推。房地产广告 招生招聘广告8.0%5.8%oc co/-英他广告 1.0%23.3%图3-2某城市居民关注和商品广告 56.0%(1类型广告的人数构成V三环形图:L定义:环形图中间有一个“空洞”,总体中的每
10、一部分 数据用环中的一段表示。2.环形图区别圆形图:。圆形图只能显示一个总体各部分所占的比;环形图则可以同时绘制多个总体的数据系列,每一 个总体的数据系列为一个环。3.作用:环形图可用于进行比较研究;环形图可用于展示定类和定序的数据。环形图例:四累计频数图:适用于定序测定数据的显示,将各类别的频数逐级累 加,便于显示某一类别以下或以上各组的频数之和。表3-3甲城市家庭对住房状况评价的频数分布I回答类别1甲城市户数(户)百分比(%)1较小制累积较大制累积户数(户)百分比(%)户数(户)百分比(%)非常不满意248248.0300100.0不满意1083613244.027692一般9331225
11、75.016856泄思451527090.07525非常满意3010300100.03010合计300100.0累计频数图例:图筝4甲城市家庭对住房状况评价的累积频数分布(二)定距测定与定比测定:P55-63一直方图(Histogram):1.定义:用矩形的宽度和高度来表示频数分布的图形,使各组矩形面积所占矩形总面积的比重对应 各组频率,适用于组距数列。2.绘制:在直角坐标中,用横轴表示变量值分组组距,纵轴表示频数(率)或频率密度,绘制矩形。3.特点:将直方图下的总面积认做1。4.种类:分为等距数列直方图和异距数列直方图。等距数列直方图例表3-4某班级学生成绩分布表成绩频数人数(人)比率(%)
12、50-6025.060-70717.570-801127.580-901230.090-100820.0合计40100.0考分图乎5某班级40名学生成绩分布的直方图(2)异距数列直方图用矩形的面积来表示各组的频数分布,则应 各矩形的宽度对应各组距矩形的高度则对应为频数密度频数密度二频数(率)/组距异距数列直方图例X、m v k-Z图3/某工厂工人年龄分布的直方图二折线图(Frequency polygon):1.定义:折线图也称频数多边形图,是在直方图的 基础上,把直方图顶部的中点(组中值)与横轴终点用折线封闭连接而成。2.绘制:折线图的两个终点位于横轴上,使得 折线图下所围成的面积与直方图的
13、面积 相等。折线图例:图37某班级40名学生成绩分布的折线图3.组距数列累计频数折线图:表3-6某班学生成绩分布表成绩频数较小制累计数较大制累计数50-60224060-70793870-8011203180-9012322090-1008408合计40成绩累计频数折线图:(三)频数分布类型:各种不同性质的社会现象都有着特殊的次数 分布,常见的分布曲线图有三种类型:钟型分布 U型分布J型分布二、未分组数据的图示方法:茎叶图(Stem-and-leaf display):1.定义:用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的。2.茎叶图例(原始数据):表37某
14、车间50名工人日加工零件数分组表(单项式数列)零件数(个)频数(人)零件数(个)频数(人)零件数(个)频数(人)107111911282108212021291110112111301112212241311113112341332114112431342115112521351117312621371118312731392茎叶图:V二箱线图(Boxplot):1.定义:用于显示未分组的原始数据或分组数据的 分布。由一组数据的5个特征值绘制而成,它由一个箱子和两条线段组成,又称盒形图、箱图、盒子图、盒须图。:*2.单批数据箱线图例:X最小值L最大值h681012图310简单箱线图105368
15、575655545I-1 2 5%-75%IVtecianxiLJ3图311 8门课程考试成绩的箱线图I Mn-IVfaxI I 2 5%-75%-IVbdan value3.12 11名学生8门课程考试成绩的箱线二、;赢:统计调孟所得的资料,经过统计整理,将统计事物和 反映其数量特征的统计指标按一定的顺序排列所形成的表 格,称为统计表。(一)统计表的结构和内容:P65Q从结构(表式)上看:总标题(表头)横行标题(行标题)纵栏标题(列标题)数字资料(指标数值)注解Q从内容上看:统计表由主词和宾词两部分构成。主词:用于说明总体或总体的分组。宾词:用于说明总体或总体分组的 指标名称和指标数值。统计
16、表例表38 19971998年城镇居民家庭抽样调查资料 总标题项目单位 1997年 1998年.行标题仁、调查户数户3789039080二、平均每户家庭人口数人3.193.16三、平均每户就业人口数人1.831.80J四、平均每人全部收入元5188.545458.34五、平均每人实际支出元4945.875322.95|消费性支出元4185.644331.61非消费性支出元755.94987.17六、平均每人居住面积平方米_11.9012.40列标题一二 一数字资料主词宾词资料来源:中国统计摘要1999,中国统计出版社,1999,第79页。注:1.本表为城市和县城的城镇居民家庭抽样调查材料。2.
17、消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗 保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。注 解(二)统计表的种类:1.按主词项目:。简单表:总体(主词)未分组,总体单位按某 顺序排列,通常用于初步整理。分组表:总体(主词)按某一个标志进行分组。复合表:总体(主词)按二个或二个以上标志 进行复合分组。2.按作用分::调查表:汇总整理表:计算分析表(三)统计表的设计:统计表按宾词指标进行设计,大致分为两种方式1.简单设计:宾词指标平行配置,一一排列。2.复合设计:多个宾词指标结合起来,层叠配置,分层排列。(四)统计表的编制原则:1.总标题须简明扼要表达出全表的内容,应满
18、足 3W(Where When What)要求;2.各标题要确切反映表的内容,且表格安排合 理,栏目多时应编号,主词栏一般按甲、乙、丙,宾词栏按1、2、3;3.指标数值要右对齐,有小数点时应以小数点对 齐,而且小数点的位数应统一,对于没有数字 的表格单元,一般用“”表示,暂缺某资料则 用“”,合计或总计一般放在表的末行;4.数据计量单位相同时,可放在表的右上角标 明,不同时应放在每个指标后,对指标内容作 必要说明时,可加注在表的下方;5.表的上下边线(基线)用粗实线或双线,表的 两边是开口式;绘制统计图、统计表的总原则:合理、科学、实用、简练、美观。2011经济学类1-5班第三章统计整理201354