资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第,3,章 数据的图表展示,数据的预处理,品质数据的整理与展示,数值型数据的整理与展示,合理使用图表,1,学习目的和要求,通过本章学习,,掌握,统计数据的分类及数据的整理。,重点掌握统计分组的方法和次数分布表的编制。能熟练运用统计软件对数据进行整理。,2,3.1,数据的预处理,3.1.1,数据审核,检查数据中是否有错误。,原始,数据,二手,数据,适用性,时效性,完整性,审核,准确性,审核,应调查的单位是否有遗漏,所有的调查项目是否填写齐全,数据是否有错误,是否存在异常值,应尽可能使用最新的统计数据,来源、口径以及有关的背景材料,是否符合自己分析研究的需要,3,3.1.2,数据筛选,3.1.3,数据排序:,发现数据的基本特征,把定量数据按从大到小或从小到大的顺序排列,,把定性数据按习惯的文字顺序排列,便于我们研究其条理,方法:升序和降序,例,3.1,4,3.1.4,数据透视表,例,3.2,5,统计数据类型,定类,定序,定距,定比,品质数据,数量数据,6,1,2,3,4,量化等级,功能包容,1,2,3,4,四个测定层次的比较,7,3.2,品质数据的整理与展示,3.2.1,分类数据的整理与展示,1.,频数与频数分布,频数:落在各类别中的数据个数,。,频数分布,:将各类别及落在其中的相应频数列出,用表格形式表现出来。,例,3.3,8,2.,分类数据的图示,(,1,)条形图,是用宽度相同的条形的高度或长短来表示数据变动的图形,条形图有单式、复式等形式,在表示定类数据的分布时,是用条形图的高度来表示各类别数据的频数或频率,例,3.3,9,(,2,)帕累托图,不同类别的数据根据其频率降序排列的,并在同一张图中画出累积百分比图,用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,10,(,3,)饼图,用圆形及园内扇形的面积来表示数值大小的图形,主要用于表示总体中各组成部分所占的比例,对于研究结构性问题十分有用,例,3.3,11,(,4,)环形图,环形图是由两个及两个以上大小不一的饼图叠在一起,挖去中间的部分所构成的图形,12,3.2.2,顺序数据的整理与图示,1.,累积频数和累积频率,累积频数:将各有序类别或组的,频数,逐级累加所得到的频数。,分:向上累积和向下累积。,累积频率,:,将各有序类别或组的,百分比,逐级累加。,分:向上累积和向下累积。,例,3.5,13,3.3 数值型数据的整理与展示,3.3.1,数据分组,将原始数据按照某种标准分成不同的组别,用于观察数据的分布特征,分组方法,等距分组,异距分组,单变量值分组,组距分组,14,组距分组与不等距分组,(在表现频数分布上的差异),等距分组,各组频数的分布不受组距大小的影响,可直接根据绝对频数来观察频数分布的特征和规律,不等距分组,各组频数的分布受组距大小不同的影响,各组绝对频数的多少不能反映频数分布的实际状况,需要用频数密度(频数密度频数,/,组距)反映频数分布的实际状况,15,统计分组,基本原则:组内同质性,组间差异性,作用:,(,1,)划分现象的类型,(,2,),表明总体内部的结构及整个结构的类型和特征,(,3,),揭示现象间的依存关系,16,1.,按,分组标志个数,不同,1,)简单分组,:,把总体只按,一个标志,分组,2),复合分组,:,对同一总体选择,两个或两个以上,标志层叠起来进行分组。例如,可以 同时选择学科、学制、性别三个标志对某学院全体在校学生这个总体 进行分组,。,2.,按分组标志,种类,不同,1),品质标志分组,2),数量标志分组,统计分组的形式,A.,单项式分组:,即变量的一个取值为一组,适用于离散型变量,并且变量的取值较少。,如家庭人,口数分组,1,人,2,人,3,人,4,人,5,人,6,人,17,2),数量标志分组,B,组距式分组:,即每一组有一个上限值和一个下限值所形成的区间,适用于连续性变量,或离散型变量且变量的取值较多不便一一列举的情况。,按,销售额分组,(,万元,),50,以下,50200,200400,400600,600800,800,以上,例:对商店按销售额进行分组,18,组距分组,(要点),将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况,必须遵循“不重不漏”的原则,可采用等距分组,也可采用不等距分组,19,组距分组,(步骤),确定组数,:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,可以按,Sturges,提出的经验公式来确定组数,K,确定各组的组距:组距,(,Class Width),是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即,组距,(,最大值,-,最小值),组数,根据分组整理成频数分布表,20,分组中要注意的关键,1.,选择分组标志,选择分组标志时,一般应考虑,原则,:,根据研究问题的目的和任务选择分组标志,在若干标志中,选择能反映问题本质的标志,结合现象所处的历史条件具体情况具体分析,2.,划分各组的界限:在分组标志的变异范围内,划定各相邻组之间的性质界限和数量界限,21,组距分组,(几个概念),下 限:,一个组的最小值,上 限:,一个组的最大值,组 距:,上限与下限之差,组中值:,下限与上限之间的中点值,下限值,+,上限值,2,组中值,=,22,(,闭口组,),(缺上限的开口组),(缺下限的开口组),23,实例,某生产车间,50,名工人日加工零件数如下(单位:个)。试采用单变量值对数据进行分组,117 122 124 129 139 107 117 130 122 125 108 131 125 117 122 133 126 122 118 108 110 118 123 126 133 134 127 123 118 112 112 134 127 123 119 113 120 123 127 135 137 114 120 128 124 115 139 128 124 121,24,单变量值分组表,某车间,50,名工人日加工零件数分组表,零件数,(,个,),频数,(,人,),零件数,(,个,),频数,(,人,),零件数,(,个,),频数,(,人,),107,108,110,112,113,114,115,117,118,1,2,1,2,1,1,1,3,3,119,120,121,122,123,124,125,126,127,1,2,1,4,4,3,2,2,3,128,129,130,131,133,134,135,137,139,2,1,1,1,2,2,1,1,2,25,等距分组表,(上下组限重叠),某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),频率(,%,),105110,110115,115120,120125,125130,130135,135140,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,26,等距分组表,(上下组限间断),某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),频率(,%,),105109,110114,115119,120124,125129,130134,135139,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,27,等距分组表,(使用开口组),某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),频率(,%,),110,以下,110114,115119,120124,125129,130134,135,以上,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,28,3.3.2,数值型数据的图示,1.,分组数据:直方图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布,在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图,(Histogram),频,数,(,人,),15,12,9,6,3,105,110,115,120,125,130,135,140,日加工零件数,(,个,),29,2.,未分组数据:茎叶图和箱线图,(,1,)茎叶图,用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,30,(,2,)箱线图,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数,中位数,下四分位数,下边缘,还有一个异常值。,4,6,8,10,12,图,3-9,简单箱线图,中位数,Q,U,X,最大值,X,最小值,Q,L,31,对称分布,Q,L,中位数,Q,U,左偏分布,Q,L,中位数,Q,U,右偏分布,Q,L,中位数,Q,U,不同分布的箱线图,分布的形状与箱线图,32,未分组数据,多批数据箱线图,8,门课程考试成绩的箱线图,33,11,名学生,8,门课程考试成绩的箱线图,Min-Max,25%-75%,Median value,45,55,65,75,85,95,105,学生,1,学生,2,学生,3,学生,4,学生,5,学生,6,学生,7,学生,8,学生,9,学生,10,学生,11,34,3.,时间序列数据:线图,时间一般绘在横轴,指标数据绘在纵轴,图形的长宽比例要适当,其长宽比例大致为,10,:,7,一般情况下,纵轴数据下端应从“,0”,开始,以便于比较。数据与“,0”,之间的间距过大时,可以采取折断的符号将纵轴折断,例,3.8,35,4.,多变量数据的图示,(,1,)散点图,用两组数据构成多个坐标点,考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标点的分布模式,例,3.9,36,(,2,)气泡图,展示三个变量之间的关系,例,3.9,37,(,3,)雷达图,38,数据类型与显示,数值型数据,品质数据,分组数据,总计表,茎叶图,条形图,圆形图,环形图,直方图,箱线图,折线图,原始数据,时序数据,线,图,雷达图,多元数据,数据类型及图示,39,3.4 合理使用图表,3.4.1,鉴别图形优劣的准则,强调数据间的比较,有对图形的统计描述和文字说明,服务于一个明确的目的,让读者的注意力集中在图形内容上,避免歪曲,显示数据,好图,40,3.4.2,统计表的设计,项目,单位,1997,年,1998,年,一、调查户数,二、平均每户家庭人口数,三、平均每户就业人口数,四、平均每人全部收入,五、平均每人实际支出,消费性支出,非消费性支出,六、平均每人居住面积,户,人,人,元,元,元,元,平方米,37890,3.19,1.83,5188.54,4945.87,4185.64,755.94,11.90,39080,3.16,1.80,5458.34,5322.95,4331.61,987.17,12.40,资料来源:,中国统计摘要,1999,,中国统计出版社,,1999,,第,79,页。,注:,1,本表为城市和县城的城镇居民家庭抽样调查材料。,2,消费性支出项目包括:食品、衣着、家庭设备用品及服务、医疗,保健、交通和通讯、娱乐教育文化服务、居住、杂项商品和服务。,行标题,列标题,数字资料,附加,表头,1997,1998,年城镇居民家庭抽样调查资料,41,
展开阅读全文