资源描述
Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,3-,*,统计学,STATISTICS,(,第五版,),作者:贾俊平,中国人民大学统计学院,第,3,章 数据的图表展示,作者:中国人民大学统计学院,贾俊平,PowerPoint,统计学,第,3,章,数据的图表展示,3.1,数据的预处理,3.2,品质数据的整理与显示,3.3,数值型数据的整理与显示,3.4,合理使用图表,学习目标,了解数据预处理的内容和目的,掌握分类和顺序数据的整理与显示方法,掌握数值型数据的整理与显示方法,用,Excel,作,频数分布表和图形,合理使用图表,3.1,数据的预处理,3.1.1,数据审核,3.1.2,数据筛选,3.1.3,数据排序,3.1.4,数据透视表,数据的预处理,数据审核,检查数据中的错误,数据筛选,找出符合条件的数据,数据排序,升序和降序,寻找数据的基本特征,数据透视,按需要汇总,数据审核,数据审核,原始数据,(raw data),完整性审核,应调查的单位或个体是否有遗漏,所有的调查项目或变量是否填写齐全,准确性审核,数据是否真实反映实际情况,内容是否符合实际,数据是否有错误,计算是否正确等,数据的审核,二手数据,(second hand data),适用性审核,弄清楚数据的来源、数据的口径以及有关的背景材料,确定数据是否符合自己分析研究的需要,时效性审核,尽可能使用最新的数据,确认是否有必要做进一步的加工整理,数据筛选与排序,数据筛选,(data filter),当数据中的错误不能予以纠正,或者有些数据不符合调查的要求而又无法弥补时,需要对数据进行筛选,数据筛选的内容,将某些不符合要求的数据或有明显错误的数据予以剔除,将符合某种特定条件的数据筛选出来,而不符合特定条件的数据予以剔除,用,Excel,进行数据筛选,8,名学生的考试成绩数据,数据筛选,(data filter),数据排序,(data rank),按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索,排序有助于对数据检查纠错,以及为重新归类或分组等提供依据,在某些场合,排序本身就是分析的目的之一,排序可借助于计算机完成,数据排序,(,方法,),分类数据的排序,字母型数据,排序有升序降序之分,但习惯上用升序,汉字型数据,可按汉字的首位拼音字母排列,也可按笔画排序,其中也有笔画多少的升序降序之分,数值型数据的排序,递增排序:设一组数据为,x,1,,,x,2,,,,,x,n,,,递增排序后可表示为:,x,(1),x,(,2),x,(2),x,(,n,),数据透视表,数据透视表,(pivot table),可以从复杂的数据中提取有用的信息,可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表,(,列联表,),在利用数据透视表时,数据源表中的首行必须有列标题,数据透视表,(,用,Excel,创建数据透视表,),第,1,步:,在,Excel,工作表中建立数据清单,第,2,步:,选中数据清单中的任意单元格,并选择,【,数据,】,菜单,中的,【,数据透视表和数据透视图,】,第,3,步:,确定数据源区域,第,4,步:,在,【,向导,3,步骤之,3,】,中选择数据透视表的输出位置,。然后选择,【,布局,】,第,5,步:,在,【,向导,布局,】,对话框中,依次将”分类变量“拖至,左边的“行”区域,上边的“列”区域,将需要汇总的“变,量”拖至“数据区域”,第,6,步:,然后单击,【,确定,】,,自动返回,【,向导,3,步骤之,3】,对,话框。然后单击,【,完成,】,,即可输出数据透视表,3.2,品质数据的整理与展示,3.2.1,分类数据的整理与图示,3.2.2,顺序数据的整理与图示,数据的整理与显示,(,基本问题,),要弄清所面对的数据类型,不同类型的数据,采取不同的处理方式和方法,对分类数据和顺序数据主要是作分类整理,对数值型数据则主要是作分组整理,适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据,分类数据的整理与图示,分类数据的整理,(,基本过程,),1,.,列出各类别,2.,计算各类别的频数,3.,制作频数分布表,4.,用图形显示数据,分类,频数,比例,百分比,比率,A,B,C,D,E,分类数据的整理,(,可计算的统计量,),频数,(,frequency),:,落在各类别中的数据个数,比例,(,proportion),:,某一类别数据个数占全部数据个数的比值,百分比,(,percentage),:,将对比的基数作为,100,而计算的比值,比率,(,ratio),:,不同类别数值个数的比值,分类数据整理,频数分布表,(,例题分析,),【,例,】,一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取的一家超市进行了调查。调查员在某天对,50,名顾客购买饮料的品牌进行了记录,如果一个顾客购买某一品牌的饮料,就将这一饮料的品牌名字记录一次,。右边就是记录的原始数据,用,Excel,制作频数分布表,绿色,健康饮品,分类数据的图示,条形图,(,bar Chart,),用宽度相同的条形的高度或长短来表示各类别数据的图形,有单式条形图、复式条形图等形式,主要用于反映分类数据的频数分布,绘制时,各类别可以放在纵轴,称为,条形图,,也可以放在横轴,称为,柱形图,(column chart),分类数据的图示,条形图,(,例题分析,),分类数据的图示,对比条形图,(side-by-side bar chart),分类变量在不同时间或不同空间上有多个取值,对比分类变量的取值在不同时间或不同空间上的差异或变化趋势,电脑品牌,一季度,二季度,联想,256,468,IBM,285,397,康柏,247,328,戴尔,563,688,分类数据的图示,对比条形图,(,例题分析,),分类数据的图示,帕累托图,(pareto chart),按各类别数据出现的频数多少排序后绘制的柱形图,主要用于展示分类数据的分布,分类数据的图示,饼图,(,pie Chart,),也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题,绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以,360,0,确定,分类数据的图示,饼图,(,例题分析,),顺序数据的整理与图示,顺序数据的整理,(,可计算的统计量,),1.,累积频数,(,cumulative frequencies,),:,各类别频数的逐级累加,2.,累积频率,(,cumulative percentages,),:,各类别频率,(,百分比,),的逐级累加,顺序数据的频数分布表,(,例题分析,),【,例,】,在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查,300,户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”,1,非常不满意;,2,不满意;,3,一般;,4,满意;,5,非常满意。,甲城市家庭对住房状况评价的频数分布,回答类别,甲,城市,户数,(,户,),百分比,(%),向上累积,向下累积,户数,(,户,),百分比,(%),户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,24,132,225,270,300,8.0,44.0,75.0,90.0,100.0,300,276,168,75,30,100.0,92,56,25,10,合计,300,100.0,顺序数据的频数分布表,(,例题分析,),乙城市家庭对住房状况评价的频数分布,回答类别,乙城市,户数,(,户,),百分比,(%),向上累积,向下累积,户数,(,户,),百分比,(%),户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,21,99,78,64,38,7.0,33.0,26.0,21.3,12.7,21,120,198,262,300,7.0,40.0,66.0,87.3,100.0,300,279,180,102,38,100.0,93.0,60.0,34.0,12.7,合计,300,100.0,顺序数据的图示,累计频数分布图,(,例题分析,),24,300,132,225,270,0,100,200,300,400,非常,不满意,不满意,一般,满意,非常,满意,累,积,户,数,(户),(a),向上累积,276,168,30,300,75,0,100,200,300,400,非常,不满意,不满意,一般,满意,非常,满意,累,积,户,数,(户),(b),向下累积,甲城市家庭对住房状况评价的累积频数分布,环形图,(doughnut chart),环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示,与饼图类似,但又有区别,饼图只能显示一个总体各部分所占的比例,环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环,用于结构比较研究,用于展示分类和顺序数据,环形图,(,例题分析,),8%,36%,31%,15%,7%,33%,26%,21%,13%,10%,非常不满意,不满意,一般,满意,非常满意,甲乙两城市家庭对住房状况的评价,3.3,数值型数据的整理与展示,3.3.1,数据分组,3.3.2,数值型数据的图示,数据分组,组距分组,(,要点,),将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况,需要遵循“不重不漏”的原则,可采用等距分组,也可采用不等距分组,组距分组,(,步骤,),确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组数一般为,5,K 15,确定组距:组距,(Class Width),是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即,组距,(,最大值,-,最小值,),组数,统计出各组的频数并整理成频数分布表,组距分组,(,几个概念,),1.,下限,(,lower limit),:,一个组的最小值,2.,上限,(,upper limit),:,一个组的最大值,3.,组距,(,class width),:,上限与下限之差,4.,组中值,(,class midpoint),:,下限与上限之间的中点值,下限值,+,上限值,2,组中值,=,频数分布表的编制,(,例题分析,),【,例,】,某电脑公司,2005,年前四个月各天的销售量数据,(,单位:台,),。试对数据进行分组,等距分组表,(,上下组限重叠,),等距分组表,(,上下组限间断,),等距分组表,(,使用开口组,),数值型数据的图示,Excel,分组数据,直方图和折线图,分组数据,直方图,(histogram),用于展示分组数据分布的一种图形,用矩形的宽度和高度来表示频数分布,本质上是用矩形的,面积,来表示频数分布,在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图,分组数据的图示,(,直方图的绘制,),140,150,210,某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在,170,180,之间的天数最多,!,190,200,180,160,170,频,数,(,天,),25,20,15,10,5,30,220,230,240,分组数据,直方图,(,直方图与条形图的区别,),条形图是用条形的长度,(,横置时,),表示各类别频数的多少,其宽度,(,表示类别,),则是固定的,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义,直方图的各矩形通常是连续排列,条形图则是分开排列,条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,数值型数据的图示,STATISTICA,未,分组数据,茎叶图和箱线图,未分组数据,茎叶图,(stem-and-leaf display),用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留最后一位数字,6.,茎叶图类似于横置的直方图,但又有区别,直方图可观察一组数据的分布状况,但没有给出具体的数值,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,直方图适用于大批量数据,茎叶图适用于小批量数据,未分组数据,茎叶图,(,例题分析,),某电脑公司销售量分布的茎叶图,未分组数据,箱线图,(,box plot,),用于显示未分组的原始数据的分布,由一组数据的,5,个特征值绘制而成,它由一个箱子和两条线段组成,绘制方法,首先找出一组数据的,5,个特征值,即,最大值,、,最小值,、,中位数,M,e,和两个,四分位数,(,下四分位数,Q,L,和上四分位数,Q,U,),连接两个四分位数画出箱子,再将两个极值点与箱子相连接,该箱线图也称为,Median/Quart,.,/Range,箱线图,未分组数据,单批数据箱线图,(,箱线图的构成,),中位数,4,6,8,10,12,Q,U,Q,L,X,最大值,X,最小值,Median/Quart./Range,箱线图,未分组数据,单批数据箱线图,(,例题分析,),最小值,141,最大值,237,中位数,182,下四分位数,170.25,上四分位数,197,140 150 160 170 180 190 200 210 220 230 240,某电脑公司销售量数据的,Median/Quart./Rang,箱线图,分布的形状与箱线图,不同分布的箱线图,左偏分布,Q,L,中位数,Q,U,Left-skewed distribution,右偏分布,Q,L,中位数,Q,U,Right-skewed distribution,对称分布,Q,L,中位数,Q,U,Bell-shaped distribution,未分组数据,多批数据箱线图,(,例题分析,),【,例,】,从某大学经济管理专业二年级学生中随机抽取,11,人,对,8,门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,11,名学生各科的考试成绩数据,课程名称,学生编号,1,2,3,4,5,6,7,8,9,10,11,英语,经济数学,西方经济学,市场营销学,财务管理,基础会计学,统计学,计算机应用基础,76,65,93,74,68,70,55,85,90,95,81,87,75,73,91,78,97,51,76,85,70,92,68,81,71,74,88,69,84,65,73,95,70,78,66,90,73,78,84,70,93,63,79,80,60,87,81,67,86,91,83,77,76,90,70,82,83,82,92,84,81,70,69,72,78,75,78,91,88,66,94,80,85,71,86,74,68,79,62,81,81,55,78,70,75,68,71,77,未分组数据,多批数据箱线图,(,例题分析,Median/Quart./Range),8,门课程考试成绩的,Median/Quart./Range,箱线图,11,名学生,8,门课程考试成绩的,Median/Quart./Range,箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生,1,学生,2,学生,3,学生,4,学生,5,学生,6,学生,7,学生,8,学生,9,学生,10,学生,11,未分组数据,多批数据箱线图,(,例题分析,Median/Quart./Range),数值型数据的图示,时间序列,数据,线图,Excel,时间序列数据,线图,(,line plot,),表示时间序列数据趋势的图形,时间一般绘在横轴,数据绘在纵轴,图形的长宽比例大致为,10,:,7,一般情况下,纵轴数据下端应从,“,0,”,开始,以便于比较。数据与,“,0,”,之间的间距过大时,可以采取折断的符号将纵轴折断,时间序列数据,线图,(,例题分析,),【,例,】,我国,1991,2003,年城乡居民家庭的人均收入数据如表。试绘制线图,¥,1991,2003,年城乡居民家庭人均收入,年份,城镇居民,(,元,),农村居民,(,元,),1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,1700.6,2026.6,2577.4,3496.2,4283.0,4838.9,5160.3,5425.1,5854.0,6280.0,6859.0,7702.8,8472.2,708.6,784.0,921.6,1221.0,1577.7,1926.1,2091.1,2162.0,2210.3,2253.4,2366.4,2475.6,2622.2,时间序列数据,线图,(,例题分析,),数值型数据的图示,多变量,数据的图示,Excel,两个变量间的关系,二维散点图,(2D,Scatterplots,),展示两个变量之间的关系,用横轴代表变量,x,,纵轴代表变量,y,,每组数据,(,x,i,,,y,i,),在坐标系中用一个点表示,,n,组数据在坐标系中形成的,n,个点称为散点,由坐标及其散点形成的二维数据图,温度,/,0,C,降雨量,/,mm,产量,/,kg,/,hm,2,6,25,2250,8,40,3450,10,58,4500,13,68,5750,14,110,5800,16,98,7500,21,120,8250,两个变量间的关系,二维散点图,(2D,Scatterplots,),三个变量间的关系,气泡图,(,bubble chart,),显示三个变量之间的关系,图中数据点的大小依赖于第三个变量,也称为蜘蛛图,(spider chart),显示多个变量的图示方法,在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比,可用于研究多个样本之间的相似程度,多变量数据,雷达图,(,radar chart,),设有,n,组样本,S,1,,,S,2,,,S,n,,,每个样本测得,P,个变量,X,1,,,X,2,,,X,P,,,要绘制这,P,个变量的雷达图,其具体做法是,多变量数据,雷达图,(,雷达图的制作,),先做一个圆,然后将圆,P,等分,得到,P,个点,令这,P,个点分别对应,P,个变量,在将这,P,个点与圆心连线,得到,P,个幅射状的半径,这,P,个半径分别作为,P,个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,将同一样本的值在,P,个坐标上的点连线。这样,,n,个样本形成的,n,个多边形就是一个雷达图,多变量数据,雷达图,(,例题分析,),【,例,】,2003,年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图,今天的主食是面包,2003,年城乡居民家庭平均每人生活消费支出构成,(%),项 目,城镇居民,农村居民,食品,衣着,家庭设备用品及服务,医疗保健,交通通讯,娱乐教育文化服务,居住,杂项商品与服务,37.12,9.79,6.30,7.31,11.08,14.35,10.74,3.30,45.59,5.67,4.20,5.96,8.36,12.13,15.87,2.21,多变量数据,雷达图,(,例题分析,),数据类型及图示,(,小结,),3.4,合理使用图表,3.4.1,鉴别图形优劣的准则,3.4.2,统计表的设计,一张好的图表应包括以下基本特征,显示数据,让读者把注意力集中在图表的内容上,而不是制作图表的程序上,避免歪曲,强调数据之间的比较,服务于一个明确的目的,有对图表的统计描述和文字说明,5,种鉴别图表优劣的准则:一张好的图表应当,精心设计、有助于洞察问题的实质,使复杂的观点得到简明、确切、高效的阐述,能在最短的时间内以最少的笔墨给读者提供最大量的信息,是多维的,表述数据的真实情况,鉴别图表优劣的准则,统计表的结构,2002,2003,年城镇居民家庭抽样调查资料,项目,单位,2002,年,2003,年,调查户数,平均每户家庭人口,平均每户就业人口,平均每户就业面,平均一名就业者负担人数,平均每人全部年收入,可支配收入,平均每人消费性支出,户,人,人,%,人,元,元,元,45317,3.04,1.58,51.97,1.92,8177.40,7702.80,6029.88,48028,3.01,1.58,52.49,1.91,9061.22,8472.20,6510.94,资料来源:,中国统计年鉴,2004,,中国统计出版社,,2004,,第,359,页。,注:本表为城市和县城的城镇居民家庭抽样调查资料。,行标题,列标题,数字资料,表头,附加,合理安排统计表的结构,总标题内容应满足,3W,要求,数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明,表中的上下两条横线一般用粗线,其他线用细线,通常情况下,统计表的左右两边不封口,表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一,对于没有数字的表格单元,一般用“,”,表示,必要时可在表的下方加上注释,统计表的设计,本章小结,数据预处理的内容和目的,分类和顺序数据的整理与显示方法,数值型数据的整理与显示方法,合理使用图表,用,Excel,作,频数分布表和图形,结 束,THANKS,
展开阅读全文