收藏 分销(赏)

应用统计chapter 3.ppt

上传人:xrp****65 文档编号:13183859 上传时间:2026-01-31 格式:PPT 页数:62 大小:770KB 下载积分:10 金币
下载 相关 举报
应用统计chapter 3.ppt_第1页
第1页 / 共62页
应用统计chapter 3.ppt_第2页
第2页 / 共62页


点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第三章:数据的图表展示,(,基本问题,),数据的整理与显示,要弄清所面对的数据类型,不同类型的数据,采取不同的处理方式和方法,对分类数据和顺序数据主要是作分类整理,对数值型数据则主要是作分组整理,适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据,分类数据的整理与图示,(,基本过程,),分类数据的整理,1.,列出各类别,2.,计算各类别的频数,3.,制作频数分布表,4.,用图形显示数据,分类,频数,比例,百分比,比率,A,B,C,D,E,(,可计算的统计量,),分类数据的整理,频数,(,frequency),:落在各类别中的数据个数,比例,(proportion),:某一类别数据个数占全部数据个数的比值,百分比,(percentage),:将对比的基数作为,100,而计算的比值,比率,(ratio),:不同类别数值个数的比值,(,例题分析,),分类数据整理,频数分布表,【,例,】,:,根据,饮料文摘,,“古典可乐”(,Coke Classic,)、健怡可乐(,Diet Coke,)、彭伯碳酸饮料(,Dr.Pepper,)、百事可乐(,Pepsi-Cola,)、以及雪碧(,Sprite,)是销售量居前五位的软饮料(,华尔街日报,,,1998,),下表是所选择的购买,50,次的软饮料的样本,绿色,健康饮品,(,例题分析,),分类数据整理,频数分布表,(,例题分析,),分类数据整理,频数分布表,品质标志,频数,相对频数,分类数据频数分布表,分类数据的图示,条形图,用宽度相同的条形的高度或长短来表示各类别数据的图形,有单式条形图、复式条形图等形式,主要用于反映分类数据的频数分布,绘制时,各类别可以放在纵轴,称为,条形图,,也可以放在横轴,称为,柱形图,(column chart),分类数据的图示,条形图,分类数据的图示,对比条形图,分类变量在不同时间或不同空间上有多个取值,对比分类变量的取值在不同时间或不同空间上的差异或变化趋势,电脑品牌,一季度,二季度,联想,256,468,IBM,285,397,康柏,247,328,戴尔,563,688,分类数据的图示,对比条形图,分类数据的图示,帕累托图,按各类别数据出现的频数多少排序后绘制的柱形图,主要用于展示分类数据的分布,分类数据的图示,饼图,也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形,主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题,绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比乘以,360,0,确定,分类数据的图示,饼图,顺序数据的整理与图示,(,可计算的统计量,),顺序数据的整理,1.,累积频数,(,cumulative frequencies,),:,各类别频数的逐级累加,2.,累积频率,(,cumulative percentages,),:,各类别频率,(,百分比,),的逐级累加,(,例题分析,),顺序数据的频数分布表,【,例,】,在一项城市住房问题的研究中,研究人员在甲乙两个城市各抽样调查,300,户,其中的一个问题是:“您对您家庭目前的住房状况是否满意?”,1,非常不满意;,2,不满意;,3,一般;,4,满意;,5,非常满意。,甲城市家庭对住房状况评价的频数分布,回答类别,甲,城市,户数,(,户,),百分比,(%),向上累积,向下累积,户数,(,户,),百分比,(%),户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,24,132,225,270,300,8.0,44.0,75.0,90.0,100.0,300,276,168,75,30,100.0,92,56,25,10,合计,300,100.0,(,例题分析,),顺序数据的频数分布表,乙城市家庭对住房状况评价的频数分布,回答类别,乙城市,户数,(,户,),百分比,(%),向上累积,向下累积,户数,(,户,),百分比,(%),户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,21,99,78,64,38,7.0,33.0,26.0,21.3,12.7,21,120,198,262,300,7.0,40.0,66.0,87.3,100.0,300,279,180,102,38,100.0,93.0,60.0,34.0,12.7,合计,300,100.0,顺序数据的图示,累计频数分布图,(,例题分析,),24,300,132,225,270,0,100,200,300,400,非常,不满意,不满意,一般,满意,非常,满意,累,积,户,数,(户),(a),向上累积,276,168,30,300,75,0,100,200,300,400,非常,不满意,不满意,一般,满意,非常,满意,累,积,户,数,(户),(b),向下累积,甲城市家庭对住房状况评价的累积频数分布,数值型数据的整理与展示,数据分组,数值型数据的图,数据分组,组距分组,(,要点,),将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况,需要遵循“不重不漏”的原则,可采用等距分组,也可采用不等距分组,确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。,在实际分组时,组数一般为,5,K 15,。,原则上组内频数不少于,5,个,两端除外,两个参考公式,:,组距分组,(,步骤,),组距分组,(,步骤,),确定组距:组距,(Class Width),是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即,组距,(,最大值,-,最小值,),组数,组距一般取为正数,多为,5,,,10,及其倍数,统计出各组的频数并整理成频数分布表,组距分组,(,几个概念,),1.,下限,(,lower limit),:,一个组的最小值,上限,(,upper limit),:,一个组的最大值,a,b).a,代表下限,,b,代表上限,规定重叠的数值归于后一组的下限,2.,组距,(,class width),:,上限与下限之差,3.,组中值,(,class midpoint),:,下限与上限之间的中点值,下限值,+,上限值,2,组中值,=,组距分组,(,几个概念,),4.,缺上限或缺下限称为开口组,缺上(下)限开口组组中值,=,上(下)限,-,(,+,)相邻组组距,/2,频数分布表的编制,(,例题分析,),【,例,】,某电脑公司,2005,年前四个月各天的销售量数据,(,单位:台,),。试对数据进行分组,等距分组表,(,上下组限重叠,),等距分组表,(,上下组限间断,),等距分组表,(,使用开口组,),分组数据,直方图和折线图,数值型数据的图示,Excel,分组数据,直方图,(histogram),用于展示分组数据分布的一种图形,用矩形的宽度和高度来表示频数分布,本质上是用矩形的,面积,来表示频数分布,在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图,分组数据的图示,(,直方图的绘制,),140,150,210,某电脑公司销售量分布的直方图,我一眼就看出来了,销售量在,170,180,之间的天数最多,!,190,200,180,160,170,频,数,(,天,),25,20,15,10,5,30,220,230,240,条形图是用条形的长度,(,横置时,),表示各类别频数的多少,其宽度,(,表示类别,),则是固定的,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义,直方图的各矩形通常是连续排列,条形图则是分开排列,条形图主要用于展示分类数据,直方图则主要用于展示数值型数据,分组数据,直方图,(,直方图与条形图的区别,),数值型数据的图示,STATISTICA,未,分组数据,茎叶图和箱线图,未分组数据,茎叶图,(stem-and-leaf display),用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,树叶上只保留最后一位数字,5.,茎叶图类似于横置的直方图,但又有区别,直方图可观察一组数据的分布状况,但没有给出具体的数值,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,直方图适用于大批量数据,茎叶图适用于小批量数据,未分组数据,茎叶图,(,例题分析,),某电脑公司销售量分布的茎叶图,未分组数据,箱线图,(,box plot,),用于显示未分组的原始数据的分布,由一组数据的,5,个特征值绘制而成,它由一个箱子和两条线段组成,绘制方法,首先找出一组数据的,5,个特征值,即,最大值,、,最小值,、,中位数,M,e,和两个,四分位数,(,下四分位数,Q,L,和上四分位数,Q,U,),连接两个四分位数画出箱子,再将两个极值点与箱子相连接,该箱线图也称为,Median/Quart,.,/Range,箱线图,未分组数据,单批数据箱线图,(,箱线图的构成,),中位数,4,6,8,10,12,Q,U,Q,L,X,最大值,X,最小值,Median/Quart./Range,箱线图,未分组数据,单批数据箱线图,(,例题分析,),最小值,141,最大值,237,中位数,182,下四分位数,170.25,上四分位数,197,140 150 160 170 180 190 200 210 220 230 240,某电脑公司销售量数据的,Median/Quart./Rang,箱线图,分布的形状与箱线图,不同分布的箱线图,左偏分布,Q,L,中位数,Q,U,Left-skewed distribution,右偏分布,Q,L,中位数,Q,U,Right-skewed distribution,对称分布,Q,L,中位数,Q,U,Bell-shaped distribution,未分组数据,多批数据箱线图,(,例题分析,),【,例,】,从某大学经济管理专业二年级学生中随机抽取,11,人,对,8,门主要课程的考试成绩进行调查,所得结果如表。试绘制各科考试成绩的批比较箱线图,并分析各科考试成绩的分布特征,11,名学生各科的考试成绩数据,课程名称,学生编号,1,2,3,4,5,6,7,8,9,10,11,英语,经济数学,西方经济学,市场营销学,财务管理,基础会计学,统计学,计算机应用基础,76,65,93,74,68,70,55,85,90,95,81,87,75,73,91,78,97,51,76,85,70,92,68,81,71,74,88,69,84,65,73,95,70,78,66,90,73,78,84,70,93,63,79,80,60,87,81,67,86,91,83,77,76,90,70,82,83,82,92,84,81,70,69,72,78,75,78,91,88,66,94,80,85,71,86,74,68,79,62,81,81,55,78,70,75,68,71,77,未分组数据,多批数据箱线图,(,例题分析,Median/Quart./Range),8,门课程考试成绩的,Median/Quart./Range,箱线图,11,名学生,8,门课程考试成绩的,Median/Quart./Range,箱线图,min-max,25%-75%,median value,45,55,65,75,85,95,105,学生,1,学生,2,学生,3,学生,4,学生,5,学生,6,学生,7,学生,8,学生,9,学生,10,学生,11,未分组数据,多批数据箱线图,(,例题分析,Median/Quart./Range),数值型数据的图示,时间序列,数据,线图,Excel,时间序列数据,线图,(,line plot,),表示时间序列数据趋势的图形,时间一般绘在横轴,数据绘在纵轴,图形的长宽比例大致为,10,:,7,一般情况下,纵轴数据下端应从,“,0,”,开始,以便于比较。数据与“,0,”,之间的间距过大时,可以采取折断的符号将纵轴折断,时间序列数据,线图,(,例题分析,),【,例,】,我国,1991,2003,年城乡居民家庭的人均收入数据如表。试绘制线图,¥,1991,2003,年城乡居民家庭人均收入,年份,城镇居民,(,元,),农村居民,(,元,),1991,1992,1993,1994,1995,1996,1997,1998,1999,2000,2001,2002,2003,1700.6,2026.6,2577.4,3496.2,4283.0,4838.9,5160.3,5425.1,5854.0,6280.0,6859.0,7702.8,8472.2,708.6,784.0,921.6,1221.0,1577.7,1926.1,2091.1,2162.0,2210.3,2253.4,2366.4,2475.6,2622.2,时间序列数据,线图,(,例题分析,),数值型数据的图示,多变量,数据的图示,Excel,两个变量间的关系,二维散点图,(2D,Scatterplots,),展示两个变量之间的关系,用横轴代表变量,x,,纵轴代表变量,y,,每组数据,(,x,i,,,y,i,),在坐标系中用一个点表示,,n,组数据在坐标系中形成的,n,个点称为散点,由坐标及其散点形成的二维数据图,温度,/,0,C,降雨量,/,mm,产量,/,kg,/,hm,2,6,25,2250,8,40,3450,10,58,4500,13,68,5750,14,110,5800,16,98,7500,21,120,8250,两个变量间的关系,二维散点图,(2D,Scatterplots,),三个变量间的关系,气泡图,(,bubble chart,),显示三个变量之间的关系,图中数据点的大小依赖于第三个变量,也称为蜘蛛图,(spider chart),显示多个变量的图示方法,在显示或对比各变量的数值总和时十分有用,假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正比,可用于研究多个样本之间的相似程度,多变量数据,雷达图,(,radar chart,),设有,n,组样本,S,1,,,S,2,,,S,n,,,每个样本测得,P,个变量,X,1,,,X,2,,,X,P,,,要绘制这,P,个变量的雷达图,其具体做法是,多变量数据,雷达图,(,雷达图的制作,),先做一个圆,然后将圆,P,等分,得到,P,个点,令这,P,个点分别对应,P,个变量,在将这,P,个点与圆心连线,得到,P,个幅射状的半径,这,P,个半径分别作为,P,个变量的坐标轴,每个变量值的大小由半径上的点到圆心的距离表示,将同一样本的值在,P,个坐标上的点连线。这样,,n,个样本形成的,n,个多边形就是一个雷达图,多变量数据,雷达图,(,例题分析,),【,例,】,2003,年我国城乡居民家庭平均每人各项生活消费支出构成数据如表。试绘制雷达图,今天的主食是面包,2003,年城乡居民家庭平均每人生活消费支出构成,(%),项 目,城镇居民,农村居民,食品,衣着,家庭设备用品及服务,医疗保健,交通通讯,娱乐教育文化服务,居住,杂项商品与服务,37.12,9.79,6.30,7.31,11.08,14.35,10.74,3.30,45.59,5.67,4.20,5.96,8.36,12.13,15.87,2.21,多变量数据,雷达图,(,例题分析,),数据类型及图示,(,小结,),合理使用图表,鉴别图形优劣的准则,统计表的设计,一张好的图表应包括以下基本特征,显示数据,让读者把注意力集中在图表的内容上,而不是制作图表的程序上,避免歪曲,强调数据之间的比较,服务于一个明确的目的,有对图表的统计描述和文字说明,5,种鉴别图表优劣的准则:一张好的图表应当,精心设计、有助于洞察问题的实质,使复杂的观点得到简明、确切、高效的阐述,能在最短的时间内以最少的笔墨给读者提供最大量的信息,是多维的,表述数据的真实情况,鉴别图表优劣的准则,2002,2003,年城镇居民家庭抽样调查资料,项目,单位,2002,年,2003,年,调查户数,平均每户家庭人口,平均每户就业人口,平均每户就业面,平均一名就业者负担人数,平均每人全部年收入,可支配收入,平均每人消费性支出,户,人,人,%,人,元,元,元,45317,3.04,1.58,51.97,1.92,8177.40,7702.80,6029.88,48028,3.01,1.58,52.49,1.91,9061.22,8472.20,6510.94,资料来源:,中国统计年鉴,2004,,中国统计出版社,,2004,,第,359,页。,注:本表为城市和县城的城镇居民家庭抽样调查资料。,行标题,列标题,数字资料,表头,附加,统计表的结构,合理安排统计表的结构,总标题内容应满足,3W,要求,数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明,表中的上下两条横线一般用粗线,其他线用细线,通常情况下,统计表的左右两边不封口,表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一,对于没有数字的表格单元,一般用“,”,表示,必要时可在表的下方加上注释,统计表的设计,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 百科休闲 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服