1、中国人民大学出版社All rights reserved统统 计计 学学第三章第三章 数据的描述数据的描述11数据的直观数据的直观显显示示第三章第三章 数据的描述数据的描述1-1-数据的直观显示数据的直观显示 1 1 用统计表描述数据用统计表描述数据 2 2 用统计图描述数据用统计图描述数据 1 1 用统计表描述数据用统计表描述数据1.1 1.1 统计表的构成统计表的构成1.2 1.2 统计表的类型统计表的类型1.3 1.3 统计表的编制规则统计表的编制规则 1.4 1.4 数据的统计表描述数据的统计表描述 1.1 1.1 统计表的构成统计表的构成统计表统计表一般是由四个主要部分构成:表头,行
2、标题,列标题,数据资料,必要时需要在统计表的下方加上表外附加。1.2 1.2 统计表的类型统计表的类型1.1.简单表简单表 行标题或列标题中的变量指标未经过任何分类,只是反映各变量的名称或按时间顺序简单排列。也称一览表。表表3-2 20113-2 2011年我国主要宏观经济运行指标年我国主要宏观经济运行指标 主要宏观经济指标单位数值国内生产总值亿元472881.6就业人数万人76420居民消费价格指数105.4农村居民家庭人均纯收入元6977.3城镇居民家庭人均可支配收入元21809.8资料来源:中国国家统计局网站2012年统计年鉴1.2 1.2 统计表的类型统计表的类型2.2.分组表分组表
3、行标题或列标题中的变量指标按照一定标志进行了分类,也称简单分组表。它可以揭示出现象的不同类型的特征,研究现象的内部结构。表表3-3 2003-20113-3 2003-2011年我国黄金和外汇储备年我国黄金和外汇储备 年份黄金储备(万盎司)外汇储备(亿美元)200319294032.51200419296099.32200519298188.722006192910663.42007192915282.492008192919460.32009338923991.522010338928473.382011338931811.48资料来源:2012年中国统计年鉴1.2 1.2 统计表的类型统计
4、表的类型3.3.复合表复合表 行标题或列标题中的变量指标按照两个或两个以上的标志层叠分类所形成的统计表。表表3-4 2006-20113-4 2006-2011年主要年份国内生产总值及其构成年主要年份国内生产总值及其构成 单位:亿元单位:亿元 年 份国内生产总 值 第一产业第二产业 第三产业工 业建筑业2006216314.424040103719.591310.9412408.6188554.882007265810.328627125831.4110534.915296.48111351.92008314045.433702149003.4130260.218743.21313402009
5、340902.835226157638.8135239.922398.831480382010401512.840533.6187383.2160722.226660.981735962011472881.647486.21220412.8188470.231942.66204982.5资料来源:2012年中国统计年鉴1.2 1.2 统计表的类型统计表的类型4 4交叉表交叉表 行标题和列标题中的变量指标同时采用分类的形式来表示,使得数据依据行或列变量分类结果在交叉的单元格中显示。表表3-5 3-5 某项调查被访问者受教育水平和性别分布交叉表某项调查被访问者受教育水平和性别分布交叉表 受教育水平
6、性别合计人数(人)百分比(%)男女小学及以下1001402408初中50046096032高中600630123041大学及以上26031057019合计1460154030001001.3 1.3 统计表的编制规则统计表的编制规则 编制统计表的基本指导原则:编制统计表的基本指导原则:“简练、美观、科学、实用简练、美观、科学、实用”表头结构计量单位线条数据表外附加 1.4 1.4 数据的统计表描述数据的统计表描述 1.4.1 1.4.1 定性变量的统计表描述定性变量的统计表描述 定性变量包括分类变量和顺序变量两种类型。分类变量的取值是对事物的一种分类,而顺序变量的取值是对事物的分类排序。在整理
7、和描述定性变量时,需要根据分类变量和顺序变量的取值进行统计分组,同时计算每一组对应的频数。1.4.1 1.4.1 定性变量的统计表描述定性变量的统计表描述分类变量分类变量 频数(频数(frequenceyfrequencey)是指落在某一特定类别(或组)中的数据个数。频率或比例(频率或比例(proportionproportion)把各类的频数与全部频数之和求比值得到。频数分布(频数分布(frequency distributionfrequency distribution)和频率分布)和频率分布 把各个类别及其相应的频数或频率全部列出,并用统计表的形式表现出来形成。1.4.1 1.4.1
8、定性变量的统计表描述定性变量的统计表描述例如:假设某项调查中3000名被访问者按性别分类(组)后,即可整理得到男性和女性的人数,从而得到每一类的频数、频率以及比例分布表:表表3-7 3-7 某项调查某项调查30003000名被访问者按性别分组名被访问者按性别分组性别频数(人)频率百分比例(%)男14600.486748.67女15400.513351.331.4.1 1.4.1 定性变量的统计表描述定性变量的统计表描述顺序变量顺序变量累积的方法累积的方法 向上累积:从顺序变量取值的最小一方,向最大一方累加。向下累积:从顺序变量取值的最大一方,向最小一方累加。累积频数:累积频数:将顺序变量各个取
9、值的观测频数逐级累加起来得到的频数。累积频率或累积百分比累积频率或累积百分比 将顺序变量各取值所对应频数的百分比累加起来得到的百分比,1.4.1 1.4.1 定性变量的统计表描述定性变量的统计表描述例如:假设某项调查中3000名被访问者按照受教育水平高低可分为四大类时,除了可以得到每一类所对应的频数、比例分布表,还可计算累积频数或频率分布表:表表3-8 3-8 被访者受教育水平累积分布表被访者受教育水平累积分布表受教育水平人数(人)百分比(%)向上累积向下累积频数(人)频率(%)频数(人)频率(%)小学及以下240824083000100初中96032120040276092高中1230412
10、43081180060大学及以上57019300010057019合计3000100 1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述 对于定量变量,通常采用统计分组,得到每一组所对应的频数、频率或比例表,用来对数据特征进行描述。统计分组按照分组标志的不同可分为:统计分组按照分组标志的不同可分为:单变量分组 组距分组1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述单变量分组:单变量分组:把每一变量取值都作为分组标志。这种方法适用于离散型变量,且变量取值较少时的情形。例如:某项调查中100名调查员每人调查的有效问卷数。表表3-9 1003-9 100名调查员的有效
11、问卷数名调查员的有效问卷数 9510110310510710811011111411511511611612112212212412412512512512612612812813113113213313313413413513513513613613613713813913914014014214214214314314414414414514514514514714714714815215315315315415415415415515515515515615615916016116316316316316516616616616717117117117417517717817918018
12、21821881911961.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述对于有效问卷数处于130到150份之间的调查员根据其问卷数进行单变量分组,得到分组表:表表3-10 3-10 调查员按有效问卷数单变量分组调查员按有效问卷数单变量分组问卷数频数问卷数频数13121392132114021332142313421432135314431363145413711473138114811.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述 单变量分组会使得分组过细,组数过多,不利于观察数据分布的特征和规律。对于连续型变量也无法采用单变量分组方式。在连续型变量或变量取值
13、较多的情况下,通常采用组距分组。1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述组距分组组距分组 将全部变量取值划分为若干个区间,并将这一区间值作为分组标志 1.1.确定组数:确定组数:按照经验公式来确定组数n:为数据个数,对结果四舍五入取整即可得到经验分组数。2.2.确定各组的组距确定各组的组距:组距是一组的上限与下限数值的差。当采用等距分组时,组距=(最大值最小值)组数。定量变量进行统计分组表描述时遵循“不重不漏”原则,为此,对于组距分组,采用“上组限不在组内”原则。1.4.2 1.4.2 定量变量的统计表描述定量变量的统计表描述根据分组结果整理频数分布表:表表3-11 1
14、003-11 100调查员按有效问卷数组距分组表调查员按有效问卷数组距分组表分组(份)频数(人)频率(%)90-10011100-11055110-12077120-1301212130-1401717140-1501818150-1601515160-1701111170-18088180-19044190-20022合计1001002 2 用统计图描述数据用统计图描述数据2.1 2.1 统计图统计图2.2 2.2 定性变量的图示定性变量的图示 2.3 2.3 定量变量的图示定量变量的图示 2.4 2.4 趋势的图示趋势的图示 2.5 2.5 如何制作好的统计图如何制作好的统计图2.1 2.
15、1 统计图统计图统计图统计图是以图形形象地表现统计数据的一种形式。统计图的分类,根据描述统计变量的个数统计图的分类,根据描述统计变量的个数 单变量统计图 双变量统计图 多变量统计图 统计图的分类,根据描述统计变量的性质和外形特征:统计图的分类,根据描述统计变量的性质和外形特征:条形图,饼图,环形图,直方图,折线图,箱线图,线图,散点图 2.2 2.2 定性变量的图示定性变量的图示1 1条形图条形图 条形图(bar graph)可用于显示分类变量和顺序变量取值的频数或频率分布。用宽度相同的条形的高度或长短来表示频数的多少或频率的大小。条形图可以横置或纵置,纵置时也称为柱形(column grap
16、h)。根据图形描述的定性变量的个数,条形图有单式、复式等形式。2.2 2.2 定性变量的图示定性变量的图示单式条形图单式条形图复式条形图图图3-1 2011年我国人口中男女比例图年我国人口中男女比例图 图图3-2 1949年和年和2011年我国人口中男女比例图年我国人口中男女比例图2.2 2.2 定性变量的图示定性变量的图示2 2饼图饼图 饼图(pie chart)可用于显示分类变量和顺序变量取值所对应的频数或频率分布。用圆形及圆内扇形的面积来表示数值的大小。可用于表示分类变量中各组频数所占的比例,即相对大小。对于研究结构性问题十分有用。2.2 2.2 定性变量的图示定性变量的图示图图3-3
17、2011年我国人口中男女比例图年我国人口中男女比例图 2.2 2.2 定性变量的图示定性变量的图示3 3环形图环形图 环形图(doughnut chart)可以同时绘制多个总体或样本的数据系列。每一个总体或样本的数据系列为一个环。环形图可显示多个总体或样本各部分所占的相应比例。有利于进行比较研究。2.2 2.2 定性变量的图示定性变量的图示图图3-4 1949年和年和2011年我国人口中男女比例图年我国人口中男女比例图 2.3 2.3 定量变量的图示定量变量的图示定量变量定量变量也称为数值型变量。按照数据的取值类型,分为:连续性变量和离散型变量 用来描述定性变量取值的图示法都能够用来描述定性变
18、量的数值。此外,还可以采用直方图、折线图、箱线图、茎叶图等来进行描述。2.3 2.3 定量变量的图示定量变量的图示1 1直方图直方图 直方图(Histogram)是根据定量变量的取值范围来显示观测频数的图。常用于显示连续型变量在取值区间内的频数分布。用矩形的宽度和高度(即面积)来表示频数的分布。2.3 2.3 定量变量的图示定量变量的图示图图3-5 100名调查员的有效问卷数分布直方图名调查员的有效问卷数分布直方图2.3 2.3 定量变量的图示定量变量的图示直方图与条形图的不同:直方图与条形图的不同:(1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图
19、是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此,其高度与宽度均有意义。(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。(3)条形图主要用于展示分类数据,而直方图主要用于展示数值型数据。2.3 2.3 定量变量的图示定量变量的图示2 2折线图折线图 折线图也称频数多边形图,是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来形成的。2.3 2.3 定量变量的图示定量变量的图示图图3-6 100名调查员的有效问卷数分布折线图名调查员的有效问卷数分布折线图2.3 2.3 定量变量的图示定量变量的图示 当数据所分的组
20、数很多时,组距会越来越小,这时所绘制的折线图就会越来越光滑,逐渐形成一条平滑的曲线,即频数分布曲线。常见的频数分布曲线主要有:正态分布,偏态分布,J形分布,U形分布正态分布正态分布偏态分布偏态分布 右偏(正偏)左偏(负偏)2.3 2.3 定量变量的图示定量变量的图示J型分布型分布 U型分布型分布 2.3 2.3 定量变量的图示定量变量的图示3 3箱线图箱线图 箱线图(box plot)主要用来反映原始数据的分布特征。它由一组数据的最大值、最小值、中位数、上下四分位数这个五个特征数值组成。箱线图不能够反映出每一个原始数据的信息,但却提供了简明有效的视图。2.3 2.3 定量变量的图示定量变量的图
21、示图图3-8 3-8 按性别区分的男女学生外语成绩箱线图按性别区分的男女学生外语成绩箱线图2.4 2.4 趋势的图示趋势的图示 当我们需要考虑定量变量取值在不同时间截面上的分布特征、或者两个定量变量的取值所表现出的相关趋势时,就需要借助趋势图进行描述。2.4 2.4 趋势的图示趋势的图示1 1线图线图 线图(line plot)在直角平面坐标中主要用来描述定量变量取值随时间变化的特征,即时间序列数据的趋势特征,因此也可以称为时间序列时间序列图图。2.4 2.4 趋势的图示趋势的图示我国我国2003年到年到2011年我国外汇储备情况年我国外汇储备情况 图图3-9 20033-9 2003年年20
22、112011年我国外汇储备年我国外汇储备2.4 2.4 趋势的图示趋势的图示2 2散点图散点图 散点图(scatter plot)是用二维直角平面坐标展示两个定量变量取值随时间变化表现出的趋势,主要用来观察变量间的相关关系。用坐标横轴代表变量 ,纵轴代表变量,两个变量的每组数据 在坐标系中用一个点表示。2.4 2.4 趋势的图示趋势的图示图图3-10 1998-2007年国内生产总值和货运周转量散点图年国内生产总值和货运周转量散点图 2.5 2.5 如何制作好的统计图如何制作好的统计图 “图优性图优性”是指图形能够在最短的时间内,用最少的笔墨,在最小的空间里,给观众最多的思想。一个好图应具备的
23、基本特征:(1)显示数据;(2)注意力集中在图形的内容上,而不是制作程序;(3)避免歪曲事实;(4)强调数据之间的比较;(5)服务于一个明确的目的;(6)有对图形的统计描述和文字说明。2.5 2.5 如何制作好的统计图如何制作好的统计图TufteTufte提出了五种鉴别图形好坏的标准提出了五种鉴别图形好坏的标准(1)好图应当精心设计,有助于洞察问题的实质;(2)好图应当使复杂的观点得到简明、确切、高效的阐述;(3)好图应当能以最少的笔墨提供最大的信息(4)好图应当是多维的;(5)好图应当表述数据的真实情况。2.5 2.5 如何制作好的统计图如何制作好的统计图你能看出他们的问题吗?我国主要年份社会消费品零售额按行业划分构成我国主要年份社会消费品零售额按行业划分构成 2.5 2.5 如何制作好的统计图如何制作好的统计图1999年年-2008年我国社会消费品零售总额及其增速年我国社会消费品零售总额及其增速