统计学-数据的收集与整理教案.ppt

资源描述

数据的收集、整理1.理解数据的来源,理解五种统计调查方式,掌握五种概率抽样方法的定义,理解五种统计调查方法.理解抽样误差的定义,了解非抽样误差.会撰写统计调查方案。2.了解统计整理的概念;了解统计分组的定义、作用,理解统计分组的原则、种类;掌握组距数列的编制步骤;掌握洛伦兹曲线和基尼系数的含义与用途.3.准确应用统计图和统计表显示统计数据的数量特征.学习目标内容安排一、数据的收集二、数据的整理三、统计表与统计图数据的收集数据的收集统计资料收集是根据统计研究的目统计资料收集是根据统计研究的目的要求，采用一定组织形式与科学方法，的要求，采用一定组织形式与科学方法，进行采集与研究问题有关的各类信息资进行采集与研究问题有关的各类信息资料的工作过程。料的工作过程。1.数据的来源（1）第一手数据（2）第二手数据第一手数据第一手数据是反映被调查对象原始状况的资料,如原始记录、统计台账、调查问卷答案、实验结果等.统计调查或进行实验是数据的直接来源.原始数据是统计数据的最基本的来源.第二手数据第二手数据是已经存在的经他人整理分析过的资料.数据的间接来源常用的有以下一些:公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校和科研机构.尚未公开发表的数据,如各企业的经营报表数据.使用第二手数据需要注意的问题应注意数据的含义、计算口径和计算方法,避免误用或滥用;注意第二手数据的时间性,不能用过时的数据;应充分搞清这些数据的来源和可靠程度;应注明数据的出处,以尊重他人的劳动成果.2.统计调查（1）统计调查方案设计（2）统计调查方法（3）统计调查的组织方式确定调查目的与任务确定调查对象和调查单位确定调查项目和调查表确定调查时间和调查期限制定调查工作的组织实施计划统计调查方案统计调查方案统计调查方法1.现场观察法2.报告法3.问卷法4.访谈法5.实验采集法统计调查组织方式1.统计报表2.普查3.抽样调查4.重点调查5.典型调查统计报表统计报表统计报表（Statistical Report Forms）是指依照国家统计局或国家各行政管理部门的规定，自上而下地统一布置，以一定的原始记录为依据，按照统一的表式，统一的指标项目，统一的报送时间与报送程序，自下而上地逐级定期提供基本统计资料的一种调查方式。普查普查普查（Census）是对调查对象的全部调查单位逐一进行的调查。其特点：是一次性调查，是专门组织的全面调查，即普查主要用来调查属于一定时点上的现象总量。关键词：全面调查、一次性、时点资料美国普查局 http:/www.census.gov/美国普查局抽样调查抽样调查抽样调查（Sampling Survey）是一种非全面调查，它是在全部调查单位中抽取一部分单位作为样本进行调查，再根据调查结果推断总体的一种调查方法。概率抽样和非概率抽样概率抽样和非概率抽样根据抽选样本的方法,抽样调查可以分为：概率抽样概率抽样:也称随机抽样,是按照随机原则抽选样本的抽样方式,抽样时每个样本单位被选中的概率是已知.概率抽样中可以对抽样误差进行控制.在我国,习惯上将概率抽样称为抽样调查.不满足概率抽样要求的抽样都被归为非概率抽样非概率抽样.非概率抽样单个单位被选中的概率是不可知的,不能从概率意义上控制抽样误差.随机原则:在抽选样本时排除主观因素的影响(不是有意识的抽选某些单位),使每个单位都有一定的机会被抽中.等概率抽样等概率抽样:抽样时每个单位被选中的概率都相等.不等概率抽样不等概率抽样:抽样时不是每个单位被选中的概率都相等.抽样调查抽样调查非概率抽样非概率抽样概率抽样概率抽样不等概率抽样不等概率抽样等概率抽样等概率抽样概率抽样中的随机原则概率抽样中的随机原则是实际中应用最广泛的一种调查方式.1992年我国的国家调查系统将抽样调查列为统计调查的主体.与全面调查相比,它具有以下明显的特点：经济性.普查需要花费大量人力、财力,而采用抽样调查则可取得事半功倍的效果.时效性强.可以迅速及时地获得信息.适应面广.对于某些不可能进行普查的现象,只能通过抽样调查获取这些现象的部分数据.有可能获得比普查更高的数据质量.普查中工作量大、环节多,登记性误差往往很大.抽样调查的特点抽样调查的特点抽样调查方法的分类在抽样调查中可以把总体分成若干个互不重叠又穷尽的有限个部分,每个部分称为一个抽样单位抽样单位(抽样单元抽样单元,Sampling unit).抽样单位可以是一个总体单位,也可以包含多个个体.所有抽样单位的名单称为抽样框抽样框(Sampling Frame).抽样框应尽可能与目标总体相一致.抽样框有以下形式:名单抽样框,即以名册或清单形式列出总体所有单位例如,学生名册、企业名录、职工名单、住户名单、村庄名单、社区名单等等.抽样单元和抽样框区域抽样框,按自然地域划分并排列出总体所有单位.例如,一片土地划分为若干地块并编号、一片森林划分为若干林区并编号等.时间表抽样框,按时间顺序排列总体单位.例如,流水线生产的产品质量检验,把一天划分为若干时段并按顺序排列.抽样框的编制是抽样调查的前提条件,要求不重不漏不重不漏来保证样本对总体的代表性.概率抽样调查的方式主要有以下五种:()()简单随机抽样简单随机抽样(Simple Random Sampling)(Simple Random Sampling)也称纯随机抽样.直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等.可分为有放回和无放回两种方式.是最基本的抽样方法,许多抽样方法都是在它的基础上发展起来的.其数学性质简单,理论也最为成熟.有放回抽样和无放回抽样有放回抽样和无放回抽样有放回抽样有放回抽样:也称为重复抽样,在一个单位被选入样本后,记录其编号,然后又将其放回总体中继续参与随后的抽样过程.无放回抽样无放回抽样:也称为不重复抽样,在一个单位被选入样本后,不再放回总体参与随后的抽样过程.重复抽样的误差也比不重复抽样略大.实际应用中一般采用不重复抽样.从N个总体单位中抽选n个单位组成样本,可以先将N个单位编号,若抽到某个号则对应的单位入样.通常有抽签法和随机数法两种抽选方法.抽签法:用均匀同质的材料制作N个签并充分混合,然后一次抽取n个签,或一次抽取一个签但不放回,直至抽满n个签为止.随机数法:随机数表随机数骰子计算机产生的伪随机数抽选样本单位的方法抽选样本单位的方法39 65 76 45 45 19 90 69 64 61 20 26 36 31 62 73 71 23 70 90 65 97 60 12 11 98 40 07 17 66 72 20 47 33 84 51 67 47 97 19 98 40 07 17 66 75 17 25 69 17 17 95 21 78 58 24 33 45 77 48 37 48 79 88 74 63 52 06 34 30 01 31 60 10 27 02 89 08 16 94 85 53 83 29 95 56 27 09 24 43 随机数表举例当总体内样本单位不多,且有完备名册,可用于编号时对研究的目的而言,总体内样本单位间的差异不大时.无法充分获得总体信息时由于编制抽样框及抽取的样本可能过于分散等原因在实际实施中有一定困难,加之没有利用其他辅助信息提高估计的效率,所以大规模调查中很少直接采用.简单随机抽样简单随机抽样最适用的场合最适用的场合系统抽样(也称机械抽样):将总体N个单位按某种顺序排列,在规定的范围内随机抽取起始单元,然后按一套规则确定其他样本单元的一种抽样方法.最简单的系统抽样是等距抽样.下面介绍直线等距抽样:将总体分成n个组,每组有 k=N/n个单位.在第一组随机选择一个单位,之后每隔k个选择一个.N=64n=8k=8第一组第一组()()系统抽样系统抽样 (Systematic Sampling)(Systematic Sampling)总体单位的顺序可能影响抽样结果:各单元的排队顺序与所研究的内容无关;各单元的排队顺序与所研究的内容有内在联系.优点:抽取样本简便易行,易于监控.主要适用场合:总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的.总体内单位数过多,而抽取的样本又较多时.总体内的单位数不能确定时(例如抽取学号最后一位为8的学生进行调查).系统抽样的特点系统抽样的特点也称类型抽样.即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式.男生男生女生女生样本样本()()分层抽样分层抽样 (Stratified Sampling)可以提高样本的代表性,提高估计的精度.抽样误差只受层内方差的影响,分层时应使层间方差大、层内方差小.最适用的场合:当总体内样本单位的差异较大时;分层后能达到层间差异大,层内差异小的原则时.分层抽样的特点分层抽样的特点按比例分层抽样:按各层单元数占总体单元数的比例进行分配.在有些情况下为了降低抽样误差或者对各层的参数进行较好的估计,需要采用不按比例分层抽样.在不按比例的分层抽样中如果要用样本资料推断总体,需要对各层的数据资料进行加权处理.按比例分层抽样和不按比例分层抽样按比例分层抽样和不按比例分层抽样假设要从1000亩农田中抽取100亩调查小麦的平均亩产.1000亩耕地中有600亩为平原,400亩为丘陵;平原地区的亩产量相差不大(方差很小),而丘陵地区亩产量的差别很大(方差大).按比例抽样:平原和丘陵各抽60亩和40亩.不按比例抽样:为了更准确地估计丘陵地区的平均亩产,在丘陵地区多抽一些农田(例如70亩),从平原地区抽取30亩.这时总体平均亩产的估计值为不按比例分层抽样不按比例分层抽样(不等概率抽样不等概率抽样)的例子的例子先将总体分为R个群(即次级单位或子总体),每个群包含若干总体单位.按某种方式从中随机抽取r个群,然后对抽中的群的所有单位都进行调查的抽样方式.总体分成总体分成4个群个群随机选择随机选择2个个群构成样本群构成样本()()整群抽样整群抽样 (Cluster Sampling)(Cluster Sampling)不需要所有总体单位的抽样框.由于样本单位不能均匀的分布在总体中,所以样本的代表性要差一些(对策:增大样本容量).抽样误差受群间方差的影响,不受群内方差的影响.分群时应使群间方差小.最适用的场合:总体名单不易获得时为节省调查成本时群内差异大,而群间的变异小时整群抽样的特点整群抽样的特点先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,如此下去直至抽取所要调查的基本单位的抽样方法.例如:统计年鉴2004指出 2003年人口变动情况抽样调查是以全国为总体,各省、自治区、直辖市为次总体,采用分层、等距、整群概率比例抽样方法,在全国31个省、自治区、直辖市抽取了990个县(市、区)、3734个乡(镇、街道)、6544个调查小区的126万人.()多阶段抽样多阶段抽样(muti-stage Sampling)(muti-stage Sampling)适用于总体分布很广,不可能从总体中直接抽取样本单位的情况.不需要全部低级单位的抽样框,节省了调查费用.方法灵活多样.抽样调查的组织方式完全取决于调查研究的目的要求、调查对象的特点和客观的条件.凡是能够最经济、最省时而又能够满足预期精确度和可靠性的组织方式,便是一种好的组织方式,这也是抽样设计的最根本的原则.多阶段抽样的特点多阶段抽样的特点非概率抽样方便抽样判断抽样配额抽样雪球抽样不满足概率抽样要求的抽样都被归为非概率抽样.非概率抽样中单个单位被选中的概率是不可知的,无法根据样本计算抽样误差.非概率抽样非概率抽样纯粹以方便为基本着眼点的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题.也译为便利抽样、偶遇抽样.例如:在街头的拦截式访问.登在报刊、网上的问卷.方便抽样方便抽样(Convenience sampling)(Convenience sampling)调查者根据主观经验和判断从总体中选取有代表性的单位构成样本.精度取决于抽样者的经验.不能获得估计值的精度.适用于总体单位极不相同而样本容量又很小的情况判断抽样判断抽样 (Judgment Sampling)(Judgment Sampling)是非随机抽样方法中最常用的一种抽样方法.分为两个步骤:根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额；然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位.配额抽样配额抽样 (Quota sampling)(Quota sampling)也译为滚雪球抽样.其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位;这种过程不断继续,直到完成规定的样本容量为止.主要用于对稀少群体的调查.例如某研究部门在调查保姆问题时,先访问了7名保姆,然后再请她们提供其他保姆名单,逐步扩大到近百人.雪球抽样雪球抽样(Snowball Sampling)重点调查重点调查（Key-point Survey）是指在调查对象中，选择一部分重点调查单位收集统计资料的一种非全面调查。关键词：重点调查单位，是指这些被调查的总体单位中数目不多，所占比重不大，但其调查的标志值却在总量中占有很大比重，在总体中具有举足轻重的作用。典型调查典型调查（Model Survey）是指根据调查目的，在对所研究现象全面分析的基础上，有意识地选择有代表性的典型单位进行深入细致地调查，以便认识事物的本质与发展变化规律的一种非全面调查方法。关键词：典型单位，是指那些能充分、集中地体现调查对象总体某些方面共性特征的最有代表性的单位。抽样调查中的误差抽样误差抽样框误差无回答误差计量误差非抽样误差抽样调查中的误差数据的质量数据的质量误差与抽样误差误差是指估计值与真实值之间的差异.抽样误差(Sampling error):由于抽选样本的随机性造成的误差,也称为代表性误差.样本只是总体的一部分,它对总体的代表性存在局限性,从而会造成误差.在抽样调查中,抽样误差就不可避免.在概率抽样中抽样误差是能够计量且可以得到控制的.影响抽样误差的主要因素包括:总体内部的差异程度;样本容量的大小;抽样的方式方法等.非抽样误差:除抽样误差以外的所有误差.通常认为是由于调查程序执行中的错误与不足引起的.主要包括抽样框误差、无回答误差和计量误差.国内也称为“工作误差”或“调查误差”.非抽样误差(Nonsampling error)数据的整理(统计整理)统计整理是统计工作的中间环节，学习本部分内容的目的在于掌握统计分组的方法，认识分布数列是统计整理的重要表现形式，会编制变量数列，并且会用统计表表现统计资料。数据的整理统计整理的基本概念与步骤统计分组分布数列统计图表数据的整理，是根据统计研究的目的，将统计调查所得到的原始资料进行加工，为统计分析准备系统化、调理化的综合资料的工作过程。1、数据的整理例如，某班50名学生，调查其考分资料如下：77 65 83 56 68 70 99 65 73 72 88 66 74 63 71 84 62 52 80 78 84 79 81 64 58 82 76 62 73 75 89 79 61 65 54 92 86 73 68 51 69 64 78 63 76 68 72 77 81 76.按考分分组按考分分组（分）（分）学生人数学生人数（人）（人）60 60以下以下60 60 707070 70 808080 80 909090 90 100100 5 5 15 15 18 18 10 10 2 2合合计计 50 50 由表2-1可见，整理后的学生考分资料，较整理前的考分资料明显要条理、系统。表表2-12-1 统计整理是统计调查的继续，是统计分析的前提，它实现了从个别单位的标志表现（标志值）向总体综合指标的过渡，在统计研究中起着承前启后重要的作用。数据整理从广义上讲,包括两种整理.第一是对统计调查所收集到的各种数据进行分类和汇总,称为汇总性整理.第二种是对现成的综合统计资料进行整理.统计整理的程序统计整理的程序:1.制定整理方案即根据研究任务的要求选择应整理的指标并根据分析任务的需要，确定具体的分组。2.审核统计数据审核方法有逻辑检查和技术检查。见例 3.对数据进行编码和录入4.统计分组和汇总5.编制统计表，绘制统计图，显示整理结果。6.统计资料的积累和开发例：例：一次农村调查中一次农村调查中某村干部在反映总体情况时：某村干部在反映总体情况时：该村总劳力为776人在后面反映劳力的分布状况时：全村在乡镇企业当职工的：187人在村办企业当职工的：200人其余是种田的：95人482人武武汉市居民生活市居民生活质量量调查问卷卷结果果实例（例（节选）区区汉阳汉阳1 1武昌武昌 2 2汉阳汉阳 3 3江汉江汉 4 4江岸江岸5 5青山青山 6 6硚口硚口 7 7洪山洪山2 2编号编号0387038703870387A1A1性别性别1.1.男男 2.2.女女2 2A2A2年龄年龄3939岁岁3939A3A3文化文化程度程度1.1.小学及以下小学及以下 2.2.初中初中 3.3.高中及中专高中及中专 4.4.大专及以上大专及以上3 3A4A4职业职业1.1.生产、运输工人和有关人员生产、运输工人和有关人员2.2.商业人员商业人员 3.3.党政企事业单位负责人党政企事业单位负责人4.4.服务人员服务人员 5.5.党政企事业单位工作人员党政企事业单位工作人员6.6.个体经营者个体经营者 7.7.各类专业技术人员各类专业技术人员8.8.离退休人员离退休人员 9.9.其他（请写明）其他（请写明）。2 2 2.2.统计分组的定义、作用、原则、种类统计分组的定义、作用、原则、种类统计分组是根据统计研究的目的,选择某一标志某一标志作为分组的依据,将总体分成若干个不同的组.举例从分组的性质来看,分组兼有分和合双重含义.对总体而言是“分”,即将总体分为性质相异的若干组成部分;对个体而言是“合”,即将性质相同的个体组合起来.例如，企业按经济类型分组：国有企业集体企业个体企业其它企业学生按考分分组：60分以下（不及格）6070分（及格）7080分（中等）8090分（良好）90100分（优秀）分组的作用分组的作用：n划分现象的类型;n揭示现象内部结构;n分析现象之间的依存关系.分组的原则分组的原则:穷尽原则:使总体中的每一个单位都应有组可归.互斥原则:在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组.1)按分组标志的多少简单分组简单分组:就是对研究现象按一个标志进行分组.复合分组复合分组:用两个或两个以上标志分组,即先按一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组,这称为复合分组.2)按分组标志的性质不同品质分组品质分组:按品质(或属性)标志进行分组.品质分组所形成的数列称为品质数列.变量分组变量分组:按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组.变量分组所形成的数列称为变量数列.分组的种类分组的种类2)按任务与作用的不同类型分组类型分组:总体按主要的品质标志分组，多属于类型分组.结构分组：结构分组：总体按主要的数量标志分组，多属于结构分组分析分组：分析分组：按照研究对象总体诸标志依存关系。分组标志的选取与分组体系分组标志的选取与分组体系统计分组的关键在于分组标志的选择。必须根据现象所处的具体历史条件（经济条件），按照统计研究的目的，选择具有本质性的标志作为分组标志。根据统计研究的目的选择分组标志。选择能够反映现象本质的分组标志。结合现象所处的具体历史条件（经济条件）选择分组标志。-简单分组：按单个标志进行分组。-复合分组：按两个或两个以上标志进行分组。-分组体系：对社会经济现象需要从各方面进行观察和分析研究，需要采用一系列相互联系、相互补充的标志对现象进行多种分组，这些分组结合起来构成一个体系，叫做分组体系。分组标志的选取与分组体系分组标志的选取与分组体系分组体系对现象进行多种分组、再排列起来的结果平行分组体系：按多个标志进行简单分组，再排列层叠复合分组体系：先进行多种复合分组，再排列分组体系对现象的认识更加全面、深刻分组方法分组方法品质分组法品质分组法数量分组法数量分组法.品质分组（按品质标志分组）品质分组（按品质标志分组）国民经济按产业分组：第一产业第二产业第三产业人口按性别分组：男性女性用文字来表示各组性质上的差别.数量分组（按数量标志分组）数量分组（按数量标志分组）单项式分组组距式分组用数量来表示各组性质上的差别.（即一个组只有一个变量值）单项式分组单项式分组适用于：变量值变化范围不大、不同变量值个数较少的离散变量。居民家庭按子女数分组：0 1 2 3 （离散变量）例如：.将相邻几个变量值并为一组（形成一个区间），即一个组有一个变量值的变动范围。例如：企业按人数分组 499及以下 500 999 1000 2999 3000及以上工人按工资分组 600 700 700 800 800 1200 1200 1500 组距式分组适用于：变量值变化范围较大、不同变量值个数较多的离散变量及连续变量。（离散变量）（连续变量）注意：连续型变量的数值不能一一列举，故其只能采用组距式分组。组距式分组（应注意）.组限及划分方法组距与组数组中值 .组距与组数组距与组数组距=本组上限前组上限（通用公式）组距=本组上限本组下限（重叠组限）全距=最大变量值最小变量值组距与组数一般是用整数表示。学生按考分分组（分）50 60 60 70 70 80 80 90 90 100等距分组等距分组异距分组异距分组.即各组组距相同的分组。等距分组：（在变量值分布比较均匀时采用）异距分组：即各组组距不都相等的分组。（在变量值分布很不均匀时采用）根据事物性质变化的数量界限来确定组距。如人口按年龄分组，要注意不同年龄生理变化的特点，可分为：1岁以下；16 岁；712 岁；1318 岁；1959 岁；60 岁以上。499及以下 500 999 1000 2999 3000及以上 600 700 700 800 800 1200 1200 1500.组限及划分方法组限及划分方法工人按工资分组：企业按人数分组：重叠组限不重叠组限组限的划分（只适用于离散变量）500及以下 500 1000 1000 3000 3000及以上当某单位的变量值刚好等于相邻两组的上下限时，一般把此值归到作为下限的那一组中，即遵循“上限不在内”原则。.组中中值指各组上限和下限之间的中点数值。（假定组内标志值均匀分布）（考分：52 54 57 58 59）按考分分组 50 60 60 70 70 80 80 90 90 100 55 75 658595（考分：51 52 53 54 55）不均匀分布50 55 60 均匀分布 50 55 60 组中值封口组封口组开口组开口组.若第一组出现“以下”或最末组出现“以上”字样的组叫做开口组。首组组中值=首组上限相邻组组距的一半=末组下限+相邻组组距的一半末组组中值50 102100+102其组中值的确定：.首组：末组：按考分分组组中值 50 60 55 60 70 65 70 80 75 80 90 85 90 100 9550以下45.统计分组的种类（一）按照分组标志的个数不同.（二）按照分组标志的性质不同 .简单分组-平行分组体系复合分组复合分组体系品质分组数量分组-变量数列单项式分组组距式分组离散变量连续变量等距分组-异距分组开口组-闭口组组限、组距、组中值组距式分组（重叠组限）简单分组复合分组品质数列分组联图 3.3.次数分布次数分布次数分布次数分布:在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组间的分布.频数频数(次数次数):落在各组中的数据个数.频率频率:次数与总次数的比值.把各组的频数或频率按一定的顺序排列而成的数列,称为次数分布数列次数分布数列,简称分布数分布数列列.按考分按考分分分组组人数人数（人）（人）频率频率（）（）505060 60 606070 70 707080 80 808090 90 90901001005 51515181810102 210103030363620204 4合合计计5050100100次数（频数）频率总体的分组标志次数分布频率分布注注:正确理解比例与比率这两个概念正确理解比例与比率这两个概念.比例(Proportion):也称构成比,它是一个样本(或总体)中各个部分的数据与全部数据之比,通常用于反映样本(或总体)的构成或结构.比例100=百分比(Percentage),用%表示.显然比例的取值范围是:0,1比率(Ratio)是样本(或总体)中不同类别数据之间的比值.由于比率不是部分与整体之间的对比关系,因而比值可能大于1.综上:频率实际上是比例.分布数列的种类分布数列的种类(按分组标志不同按分组标志不同)n品质数列:按品质标志分组形成,有各组名称和次数组成.n变量数列:按数量标志分组形成,可分为单项式和组距式两种.例例为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中一个问题是:“您比较关心下列哪一类广告？”(1)商品广告;(2)服务广告;(3)金融广告;(4)房地产广告;(5)招生招聘广告;(6)其他广告.某城市居民关注广告类型的频数分布单项数列:总体按单项式分组而形成的变量数列,每一组由一个变量值来表示.适用于组数不多和组值变动幅度不大.组距数列:将全部变量值依次划分为若干区间,每组有一个区间表示.适用于变量个数较多、变动幅度较大.变量数列的编制变量数列的编制确定变量数列的形式(1)若变量是连续型变量,只能采用组距数列表示.(2)若变量是离散型变量 (a)在变量值不多的情况下,可编制单项数列;(b)若变量值个数较多,编制组距数列.组距数列的编制步骤组距数列的编制步骤排序并求出全距(最大值-最小值);确定组数和组距;确定组限和组中值;归组并计算出各组的次数;显示或打印出次数分布表.组数:一组数据所分成组的个数.斯特杰斯经验公式计算结果只要有小数,就把小数舍去,并在整数位上加1,不采用四舍五入.组限:在组距式分组中,一个组的最小值称为下限,最大值称为上限.组距:每个组上限和下限之间的距离.等距分组:各组的组距相等(变量值变动均匀变量值变动均匀).异距分组:各组的组距不相等(现象变动很不均衡现象变动很不均衡,变量值变量值变动幅度较大变动幅度较大,宜采用宜采用).确定组限对于连续型变量,通常以一个数值作为相邻两组的上限和下限;遵循“上限不在内原则”对于离散型变量,上下限可以重叠,也可以不重叠.注注:最小组的下限低于或等于最小变量值,最大组的上限高于或等于最大变量值.闭口组:组距的上限、下限都齐全.开口组:在组距分组中,为避免出现空白组或个别极端值被漏掉,第一组和最后一组采取“以下”及“以上”的开口组.例例2 2在一批灯泡中随机抽取100只进行测试,测得灯泡的使用寿命(单位:小时)数据如下,要求编制次数分布表.4.4.洛伦兹曲线和基尼系数洛伦兹曲线和基尼系数洛伦兹曲线洛伦兹曲线1.20世纪初美国经济学家、统计学家洛伦兹(M.E.Lorentz)根据意大利经济学家帕累托(V.Pareto)提出的“二八原理”和收入分配公式绘制而成.2.描述收入和财富分配性质的曲线.横轴表示累积的人口百分比,纵轴表示累积的收入或财富百分比.3.45度直线是绝绝对对平平均均线线,表明收入分配绝对平均;横轴与图中最右边的纵轴构成绝绝对对不不平平均均线线,表明收入分配绝对不平均.根据实际资料所作的反映实际收入分配状况的曲线位于绝对平均线和绝对不平均线之间,称为洛伦兹曲线洛伦兹曲线.洛伦兹曲线与绝对平均线越接近,表示收入分配越平均,而洛伦兹曲线向下弯曲越大,与绝对不平均线越接近,表示收入分配越不平均.基尼系数基尼系数 20世纪初意大利经济学家基尼(G.Gini)根据洛伦兹曲线给出了衡量收入分配平均程度的指标,即基尼系数,用公式表示为:式中:A表示实际收入曲线与绝对平均线之间的面积;B表示实际收入曲线与绝对不平均线之间的面积.如果A=0,则基尼系数=0,表示收入分配绝对平均.如果B=0,则基尼系数=1,表示收入分配绝对不平均.基尼系数在0 和1之间取值.一般认为,基尼系数若小于0.2,表明分配平均但缺乏效率;基尼系数在0.2至0.4之间是比较适当的,即一个社会既有效率又没有造成极大的分配不公;基尼系数在0.4时被认为是收入分配不公平的警戒线.超过了0.6,则表示可能由于收入分配不公导致社会不稳定.统计表统计表统计表是把由统计调查所得来的、经过整理的数据,按一定顺序排列而形成的表格.一个完整的统计表从结构上看一般包括:总标题总标题(或表或表头头)、行标题、列标题、指标数值、行标题、列标题、指标数值.对表中指标或数据的补充说明一般作为附加部分放在统计表的下方.统计表的构成统计表与统计图表表 3-1 2003年我国就业基本情况年我国就业基本情况项目项目20012002 2003经济活动人口（万人）就业人员合计 (万人)城镇登记失业人数(万人)城镇登记失业率 ()74432730256813.6 75360737407704.0 76075744328004.3 资料来源:2004年统计年鉴中国统计出版社注：1990年至2000年,就业人员总计、城镇和乡村就业人员小计资料根据第五次全国人口普查资料重新调整,2001年及以后资料根据人口变动抽样调查资料推算,因此分地区、分类型、分行业的分项资料相加不等于总计.行行标标题题表头表头列列标标题题指指标标数数值值附加附加统计表的制作要求原则:科学、实用、美观、简练.标题简明扼要,满足3W要求(When,Where,What).统计表为“开口式”,即统计表的左右两边不封口;表的上下两条横线一般用粗线，其他线用细线,线条要少.数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明.表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一.对于没有数字、缺某项或免填的表格单元,应使用特定符号标出.必要时可在表的下方加上注释.简单表:指未经任何分组的统计表又称一览表简单分组表:指只用一个标志分组形成的统计表简称分组表复合分组表:指按两个或两个以上标志进行分组简称复合表统计表的分类统计表的分类分组表复合表统计图统计图统计图基本包括统计图基本包括:标题:包括图表标题、数值轴标题.坐标轴和网格线:两者构造了绘图区的骨架.图表区和绘图区:统计图绘制在绘图区内.图例:标明图表中的数据系列.1、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息.时间一般绘在横轴,指标数据绘在纵轴.长宽比例要适当,其长宽比例大致为10:7.一般情况下,纵轴数据下端应从“0”开始.数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断.绘制统计图时的注意事项2、图形要尽量简明.图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力.3、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等.4、反复加工和修改是获得优秀统计图形的重要步骤.统计软件给出的统计图形没有多少可以不加修改而直接应用.绘制统计图时的注意事项根据分析的目的,对数据进行排序和分类(组).对分类后的数据进行汇总,计算各类(组)及总体的指标.Excel提供了多种数据整理工具,主要有:数据排序和筛选;频数分布函数;数据透视表;统计图；直方图分析工具.用用EXCEL软件做统计数据的整理软件做统计数据的整理

展开阅读全文