统计学-数据的收集与整理-文档资料.ppt

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据的收集、整理,1,1.,理解数据的来源,理解五种统计调查方式,掌握五种概率抽样方法的定义,理解五种统计调查方法,.,理解抽样误差的定义,了解非抽样误差,.,会撰写统计调查方案。,2.,了解统计整理的概念,;,了解统计分组的定义、作用,理解统计分组的原则、种类,;,掌握组距数列的编制步骤,;,掌握洛伦兹曲线和基尼系数的含义与用途,.,3.,准确应用统计图和统计表显示统计数据的数量特征,.,学习目标,2,内容安排,一、数据的收集,二、数据的整理,三、统计表与统计图,3,数据的收集,统计资料收集是根据统计研究的目的要求，采用一定组织形式与科学方法，进行采集与研究问题有关的各类信息资料的工作过程。,4,1.,数据的来源,（,1,）第一手数据（,2,）第二手数据,5,第一手数据,是反映被调查对象原始状况的资料,如原始记录、统计台账、调查问卷答案、实验结果等,.,统计调查或进行实验是数据的直接来源,.,原始数据是统计数据的最基本的来源,.,第二手数据,是已经存在的经他人整理分析过的资料,.,数据的间接来源常用的有以下一些,:,公开出版的统计数据,主要来自官方的统计部门和政府、组织、学校和科研机构,.,尚未公开发表的数据,如各企业的经营报表数据,.,6,使用第二手数据需要,注意的问题,应注意数据的含义、计算口径和计算方法,避免误用或滥用,;,注意第二手数据的时间性,不能用过时的数据,;,应充分搞清这些数据的来源和可靠程度,;,应注明数据的出处,以尊重他人的劳动成果,.,7,2.,统计调查,（,1,）统计调查方案设计,（,2,）统计调查方法,（,3,）统计调查的组织方式,8,确定调查目的与任务,确定调查对象和调查单位,确定调查项目和调查表,确定调查时间和调查期限,制定调查工作的组织实施计划,统计调查方案,9,统计调查方法,现场观察法,报告法,问卷法,访谈法,实验采集法,10,统计调查组织方式,统计报表,普查,抽样调查,重点调查,典型调查,11,统计报表,统计报表（,Statistical Report Forms,）是指依照国家统计局或国家各行政管理部门的规定，自上而下地统一布置，以一定的原始记录为依据，按照统一的表式，统一的指标项目，统一的报送时间与报送程序，自下而上地逐级定期提供基本统计资料的一种调查方式。,12,普查,普查（,Census,）是对调查对象的全部调查单位逐一进行的调查。其特点：是一次性调查，是专门组织的全面调查，即普查主要用来调查属于一定时点上的现象总量。,关键词：,全面调查、一次性、时点资料,美国普查局,www.census.gov/,13,美国普查局,14,抽样调查,抽样调查（,Sampling Survey,）是一种非全面调查，它是在全部调查单位中抽取一部分单位作为样本进行调查，再根据调查结果推断总体的一种调查方法。,15,概率抽样和非概率抽样,根据抽选样本的方法,抽样调查可以分为：,概率抽样,:,也称随机抽样,是按照随机原则抽选样本的抽样方式,抽样时每个样本单位被选中的概率是已知,.,概率抽样中可以对抽样误差进行控制,.,在我国,习惯上将概率抽样称为抽样调查,.,不满足概率抽样要求的抽样都被归为,非概率抽样,.,非概率抽样单个单位被选中的概率是不可知的,不能从概率意义上控制抽样误差,.,16,随机原则,:,在抽选样本时排除主观因素的影响,(,不是有意识的抽选某些单位,),使每个单位都有一定的机会被抽中,.,等概率抽样,:,抽样时每个单位被选中的概率都相等,.,不等概率抽样,:,抽样时不是每个单位被选中的概率都相等,.,抽样调查,非概率抽样,概率抽样,不等概率抽样,等概率抽样,概率抽样中的随机原则,17,是实际中应用最广泛的一种调查方式,.1992,年我国的国家调查系统将抽样调查列为统计调查的主体,.,与全面调查相比,它具有以下明显的特点：,经济性,.,普查需要花费大量人力、财力,而采用抽样调查则可取得事半功倍的效果,.,时效性强,.,可以迅速及时地获得信息,.,适应面广,.,对于某些不可能进行普查的现象,只能通过抽样调查获取这些现象的部分数据,.,有可能获得比普查更高的数据质量,.,普查中工作量大、环节多,登记性误差往往很大,.,抽样调查的特点,18,抽样调查方法的分类,19,在抽样调查中可以把总体分成若干个互不重叠又穷尽的有限个部分,每个部分称为一个,抽样单位,(,抽样单元,Sampling unit).,抽样单位可以是一个总体单位,也可以包含多个个体,.,所有抽样单位的名单称为,抽样框,(Sampling Frame),.,抽样框应尽可能与目标总体相一致,.,抽样框有以下形式,:,名单抽样框,即以名册或清单形式列出总体所有单位例如,学生名册、企业名录、职工名单、住户名单、村庄名单、社区名单等等,.,抽样单元和抽样框,20,区域抽样框,按自然地域划分并排列出总体所有单位,.,例如,一片土地划分为若干地块并编号、一片森林划分为若干林区并编号等,.,时间表抽样框,按时间顺序排列总体单位,.,例如,流水线生产的产品质量检验,把一天划分为若干时段并按顺序排列,.,抽样框的编制是抽样调查的前提条件,要求,不重不漏,来保证样本对总体的代表性,.,21,概率抽样调查的方式主要有以下五种,:,(),简单随机抽样,(Simple Random Sampling),也称纯随机抽样,.,直接从总体单位中抽选样本单位,每个个体被选入样本的概率都相等,.,可分为有放回和无放回两种方式,.,是最基本的抽样方法,许多抽样方法都是在它的基础上发展起来的,.,其数学性质简单,理论也最为成熟,.,22,有放回抽样和无放回抽样,有放回抽样,:,也称为重复抽样,在一个单位被选入样本后,记录其编号,然后又将其放回总体中继续参与随后的抽样过程,.,无放回抽样,:,也称为不重复抽样,在一个单位被选入样本后,不再放回总体参与随后的抽样过程,.,重复抽样的误差也比不重复抽样略大,.,实际应用中一般采用不重复抽样,.,23,从,N,个总体单位中抽选,n,个单位组成样本,可以先将,N,个单位编号,若抽到某个号则对应的单位入样,.,通常有抽签法和随机数法两种抽选方法,.,抽签法,:,用均匀同质的材料制作,N,个签并充分混合,然后一次抽取,n,个签,或一次抽取一个签但不放回,直至抽满,n,个签为止,.,随机数法,:,随机数表,随机数骰子,计算机产生的伪随机数,抽选样本单位的方法,24,39 65 76 45 45 19 90 69 64 61 20 26 36 31 62,73 71 23 70 90 65 97 60 12 11 98 40 07 17 66,72 20 47 33 84 51 67 47 97 19 98 40 07 17 66,75 17 25 69 17 17 95 21 78 58 24 33 45 77 48,37 48 79 88 74 63 52 06 34 30 01 31 60 10 27,02 89 08 16 94 85 53 83 29 95 56 27 09 24 43,随机数表举例,25,当总体内样本单位不多,且有完备名册,可用于编号时,对研究的目的而言,总体内样本单位间的差异不大时,.,无法充分获得总体信息时,由于编制抽样框及抽取的样本可能过于分散等原因在实际实施中有一定困难,加之没有利用其他辅助信息提高估计的效率,所以大规模调查中,很少直接采用,.,简单随机抽样,最适用的场合,26,系统抽样,(,也称机械抽样,):,将总体,N,个单位按某种顺序排列,在规定的范围内随机抽取起始单元,然后按一套规则确定其他样本单元的一种抽样方法,.,最简单的系统抽样是等距抽样,.,下面介绍直线等距抽样,:,将总体分成,n,个组,每组有,k,=,N,/,n,个单位,.,在第一组随机选择一个单位,之后每隔,k,个选择一个,.,N=,64,n=,8,k=,8,第一组,(),系统抽样,(Systematic Sampling),27,总体单位的顺序可能影响抽样结果,:,各单元的排队顺序与所研究的内容无关,;,各单元的排队顺序与所研究的内容有内在联系,.,优点,:,抽取样本简便易行,易于监控,.,主要适用场合,:,总体内的样本单位,对有兴趣的指标而言是随机的或按大小排列的,.,总体内单位数过多,而抽取的样本又较多时,.,总体内的单位数不能确定时,(,例如抽取学号最后一位为,8,的学生进行调查,).,系统抽样的特点,28,也称类型抽样,.,即先将总体所有单位按某种标志划分为若干层,然后从各层中随机抽取一定数目的单位构成样本,根据各层样本汇总对总体指标作出估计的一种抽样方式,.,男生,女生,样本,(),分层抽样,(,Stratified Sampling),29,可以提高样本的代表性,提高估计的精度,.,抽样误差只受层内方差的影响,分层时应使层间方,差大、层内方差小,.,最适用的场合,:,当总体内样本单位的差异较大时,;,分层后能达到层间差异大,层内差异小的原则时,.,分层抽样的特点,30,按比例分层抽样,:,按各层单元数占总体单元数的比例进行分配,.,在有些情况下为了降低抽样误差或者对各层的参数进行较好的估计,需要采用,不按比例分层抽样,.,在不按比例的分层抽样中如果要用样本资料推断总体,需要对各层的数据资料进行加权处理,.,按比例分层抽样和不按比例分层抽样,31,假设要从,1000,亩农田中抽取,100,亩调查小麦的平均亩产,.1000,亩耕地中有,600,亩为平原,400,亩为丘陵,;,平原地区的亩产量相差不大,(,方差很小,),而丘陵地区亩产量的差别很大,(,方差大,).,按比例抽样,:,平原和丘陵各抽,60,亩和,40,亩,.,不按比例抽样,:,为了更准确地估计丘陵地区的平均亩产,在丘陵地区多抽一些农田,(,例如,70,亩,),从平原地区抽取,30,亩,.,这时总体平均亩产的估计值为,不按比例分层抽样,(,不等概率抽样,),的例子,32,先将总体分为,R,个群,(,即次级单位或子总体,),每个群包含若干总体单位,.,按某种方式从中随机抽取,r,个群,然后对抽中的群的所有单位都进行调查的抽样方式,.,总体分成,4,个群,随机选择,2,个群构成样本,(),整群抽样,(Cluster Sampling),33,不需要所有总体单位的抽样框,.,由于样本单位不能均匀的分布在总体中,所以样本的代表性要差一些,(,对策,:,增大样本容量,).,抽样误差受群间方差的影响,不受群内方差的影响,.,分群时应使群间方差小,.,最适用的场合,:,总体名单不易获得时,为节省调查成本时,群内差异大,而群间的变异小时,整群抽样的特点,34,先从总体中随机地抽取若干初级单位,再从初级单位中抽取若干二级单位,如此下去直至抽取所要调查的基本单位的抽样方法,.,例如,:,统计年鉴,2004,指出,2003,年人口变动情况抽样调查是以全国为总体,各省、自治区、直辖市为次总体,采用分层、等距、整群概率比例抽样方法,在全国,31,个省、自治区、直辖市抽取了,990,个县,(,市、区,),、,3734,个乡,(,镇、街道,),、,6544,个调查小区的,126,万人,.,(,),多阶段抽样,(muti-stage Sampling),35,适用于总体分布很广,不可能从总体中直接抽取样本单位的情况,.,不需要全部低级单位的抽样框,节省了调查费用,.,方法灵活多样,.,抽样调查的组织方式完全取决于调查研究的目的要求、调查对象的特点和客观的条件,.,凡是能够最经济、最省时而又能够满足预期精确度和可靠性的组织方式,便是一种好的组织方式,这也是抽样设计的最根本的原则,.,多阶段抽样的特点,36,非概率抽样,方便抽样,判断抽样,配额抽样,雪球抽样,不满足概率抽样要求的抽样都被归为,非概率抽样,.,非概率抽样中单个单位被选中的概率是不可知的,无法根据样本计算抽样误差,.,非概率抽样,37,纯粹以方便为基本着眼点的抽样方法,事先不预定样本,碰到即问或被调查者主动回答问题,.,也译为便利抽样、偶遇抽样,.,例如,:,在街头的拦截式访问,.,登在报刊、网上的问卷,.,方便抽样,(Convenience sampling),38,调查者根据主观经验和判断从总体中选取有代表性的单位构成样本,.,精度取决于抽样者的经验,.,不能获得估计值的精度,.,适用于总体单位极不相同而样本容量又很小的情况,判断抽样,(Judgment Sampling),39,是非随机抽样方法中最常用的一种抽样方法,.,分为两个步骤,:,根据研究人员认为较重要的一些变量把总体单位分类,指定每一类中的定额；,然后在每一类中使用方便抽样或判断抽样的方法抽选指定数量的样本单位,.,配额抽样,(Quota sampling),40,也译为,滚雪球抽样,.,其原理是先找到最初的样本单位,然后根据他们提供的信息去获得新的样本单位,;,这种过程不断继续,直到完成规定的样本容量为止,.,主要用于对稀少群体的调查,.,例如某研究部门在调查保姆问题时,先访问了,7,名保姆,然后再请她们提供其他保姆名单,逐步扩大到近百人,.,雪球抽样,(Snowball Sampling),41,重点调查,重点调查（,Key-point Survey,）是指在调查对象中，选择一部分重点调查单位收集统计资料的一种非全面调查。,关键词：,重点调查单位,，是指这些被调查的总体单位中数目不多，所占比重不大，但其调查的标志值却在总量中占有很大比重，在总体中具有举足轻重的作用。,42,典型调查,典型调查（,Model Survey,）是指根据调查目的，在对所研究现象全面分析的基础上，有意识地选择有代表性的典型单位进行深入细致地调查，以便认识事物的本质与发展变化规律的一种非全面调查方法。,关键词：,典型单位,，是指那些能充分、集中地体现调查对象总体某些方面共性特征的最有代表性的单位。,43,抽样调查中的误差,抽样误差,抽样框误差,无回答误差,计量误差,非抽样误差,抽样调查中的误差,数据的质量,44,误差与抽样误差,误差是指估计值与真实值之间的差异,.,抽样误差,(Sampling error):,由于抽选样本的随机性造成的误差,也称为,代表性误差,.,样本只是总体的一部分,它对总体的代表性存在局限性,从而会造成误差,.,在抽样调查中,抽样误差就不可避免,.,在概率抽样中抽样误差是能够计量且可以得到控制的,.,影响抽样误差的主要因素包括,:,总体内部的差异程度,;,样本容量的大小,;,抽样的方式方法等,.,45,非抽样误差,:,除抽样误差以外的所有误差,.,通常认为是由于调查程序执行中的错误与不足引起的,.,主要包括抽样框误差、无回答误差和计量误差,.,国内也称为“工作误差”或“调查误差”,.,非抽样误差,(Nonsampling error),46,数据的整理,(,统计整理,),统计整理是统计工作的中间环节，学习本部分内容的目的在于掌握统计分组的方法，认识分布数列是统计整理的重要表现形式，会编制变量数列，并且会用统计表表现统计资料。,47,数据的整理,统计整理的基本概念与步骤,统计分组,分布数列,统计图表,48,数据的整理，是根据统计研究的目的，将统计调查所得到的原始资料进行加工，为统计分析准备系统化、调理化的综合资料的工作过程。,1,、数据的整理,例如，,某班,50,名学生，调查其考分资料如下：,77 65 83 56 68 70 99 65 73 72 88 66 74 63 71 84 62 52 80 78 84 79 81 64 58 82 76 62 73 75 89 79 61 65 54 92 86 73 68 51 69 64 78 63 76 68 72 77 81 76,49,.,.,按考分分组,（分）,学生人数,（人）,60,以下,60,70,70,80,80,90,90,100,5,15,18,10,2,合计,50,由,表,2-1,可见，整理后的学生考分资料，较整理前的考分资料明显要,条理、系统。,表,2-1,统计整理是统计调查的继续，是统计分析的前提，,它实现了从个别单位的标志表现（标志值）向总体综合指标的过渡,，在统计研究中起着承前启后重要的作用。,50,数据整理从广义上讲,包括两种整理,.,第一是对统计调查所收集到的各种数据进行分类和汇总,称为汇总性整理,.,第二种是对现成的综合统计资料进行整理,.,51,.,.,统计整理的程序,:,1.,制定整理方案,即根据研究任务的要求选择应整理的指标并根据分析任务的需要，确定具体的分组。,2.,审核统计数据,审核方法有逻辑检查和技术检查。,见例,3.,对数据进行编码和录入,4.,统计分组和汇总,5.,编制统计表，绘制统计图，显示整理结果。,6.,统计资料的积累和开发,52,例：,一次农村调查中,某村干部在反映总体情况时：,该村总劳力为,776,人,在后面反映劳力的分布状况时：,全村在乡镇企业当职工的：,187,人,在村办企业当职工的：,200,人,其余是种田的：,95,人,482,人,53,武汉市居民生活质量调查,问卷结果实例（节选,）,区,汉阳,1,武昌,2,汉阳,3,江汉,4,江岸,5,青山,6,硚口,7,洪山,2,编号,0387,0387,A1,性别,1.,男,2.,女,2,A2,年龄,39,岁,39,A3,文化,程度,1.,小学及以下,2.,初中,3.,高中及中专,4.,大专及以上,3,A4,职业,1.,生产、运输工人和有关人员,2.,商业人员,3.,党政企事业单位负责人,4.,服务人员,5.,党政企事业单位工作人员,6.,个体经营者,7.,各类专业技术人员,8.,离退休人员,9.,其他（请写明）,。,2,54,2.,统计分组的定义、作用、原则、种类,统计分组是根据统计研究的目的,选择,某一标志,作为分组的依据,将总体分成若干个不同的组,.,举例,从分组的性质来看,分组兼有分和合双重含义,.,对总体而言是“分”,即将总体分为性质相异的若干组成部分,;,对个体而言是“合”,即将性质相同的个体组合起来,.,55,例如,，,企业按经济类型分组：,国有企业集体企业,个体企业其它企业,学生按考分分组：,60,分以下（不及格）,60,70,分（及格）,70,80,分（中等）,80,90,分（良好）,90,100,分（优秀）,56,分组的作用,：,划分现象的类型,;,揭示现象内部结构,;,分析现象之间的依存关系,.,分组的原则,:,穷尽原则,:,使总体中的每一个单位都应有组可归,.,互斥原则,:,在特定的分组标志下,总体中的任何一个单位的只能归属于某一组,而不能同时或可能归属于几个组,.,57,1),按分组标志的多少,简单分组,:,就是对研究现象按一个标志进行分组,.,复合分组,:,用两个或两个以上标志分组,即先按一个标志分组,在此基础上再按第二个标志分小组,又再层叠地按第三个标志分成更小的组,这称为复合分组,.,2),按分组标志的性质不同,品质分组,:,按品质,(,或属性,),标志进行分组,.,品质分组所形成的数列称为品质数列,.,变量分组,:,按数量标志分组,数量标志的变异性体现在它不断变动自身的数量上,故也称为变量分组,.,变量分组所形成的数列称为变量数列,.,分组的种类,58,2),按任务与作用的不同,类型分组,:,总体按主要的品质标志分组，多属于类型分组,.,结构分组：,总体按主要的数量标志分组，多属于结构分组,分析分组：,按照研究对象总体诸标志依存关系。,59,分组标志的选取与分组体系,统计分组的关键在于,分组标志的选择,。,必须根据现象所处的具体历史条件（经济条件），按照统计研究的目的，选择具有本质性的标志作为分组标志。,根据统计研究的目的选择分组标志。,选择能够反映现象本质的分组标志。,结合现象所处的具体历史条件（经济条件）选择分组标志。,60,-,简单分组：按单个标志进行分组。,-,复合分组：按两个或,两个以上标志进行,分组。,-,分组体系：对社会经济现象需要从各方面进行观察和分析研究，需要采用一系列,相互联系、相互补充,的标志对现象进行多种分组，这些分组结合起来构成一个体系，叫做分组体系。,分组标志的选取与分组体系,61,分组体系,对现象进行多种分组、再排列起来的结果,平行分组体系：,按多个标志进行简单分组，再排列,层叠复合分组体系：,先进行多种复合分组，再排列,分组体系对现象的认识更加全面、深刻,62,分组方法,品质分组法,数量分组法,63,.,.,品质分组（按品质标志分组）,国民经济按产业分组：第一产业,第二产业,第三产业,人口按性别分组：男性女性,用文字来表示各组性质上的差别,64,.,.,数量分组（按数量标志分组）,单项式分组,组距式分组,用数量来表示各组性质上的差别,65,.,.,（即一个组只有一个变量值）,单项式分组,单项式分组适用于：变量值变化范围不大、不同变量值个数较少的,离散变量。,居民家庭按子女数分组：,0 1 2 3,（离散变量）,例如：,66,.,.,将相邻几个变量值并为一组（形成一个区间），即一个组有一个变量值的变动范围。,例如：,企业按人数分组,499,及以下,500,999,1000,2999,3000,及以上,工人按工资分组,600,700,700,800,800,1200,1200,1500,组距式分组适用于：变量值变化范围较大、不同变量值个数较多的,离散变量,及,连续变量,。,（离散变量）,（连续变量）,注意：,连续型变量的数值不能一一列举，故其只能采用组距式分组。,组距式分组（应,注意,）,67,.,.,组限,及划分方法,组距,与组数,组中值,68,.,.,组距与组数,组距,=,本组上限,前组上限,（通用公式）,组距,=,本组上限,本组下限,（重叠组限）,全距,=,最大变量值,最小变量值,组距与组数一般是用,整数,表示。,学生按考分分组（分）,50,60,60,70,70,80,80,90,90,100,等距分组,异距分组,69,.,.,即各组组距相同的分组。,等距分组：,（在变量值分布比较均匀时采用）,异距分组：,即各组组距不都相等的分组。,（在变量值分布很不均匀时采用）,根据事物性质变化的数量界限来确定组距。,如人口按年龄分组,，要注意不同年龄生理变化的特点，可分为：,1,岁以下；,1,6,岁；,7,12,岁；,13,18,岁；,19,59,岁；,60,岁以上。,70,499,及以下,500,999,1000,2999,3000,及以上,600,700,700,800,800,1200,1200,1500,.,.,组限及划分方法,工人按工资分组：,企业按人数分组：,重叠组限,不重叠组限,组限的划分,（只适用于,离散变量,）,500,及以下,500,1000,1000,3000,3000,及以上,当,某单位的变量值,刚好等于,相邻两组的上下限时,，一般把此值归到作为下限的那一组中，即遵循,“上限不在内”,原则。,71,.,.,组中值,指各组上限和下限之间的中点数值。,（假定,组内标志值均匀分布,）,（考分,：,52 54 57 58 59）,按考分分组 50 60,60,70,70,80,80,90,90,100,55,75,65,85,95,（考分：,51 52 53 54 55,）,不均匀分布,50,55,60,均匀分布,50,55,60,组中值,封口组,开口组,72,.,.,若,第一组出现“,以下”,或,最末组出现“,以上”,字样的组叫做,开口组,。,首组组中值,=首组上限,相邻组组距的一半,=末组下限+相邻组组距的一半,末组组中值,50,102,100,+,102,其组中值的确定：,.,首组：,末组：,按考分分组组中值,50 60 55,60,70 65,70,80 75,80,90 85,90,100 95,50以下,45,73,.,.,统计分组的种类,（一）,按照分组标志,的个数不同,.,（二）按照分组标志的性质不同,.,简单分组,-,平行分组体系,复合分组,复合分组体系,品质分组,数量分组,-,变量数列,单项式分组组距式分组,离散变量连续变量,等距分组,-,异距分组,开口组,-,闭口组,组限、组距、组中值,组距式分组,（重叠组限）,简单分组,复合分组,品质数列,分组联图,74,3.,次数分布,次数分布,:,在统计分组的基础上,将总体的所有单位按组归类整理,并按一定顺序排列,形成总体中各个单位在各组间的分布,.,频数,(,次数,),:,落在各组中的数据个数,.,频率,:,次数与总次数的比值,.,把各组的频数或频率按一定的顺序排列而成的数列,称为,次数分布数列,简称,分布数列,.,75,按考分分组,人数,（人）,频率（）,50,60 60,70 70,80 80,90 90,100,5,15,18,10,2,10,30,36,20,4,合计,50,100,次数（频数）,频率,总体的分组标志,次数分布,频率分布,76,注,:,正确理解比例与比率这两个概念,.,比例,(Proportion):,也称构成比,它是一个样本,(,或总体,),中各个部分的数据与全部数据之比,通常用于反映样本,(,或总体,),的构成或结构,.,比例,100=,百分比,(Percentage),用,%,表示,.,显然比例的取值范围是,:0,1,比率,(Ratio),是样本,(,或总体,),中不同类别数据之间的比值,.,由于比率不是部分与整体之间的对比关系,因而比值可能大于,1.,综上,:,频率实际上是比例,.,77,分布数列的种类,(,按分组标志不同,),品质数列,:,按,品质标志,分组形成,有各组名称和次数组成,.,变量数列,:,按,数量标志,分组形成,可分为单项式和组距式两种,.,78,例,为研究广告市场的状况,一家广告公司在某城市随机抽取,200,人就广告问题做了邮寄问卷调查,其中一个问题是,:“,您比较关心下列哪一类广告？”,(1),商品广告,;(2),服务广告,;(3),金融广告,;(4),房地产广告,;(5),招生招聘广告,;(6),其他广告,.,某城市居民关注广告类型的频数分布,79,单项数列,:,总体按单项式分组而形成的变量数列,每一组由,一个变量值来表示,.,适用于组数不多和组值变动幅度不大,.,80,组距数列,:,将全部变量值依次划分为若干区间,每组有一个区间表示,.,适用于变量个数较多、变动幅度较大,.,81,变量数列的编制,确定变量数列的形式,(1),若变量是连续型变量,只能采用组距数列表示,.,(2),若变量是离散型变量,(,a,),在变量值不多的情况下,可编制单项数列,;,(,b,),若变量值个数较多,编制组距数列,.,82,组距数列的编制步骤,排序并求出全距,(,最大值,-,最小值,);,确定组数和组距,;,确定组限和组中值,;,归组并计算出各组的次数,;,显示或打印出次数分布表,.,组数,:,一组数据所分成组的个数,.,斯特杰斯经验公式,计算结果只要有小数,就把小数舍去,并在整数位上加,1,不采用四舍五入,.,83,组限,:,在组距式分组中,一个组的最小值称为下限,最大值称为上限,.,组距,:,每个组上限和下限之间的距离,.,等距分组,:,各组的组距相等,(,变量值变动均匀,),.,异距分组,:,各组的组距不相等,(,现象变动很不均衡,变量值,变动幅度较大,宜采用,),.,确定组限,对于,连续型,变量,通常以一个数值作为相邻两组的上限和下限,;,遵循“上限不在内原则”,对于,离散型,变量,上下限可以重叠,也可以不重叠,.,84,注,:,最小组的下限低于或等于最小变量值,最大组的上限高于或等于最大变量值,.,闭口组,:,组距的上限、下限都齐全,.,开口组,:,在组距分组中,为避免出现空白组或个别极端值被漏掉,第一组和最后一组采取“,以下”及“,以上”的开口组,.,85,例,2,在一批灯泡中随机抽取,100,只进行测试,测得灯泡,的使用寿命,(,单位,:,小时,),数据如下,要求编制次数分布表,.,86,4.,洛伦兹曲线和基尼系数,洛伦兹曲线,1.20,世纪初美国经济学家、统计学家洛伦兹,(M.E.Lorentz),根据意大利经济学家帕累托,(V.Pareto),提出的,“,二八原理,”,和收入分配公式绘制而成,.,2.,描述收入和财富分配性质的曲线,.,横轴表示累积的人口百分比,纵轴表示累积的收入或财富百分比,.,3.45,度直线是,绝对平均线,表明收入分配绝对平均,;,横轴与图中最右边的纵轴构成,绝对不平均线,表明收入分配绝对不平均,.,根据实际资料所作的反映实际收入分配状况的曲线位于绝对平均线和绝对不平均线之间,称为,洛伦兹曲线,.,87,88,洛伦兹曲线与绝对平均线越接近,表示收入分配越平均,而,洛伦兹曲线向下弯曲越大,与绝对不平均线越接近,表示收,入分配越不平均,.,基尼系数,20,世纪初意大利经济学家基尼,(G.Gini),根据洛伦兹曲线给出了衡量收入分配平均程度的指标,即基尼系数,用公式表示为,:,89,式中,:,A,表示实际收入曲线与绝对平均线之间的面积,;,B,表示实际收入曲线与绝对不平均线之间的面积,.,如果,A=,0,则基尼系数,=0,表示收入分配绝对平均,.,如果,B,=0,则基尼系数,=1,表示收入分配绝对不平均,.,基尼系数在,0,和,1,之间取值,.,一般认为,基尼系数若小于,0.2,表明分配平均但缺乏效率,;,基尼系数在,0.2,至,0.4,之间是比较适当的,即一个社会既有效,率又没有造成极大的分配不公,;,基尼系数在,0.4,时被认为是,收入分配不公平的警戒线,.,超过了,0.6,则表示可能由于收入,分配不公导致社会不稳定,.,90,统计表,统计表是把由统计调查所得来的、经过整理的数据,按一定顺序排列而形成的表格,.,一个完整的统计表从结构上看一般包括,:,总标题,(,或表头,),、行标题、列标题、指标数值,.,对表中指标或数据的补充说明一般作为附加部分放在统计表的下方,.,统计表的构成,统计表与统计图,91,表,3-1 2003,年我国就业基本情况,项目,2001,2002,2003,经济活动人口（万人）,就业人员合计,(,万人,),城镇登记失业人数,(,万人,),城镇登记失业率,(,),74432,73025,681,3.6,75360,73740,770,4.0,76075,74432,800,4.3,资料来源,:2004,年统计年鉴中国统计出版社,注：,1990,年至,2000,年,就业人员总计、城镇和乡村就业人员小计资料根据第五次全国人口普查资料重新调整,2001,年及以后资料根据人口变动抽样调查资料推算,因此分地区、分类型、分行业的分项资料相加不等于总计,.,行标题,表头,列标题,指标数值,附加,92,统计表的制作要求,原则,:,科学、实用、美观、简练,.,标题简明扼要,满足,3W,要求,(When,Where,What).,统计表为“开口式”,即统计表的左右两边不封口,;,表的上下两条横线一般用粗线，其他线用细线,线条要少,.,数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明,.,表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一,.,对于没有数字、缺某项或免填的表格单元,应使用特定符号标出,.,必要时可在表的下方加上注释,.,93,简单表,:,指未经任何分组的统计表,又称,一览表,简单分组表,:,指只用一个标志分组形成的统计表简称,分组表,复合分组表,:,指按两个或两个以上标志进行分组简称,复合表,统计表的分类,94,分组表,95,复合表,96,统计图,统计图基本包括,:,标题,:,包括图表标题、数值轴标题,.,坐标轴和网格线,:,两者构造了绘图区的骨架,.,图表区和绘图区,:,统计图绘制在绘图区内,.,图例,:,标明图表中的数据系列,.,97,1,、通过选择恰当的图形类型、刻度、长宽比例等,使图形能够准确反映数据中包含的信息,.,时间一般绘在横轴,指标数据绘在纵轴,.,长宽比例要适当,其长宽比例大致为,10:7.,一般情况下,纵轴数据下端应从“,0”,开始,.,数据与“,0”,之间的间距过大时,可以采取折断的符号将纵轴折断,.,绘制统计图时的注意事项,98,2,、图形要尽量简明,.,图形应该突出所要传达的信息,不必要的标签、背景、网格线、等会分散读者的注意力,.,3,、图形应该有清楚的标题和必要的说明,明确图形的含义、计量单位、坐标轴代表的变量、资料来源等等,.,4,、反复加工和修改是获得优秀统计图形的重要步骤,.,统计软件给出的统计图形没有多少可以不加修改而直接应用,.,绘制统计图时的注意事项,99,根据分析的目的,对数据进行排序和分类,(,组,).,对分类后的数据进行汇总,计算各类,(,组,),及总体的指标,.,Excel,提供了多种数据整理工具,主要有,:,数据排序和筛选,;,频数分布函数,;,数据透视表,;,统计图；直方图分析工具,.,用,EXCEL,软件做统计数据的整理,100,

展开阅读全文