资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第一节 统计调查,第二节 统计分组,第三节 频数分布,第四节 统计汇总方法和统计表,统计资料的搜集和整理,1,二、,什么是统计数据?,(data,),对现象进行计量的结果,不是指单个的数字,而是由多个数据构成的数据集,不仅仅是指数字,它可以是数字的,也可以是文字的,第一节 统计调查,一、,统计调查:统计资料(数据)的搜集,2,三、统计数据的分类,(,按计量尺度分,),分类数据,(categorical data),对事物进行分类的结果,数据表现为类别,用文字来表述,可用数字代码来表示各个类别,例如,人口按性别分为男、女两类;,1,表示男性,,0,表示女性,顺序数据,(rank data),对事物类别顺序的测度,数据表现为类别,用文字来表述;可用数字代码来表示,例如,产品分为一等品、二等品、三等品、次品等;,0,为次品,,1,为一等品,,2,为二等品,,3,为三等品,数值型数据,(metric data),对事物的精确测度,结果表现为具体的数值,例如:身高为,175cm,、,168cm,、,183cm,3,统计数据的分类,(,按时间状况分,),截面数据,(cross-sectional data),在相同或近似相同的时间点上收集的数据,描述现象在某一时刻的变化情况,比如,,2002,年我国各地区的国内生产总值数据,时间序列数据,(time series data),在不同时间上收集到的数据,描述现象随时间变化的情况,比如,,1996,年至,2002,年国内生产总值数据,4,统计数据的分类,(,统计,数据的来源,分,),一、间接获取的数据,又叫次级数据,二手数据,二、直接获取的数据,又叫原始数据,一手数据,5,间接取得的数据,Internet,http/,WWW.,中国统计年鉴,2001,中国人口统计年鉴,中国市场统计年鉴,世界发展报告,世界经济年检,工业普查数据,中国统计出版社,统计部门和政府部门公布的有关资料,如各类统计年鉴,各类经济信息中心、信息咨询机构、专业调查机构等提供的数据,各类专业期刊、报纸、书籍所提供的资料,各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料,从互联网或图书馆查阅到的相关资料,6,提供统计数据的部分政府网站,中国政府及相关机构,网址,数据内容,国家统计局,,统计年鉴、统计月报等,国务院发展研究中心信息网,,宏观经济、财经、货币金融等,中国经济信息网,,经济信息及各类网站,华通数据中心,,国家统计局授权的数据中心,中国决策信息网,,决策知识及案例,三农数据网,,三农信息、论坛及相关网站,7,提供统计数据的部分政府网站,美国政府机构,网址,数据内容,人口普查局,,www.census.gov,人口和家庭等,联邦储备局,,www.bog.frb.fed.us,货币供应、信誉、汇率等,预算编制办公室,,www.whitehouse.gov/omb,财政收入、支出、债券等,商务部,,www.doc.gov,商业、工业等,8,公开出版物,中国统计年鉴,、,中国统计摘要,、,中国社会统计年鉴,、,中国工业经济统计年鉴,、,中国农村统计年鉴,、,中国人口统计年鉴,、,中国市场统计年鉴,、,世界经济年鉴,、,国外经济统计资料,、,世界发展报告,9,直接取得的数据,1,、直接取得的数据:通过统计调查取得的数据。,2,、统计调查分为专门调查和统计报表,3,、专门调查分为:,普查,抽样调查,重点调查,典型调查,10,普查,1.,为特定目的专门组织的非经常性全面调查,2.,通常是一次性或周期性的,3.,一般需要规定统一的标准调查时间,4.,数据的规范化程度较高,5.,应用范围比较狭窄,总体,11,抽样调查,1.,从总体中随机抽取一部分单位,(,样本,),进行调查,总体,随机样本,4.,具有经济性、时效性强、适应面广、准确性高等特点,2.,目的是推断总体的未知数字特征,3.,最常用的调查方式,12,重点调查,重点调查:是指在调查对象中,只选择一部分重点单位进行的非全面调查。,重点单位:着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。,调查结果不能用于推断总体,13,典型调查,典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。,有人也认为它是“目的抽样”,以若干具有代表性的单位为样本。,调查结果不能用于推断总体,14,统计报表,1.,统计调查方式之一,2.,过去曾经是我国主要的数据收集方式,3.,按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据,4.,有各种各样的类型,15,调查设计,调查方案的主要内容,数据调查方法,调查问卷的设计,16,调查方案的主要内容,调查方案,:,指导整个调查过程的纲领性文件。,主要内容:,调查目的:,为什么调查?,调查对象和调查单位:向谁调查?,调查内容,:调查什么?,调查时间,及其他问题,17,1,、调查目的和调查对象,调查目的,:调查要达到的具体目标,调查之前必须明确。,调查对象,:调查研究的总体或调查范围。,调查单位,:需要对之进行调查的单位。可以是调查对象的全部单位(全面调查),也可以是调查对象中的一部分单位(非全面调查)。,填报单位,:负责报送统计数据资料的单位。,18,例子,农产量抽样调查制度,是国家统计局为取得高质量的农产品产量等相关指标数据,在全国范围内统一抽选样本调查、推算,并由直属调查队伍实施的抽样调查制度。,2003,年全国共抽选了约万个样本地块进行实割实测调查,并运用这些样本科学地推算全国粮食产量数据。,问:调查目的?调查对象?调查单位?填报单位?,19,2,、调查内容,Q,1 ,Q,2 ,Q,3 ,Q,4 ,调查内容:需要调查的具体项目。通常以表格的形式来表现,称为调查表。,调查表的组成部分:,表头,:说明调查表的名称、被调查单位的名称质等。,表体,:调查的具体项目。,表脚,:填报人签名、日期等。,20,3,、调查时间及其他问题,调查时间。两种含义:,调查资料所属的时间,回答“调查何时”的问题;,调查工作的起止时间,回答“何时调查”的问题。,例如,,1990,年第四次人口普查规定的资料所属时间为“,1990,年,7,月,1,日,0,时”;普查的工作期限是“,1990,年,7,月,1,日至,7,月,10,日完成普查的登记工作”。,调查所采用的方式方法;,调查组织与实施的具体安排。,21,数据调查方法,不论采用何种调查方式,在取得数据时都需要使用一些具体的数据搜集方法。,数据的收集方法归纳起来可分为,询问调查和观察实验,两大类。,询问调查是调查者与被调查者与被调查者直接或间接触以获得数据的一种方法。,观察或实验:调查者通过直接的观察或实验获得数据的方法。,22,数据调查方法 的分类,数据的收集方法,询问调查,访问调查,观察和实验,电话调查,邮寄调查,观,察,电脑辅助,座,谈,会,个别深访,实,验,23,1.,访问调查,调查者与被调查者通过面对面地交谈而获得资料。,可分为标准式访问和非标准式访问:,标准式访问通常按事先设计好的问卷进行,非标准式访问事先一般不制作问卷,24,访问调查中的注意事项,在访问调查中,调查者到,人地生疏的地方搜集资料,且被调查者往往又不愿意提供的这些资料,为顺利完成调查访问工作,,调查者,事前的准备工作非常重要。事前的准备工作包括,以下内容:,仪容仪表,携带访问工具,预约并先了解访问对象,熟记问题及方法,运用各种技巧激发被调查者主动合作,注意自身的安全,25,2.,邮寄调查,也称邮寄问卷调查,是一种标准化调查。调查者与被调查者没有直接的语言交流,信息的传递依赖于问卷。,通过某种方式将调查表或问卷送至被调查者手中,由被调查者填写,然后将问卷寄回指定收集点。,问卷或表格的发放方式有邮寄、宣传媒介传送、专门场所分发三种。,26,3.,电话调查,您好,!,我是,调查公司的调查员,调查者利用电话与被调查者进行语言交流以获得信息。,优点:,时效快、成本低。,覆盖面广。,缺点:,每次调查时间不能过长;,不能提过于复杂的问题;,对挂断电话拒绝回答者很难做工作。,27,4.,电脑辅助调查,又称电脑辅助电话调查,电脑与电话相结合完成调查的全过程。,一般需借助专门的软件进行,硬件设备要求较高。,28,5.,座谈会,也称集体访谈,将一组被调查者集中在调查现场,让他们对调查的主题发表意见以获得资料。,参加座谈会的人数不宜过多,一般为,6,10,人。,侧重于定性研究。,29,6.,个别深度访问,一次只有一名受访者参加、针对特殊问题的调查。,适合于较隐秘的问题,如个人隐私问题;或较敏感的问题,如政治方面的问题。,侧重于定性研究。,30,7.,观察法,就调查对象的行动和意识,调查人员边观察边记录以收集所需信息。,调查人员不是强行介入,能够在被调查者不察觉的情况下获得资料。,31,8.,实验法,在设定的特殊实验场所、特殊状态下,对调查对象进行实验以获得所需资料。,研究在其它条件相同的条件下,所控制的一个(或一组)变量对另外一个(或一组)变量的影响。,32,问卷设计,问卷的基本结构,问卷中问题的设计,问卷中答案的设计,问题顺序的设计,33,问卷设计的步骤,1.,根据,研究目的建立分析架构,2.,决定问卷之形式,3.,编拟问卷初稿,4.,邀请专家学者检,查,、修订问卷,5.,预试问卷,6.,问卷定稿并订定使用说明,34,1,、,问卷的基本结构,问卷的基本结构,开头,部分,甄别,部分,主体,部分,背景,部分,问候语,填写说明,问卷编号,也称过滤,通过一些问题筛掉不符合条件的被调查者。,要调查的全部问题,以及这些问题可供选择的答案。,被调查者的性别,职业,收入,文化程度,婚姻状况等,35,2,问卷中问题的设计,(,1,)提问的内容尽可能短。,问题中应该坚决摒弃多余的修饰词,提问的内容尽可能的短,若问题比较复杂,应将其分为几个问题来问。,“,我国越来越多的人去国外旅游。您曾经去别的国家旅游过吗?如果去过,您也许是为了欣赏风光才去的。那么,别国的风光对您决定出国旅游有多重要?,”,Q1:,您出国旅游过吗?,1,、是,2,、否(终止访问),Q2,:那里的风光对您决定去旅游有多重要?,36,(,2,)用词要确切通俗,避免不具体的问题,问卷中的用词要确切、通俗,应容易被人理解,应避免使用过于专业的术语(例如,严重急性呼吸系統綜合症,),;设计的问题要适合所有被调查者;提问目的要明确,避免模棱两可。,Q,:您对本餐厅是否满意?,1.,满意,2.,一般,3.,不满意,满意 一般 不满意,Q1,:您对本餐厅饭菜质量是否满意?,Q2,:您对本餐厅环境设施是否满意?,Q3,:您对本餐厅服务态度是否满意?,37,(,3,)一项提问只包含一项内容,一个问句最好只问一个要点。一个问句中如果包含过多询问内容,会使被调查者无从答起,给统计处理也带来困难。,你经常看电影和电视吗?,38,(,4,)避免诱导性提问,应避免诱导性、,暗示性,的提问。诱导性,提问会导致两个不良后果:,被调查者不加考虑就同意所,诱,导问题中暗示的结论;,由于,诱,导性提问大多是引用权威或大多数人的态度,被调查者就会产生心理上的顺向反应。,“绝大多数饮用过光明奶的人都认为它口味纯正,您认为是这样吗,?”,39,(,5,)避免否定形式的提问,否定,式的,提问会影响到被调查者的思维,或容易造成相反意愿的回答。,Q,:您不认为听到国歌不立正不是不对的吗?,1.,是,2.,不是,40,(,6,)避免敏感性问题,敏感性问题是指与个人或单位的隐私或私人利益有关而不便向外界透露的问题。,问卷中要尽量避免提问敏感性问题或容易引起人们反感的问题,对敏感性问题的调查应当在提问的方式上进行推敲,尽量采用间接询问的方式,用语也要特别婉转,以降低问题的敏感程度。,你是否在考试中作过弊?,您是否有酒后驾车行为?,41,3,问卷中答案的设计,开放性问题是指对问题的回答未提供任何具体的答案,由被调查者根据自己的想法自由做出回答,属于自由回答型。,封闭型问题是指对问题事先设计出了各种可能的答案,由被调查者从中选择。,封闭型问题答案的设计方法主要有:两项选择法、多项选择法、顺序选择法、评定尺度法、双向列联法等。,42,(,1,)、二项选择法,二项选择法也称二分法,即提出的问题只有两种答案:,“,是,”,或,“,否,”,,,“,有,”,或,“,无,”,等。这两种答案是对立的、排斥的,被调查者的回答非此即彼,不能有更多的选择。如:,您是否购买了笔记本电脑,?,A,、,是,B,、,否,43,(,2,)、多项选择法,有些问题还需要采用选择多个答案,以统计出多个答案的重要性及差别。,Q1,您购买山地自行车的原因是()(可多选),A,、,经济条件许可,B,、用于代步工具,C,、,便于郊外旅游,锻炼身体,D,、,别人有你也想有,赶时髦,E,、,作为礼物送给亲人朋友,F,、,其它,44,(,3,)、顺序选择法,顺序选择法的问题是列出若干个答案,要求被调查者按其重要性或记忆的先后顺序将它们一一排列。,Q:,您在找工作的过程中遇到的主要问题是 (请您依次排序)(),A,专业不对口,B,没有本地户口,C,缺乏社会关系,D,招聘信息不足,E,性别歧视,F,其他,45,(,4,)、评定尺度法,评定尺度法也称量表法,量表是一种工具,是将一些主观的、抽象的概念定量化。,Q,:,您对我校教学评估体系总体感觉如何?,A,、,非常满意,B,、,比较满意,C,、,一般,D,、,不太满意,E,、,非常不满意,46,(,5,)、双项列联法,将两种不同的问题综合一起,通常用表格的形式来表现,可以节省问卷的篇幅。,神龙富康,捷,达,桑塔纳,1.,耗油量低,2.,外观大方,3.,乘坐舒适,4.,整车价格合理,5.,驾驶容易,6.,制动性好,Q,:,请在您赞同项目的空格内划“,”,47,设计问题答案时的注意事项,答案要穷尽。,答案要互斥。,您上月的支出中花费最多的是:,A,食品,B,服装,C,书籍,D,饮料,E,其它,48,4,设计问题顺序,应注意的问题,(,1,),问题的安排应具有逻辑性;,(,2,)问题的安排应先易后难、,由浅入深;,(,3,)问卷主体部分的问题通常按过滤性、热身性、容易性、困难性的顺序进行排列,。,49,一,.,统计数据的误差:,抽样误差和非抽样误差,二,.,统计数据的质量要求,统计数据的质量,50,抽样误差,由于抽样的随机性所带来的误差,所有样本可能的结果与总体真值之间的平均性差异,影响抽样误差大小的因素,样本量的大小,总体的变异性,51,非抽样误差,相对于抽样误差而言,除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异,存在于所有的调查之中,概率抽样,非概率抽样,全面性调查,有抽样框误差、回答误差、无回答误差、调查员误差、测量误差,52,误差的控制,抽样误差可计算和控制,非抽样误差的控制,调查员的挑选,调查员的培训,督导员的调查专业水平,调查过程控制,调查结果进行检验、评估,现场调查人员进行奖惩的制度,53,统计数据的质量要求,1.,精,度:,最低的抽样误差或随机误差,2.,准 确 性:,最小的非抽样误差或偏差,3.,关 联 性:,满足用户决策、管理和研究的需要,4.,及 时 性:,在最短的时间里取得并公布数据,5.,一 致 性:,保持时间序列的可比性,6.,最低成本:,以最经济的方式取得数据,54,第二节,统计分组,统计分组,:,就是按照研究目的将数据分成若干组的统计方法。,关键:,选择分组变量,和,划分各组界限,例如按照考试成绩把学生分为优、良、中、及格、不及格。,统计分组的结果是形成,频数分布,(,分布数列,,Frequency Distribution),。,55,第三节 频数分布,频数分布举例,成绩,人数,频率,60,以下,3,7.14%,60-70,8,19.05%,70-80,12,28.57%,80-90,15,35.71%,90,以上,4,9.52%,合计,42,100.00%,56,频数分布,两个构成要素:,各组的分组界限,每组中的次数或频率,通过,频数分布表,可以发现数据分布的特征。,频数(,frequency),:,每个组中的数据个数,也称次数。,频率(,relative frequency),:,频数,/,总数据个数,。,57,分组方法,等距分组,不等距分组,单变量值分组,组距分组,分组方法,按品质变量分组,按数量变量分组,58,单变量值分组,将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。,例如某学院,2008,年毕业研究生毕业时发表论文篇数的频数分布表(右表)。,发表论文篇数,人数,2,3,4,5,6,6,8,5,3,2,合计,24,59,组距分组,将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况。,分组必须遵循,“不重不漏”,的原则。,分为等距与不等距分组。,各组组距都相等时为等距分组。,为了避免有些组中的频数很少甚至是空白的情况,有时也可以采用不等距(异距)分组。,应用中可能需要把第一组和,/,或最后一组设为,开口组,。,60,组距分组的步骤,1,、确定组数:,通常为,5,到,15(20),组,。,Sturges,提出的经验公式:分组组数,K,应满足,2,、确定组距和各组界限,建议为,5,10,的倍数。,组距,(,最大值,-,最小值),组数,3,、根据分组整理成频数分布表,61,组距分组中的基本概念,1,、下 限:一个组的最小可能值,2,、上 限:一个组的最大可能值,3,、组 距:上限与下限之差,4,、组中值:下限与上限之间的中点值,(下限,+,上限),/2,。,开口组的组中值可以按以下方法计算:,缺下限:上限,-,邻组组距,/2,缺上限:下限,+,邻组组距,/2,但许多作者认为无法计算开口组的上限或下限。,62,等距分组表:,上下组限间断,某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),频率(,%,),105,109,110,114,115,119,120,124,125,129,130,134,135,139,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,63,等距分组表,(上下组限重叠,,上组限不在内,),某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),频率(,%,),105,110,110,115,115,120,120,125,125,130,130,135,135,140,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,64,等距分组表:(使用开口组),某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),频率(,%,),110,以下,110,115,115,120,120,125,125,130,130,135,135,以上,3,5,8,14,10,6,4,6,10,16,28,20,12,8,合计,50,100,65,常用统计图,数据类型,定性数据,定量数据,条形图,饼 图,线 图,茎叶图,箱线图,直方图,66,条形图(,Bar Chart),用宽度相同的条形高度或长短来表示数据变动的图形,条形的排列可以横排,也可以纵排。条形图有单式、复式等形式。,2003,年我国就业人员情况(万人),67,圆形图,(Pie Chart),也叫饼图,它是用圆形及圆内扇形的面积来表示数值大小的图形。主要用于总体内部的结构,各组成部分所占比例等。,2003,年我国国内生产总值中各产业比重,68,直方图,(Histogram),用来反映数量变量的分布状况。在统计分组的基础上,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图。,注意,对不等距分组:纵轴必须表示为频数密度,频数密度,=,频数,/,组距,(,面积之和,=,总频数,),手工绘制直方图时需要先对数据进行分组;用统计软件作直方图时统计软件可以自动进行分组。,69,直方图(等距分组),某会计师事务所对,20,家公司进行年终审计所需时间(天)的频数分布表,审计时间(天),频数,10-15,4,15-20,8,20-25,5,25-30,2,30-35,1,合计,20,70,直方图(不等距分组),某会计师事务所对,20,家公司进行年终审计所需时间(天)的频数分布表,审计时间(天),频数,频数密度,10-15,4,0.8,15-20,8,1.6,20-25,5,1,25-35,3,0.3,合计,20,-,71,直方图与条形图的异同,都是用来反映数据的分布状况,适用于不同类型的数据。,条形图是用条形的高度表示各类别频数的多少,其宽度,(,表示类别,),则是固定的。,直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义。,直方图的各矩形通常是连续排列,条形图则是分开排列。,72,折线图,(Frequency polygon),折线图也称频数多边形图是在直方图的基础上,把直方图顶部的中点,(,组中值,),用直线连接起来,再把原来的直方图抹掉。,折线图的两个终点要与横轴相交,具体的做法是第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴。,组数越多,组据就越小,折线图就越光滑,逐渐形成一条平滑的曲线,这就是频数分布曲线。,73,审计时间的折线图,74,线图,(Line Chart),利用线形的升降起伏来表现描述的变量在一段时期内的变动情况,主要用于显示时间数列的数据。,1996,年,-2003,年城乡居民人民币储蓄存款年底余额,75,第四节 统计汇总方法和统计表,统计表是统计资料的最基本表现形式,使数据资料表述的更加紧凑、简明,条理清晰、通俗易懂,便于数据的比较。,一个完整的统计表从结构上看一般包括:表头、行标题、列标题、数据资料。,对表中指标或数据的补充说明一般作为附加部分放在统计表的下方。,76,统计表的构成,表,3-1 2003,年我国就业基本情况,项目,2001,2002,2003,经济活动人口 (万人),就业人员合计,(,万人,),城镇登记失业人数,(,万人,),城镇登记失业率,(,),74432,73025,681,3.6,75360,73740,770,4.0,76075,74432,800,4.3,资料来源:,2004,年统计年鉴,中国统计出版社,注:,1990,年至,2000,年,就业人员总计、城镇和乡村就业人员小计资料根据第五次全国人口普查资料重新调整,,2001,年及以后资料根据人口变动抽样调查资料推算,因此分地区、分类型、分行业的分项资料相加不等于总计。,行标题,表头,列标题,数字资料,附加,77,统计表的制作要求,原则:科学、实用、美观、简练。,标题简明扼要,满足,3W,要求,(When,Where,What,)。,结构合理,长宽比例要适当。,统计表为“开口式”;表的上下两条横线一般用粗线,其他线用细线,线条要少。,数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。,表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。,对于没有数字、缺某项或免填的表格单元,应使用特定符号标出。,必要时可在表的下方加上注释。,78,
展开阅读全文