资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1,应用统计学,2,几种常用的统计软件,典型的统计软件,SAS,SPSS,MINITAB,STATISTICA,Excel,3,本章教学目标:,了解统计学的基本知识;,统计数据的收集、调查;,第,1,章 统计和统计数据收集,4,本章主要内容,1.1,统计学概述,1.2,统计数据的收集,1.3,问卷设计,1.4,变量类型,5,1.1,什么是统计学,?,统计学是一门收集、整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识,6,Statistics,的定义,Statistics:,the science of collecting,analyzing,presenting,and interpreting data.,Copyright 1994-2000 Encyclopaedia Britannica,Inc.,(不列颠百科全书),7,统计数据的内在规律,正常条件下新生婴儿的性别比为,107,:,100,投掷一枚均匀的硬币,出现正面和反面的频率各为,1/2,;投掷一枚骰子出现,1,6,点的频率各为,1/6,农作物的产量与施肥量之间存在相关关系,8,统计学的应用领域,统计学,经济学,管理学,医学,工程学,社会学,9,基于统计学的数据转换应用,10,应用统计的领域,actuarial work,(,精算,),agriculture,(,农业,),animal science,(,动物学,),anthropology,(,人类学,),archaeology,(,考古学,),auditing,(,审计学,),crystallography,(,晶体学,),demography,(,人口统计学,),dentistry,(,牙医学,),ecology,(,生态学,),econometrics,(,经济计量学,),education,(,教育学,),engineering,(,工程,),epidemiology,(,流行病学,),finance,(,金融,),gambling(,赌博,),genetics,(,遗传学,),geography,(,地理学,),geology,(,地质学,),election forecasting and projection(,选举预测和策划,),fisheries research(,水产渔业研究,),historical research(,历史研究,),human genetics(,人类遗传学,),11,应用统计的领域,(,续,),hydrology,(,水文学,),Industry,(,工业,),linguistics,(,语言学,),literature,(,文学,),manpower planning,(,劳动力计划,),management science,(,管理科学,),marketing,(,市场营销学,),medical diagnosis,(,医学诊断,),meteorology,(,气象学,),military science,(,军事科学,),nuclear material safeguards,(,核材料安全管理,),ophthalmology,(,眼科学,),pharmaceutics,(,制药学,),physics,(,物理学,),political science,(,政治学,),psychology,(,心理学,),psychophysics,(,心理物理学,),quality control,(,质量控制,),religious studies,(,宗教研究,),sociology,(,社会学,),survey sampling,(,调查抽样,),taxonomy,(,分类学,),weather modification,(,气象改善,),12,统计研究对象的特点,1.,数量性,统计学研究的对象是客观现象的数量特征和规律性。,2.,总体性,统计学研究的是客观现象总体的数量特征与规律性,而不是个体的量。,3.,具体性,统计的对象是一定时间、地点、条件下事物的量,而不是抽象对象的量,这是统计学和数学的一个重要区别。,4.,差异性,组成统计研究对象总体的个体是有差异的,否则就不需要进行统计分析。统计研究中需要对总体中大量的个体进行观察并进行综合分析,由此才能获得总体的数量分布特征。,13,统计学的分类,统计学大致有以下两种主要的分类方法。,1.,描述统计学和推断统计学,这一分类方法既反映了统计学发展的两个主要阶段,同时也反映了各自不同的侧重。,描述统计学,是研究如何对客观现象进行数量的计量、加工、概括和表示的方法。在二十世纪之前统计学基本上处于描述阶段。描述统计学是统计学的基础。,推断统计学,是研究如何根据样本数据去推断总体的情况,概率论是其理论基础。推断统计学是近代统计学的核心,也是统计学中的主要内容。,14,统计学的分科,描述统计,推断统计,统计学的分科,理论统计,应用统计,15,描述统计与推断统计的关系,反映客观现象的数据,总体内在的数量规律性,推断统计,(利用样本信息和概率论对总体的数量特征进行估计和检验等),概率论,(包括分布理论、大数定律和中心极限定理等),描述统计,(统计数据的搜集、整理、显示和分析等),总体数据,样本数据,统计学探索现象数量规律性的过程,16,理论统计学和应用统计学,理论统计学,是研究统计学的数学原理,它基于概率论的原理,还包括不属于传统概率论的一些内容,如随机化原则的理论、各种估计的原理、假设检验的原理以及一般决策的原理。,在统计实践中经常会遇到一些原有的统计方法不能适应的新问题,需要创造新的统计模型和统计分析方法,这就需要统计理论的研究与指导。,应用统计学,将统计学的基本原理应用于各个领域就形成各种应用统计学的分支。它包括适用于各个领域的一般性的统计方法,如参数估计、假设检验、方差分析、回归分析等,还包括在某一领域中特定的分析方法,如经济统计中的时间数列分析和指数分析等。,应用统计学侧重于阐明统计学的基本原理,并将理论统计学的成果作为工具应用于各个领域。,17,统计基本术语,变量:,事物的特征,是运用统计方法所分析的对象。例如,在商业模型中,销售额、每年的开支和每年的净利润都是企业想要分析的变量。,数据,:是与变量相关的值。变量可能随时间变动,如某一公司的期望销售额、开支和净利润每年都有所不同。这些不同的值就是与变量相关的数据,或者简单地说,就是统计所要分析的“数据”。,注意,:变量需赋予可操作定义,否则会产生歧义。如:对销售额的操作性定义可能会发生这样错误的理解:一个人认为年销售额是指全部连锁店的年销售额,而另一个人则认为是每家店的年销售额。,18,统计基本术语,总体,:所研究对象的全体。,个体,:指总体中的每个元素或单元。总体依其所包含的个体总数分为有限总体和无限总体。,样本,:从总体中挑选出来用于分析的一部分。这种挑选通常是相对独立的。样本是进行推断统计的依据。,参数,:参数是描述总体特征的数值。,统计量:,是描述样本特征的数值,19,统计数据的收集是统计整理和分析,以及统计推断和预测的基础。社会经济统计中所需要的数据与资料主要来源于统计调查。,统计数据的收集就是根据统计研究的目的和要求,有组织、有计划地向调查对象搜集原始资料的过程。,确定数据最合适的来源和收集数据的合理方法是非常重要的任务,因为如果收集的数据有偏差,模糊不清或有其他类型的错误时,即使最复杂的统计方法也无法得到有用的信息,即需要避免“,Garbage In Garbage Out(,垃圾数据产生垃圾统计结果,)”,的统计应用情况。,1.2,统计数据的收集,20,一,.,数据采集的基本要求,准确性,及时性,完整性,系统性,统计调查的数据资料应配套,要能从不同侧面反映所研究总体的特征,才能为科学的判断和决策提供依据。,在实际应用中,我们要依据特定的研究目的或工作任务,结合研究对象所具有的性质和特点,相应地选择适合的调查方法,必要时也可以几种调查方法结合使用。,21,二,.,普遍调查,普遍调查简称普查,是专门组织的一次性的全面调查。如全国的人口普查、能源普查、工业普查等。,组织方式有两种:,1.,建立专门的普查机构,2.,利用调查单位的原始记录和核算资料,发放调查表,由登记单位填报。,普查时注意的原则:,规定统一的标准时点,规定统一的普查期限,规定普查的项目和指标。,22,普遍调查实例,【,例,1.1,】,2002,年在国务院统一部署下,开展全国“基本单位普查”。关于这次普查的部分重要要求与规定如下:,调查目的:,统计分析全国和各省市地区的单位总数、性质、隶属关系、分布情况等。,标准时间:,2001,年,12,月,31,日。,调查对象:,各类法人单位,各类法人单位所属的产业活动单位。,调查项目:,单位总数;,性质分类,(,企业法人、事业法人、社团法人、机关法人、其他法人,),;,基本情况,性质划分、隶属关系,(,中央、省市、区县、街道等,),;,主要构成,(,产业结构、行业分布、地区分布、经济成分、规模结构,),;,分布情况。,23,三,.,重点调查,在总体中选择部分重点单位进行调查,以了解,总体基本情况,的一种非全面调查。,重点调查的特点:,(1),重点调查适用于调查对象的标志值比较集中于某些单位的场合,这些单位的管理比较健全,统计力量比较充实,能够及时取得准确资料。,(2),重点调查的目的在于了解总体现象某些方面的基本情况,而不要求全面准确地推算总体数字。,(3),重点调查比实际调查的单位数目少,在满足调查目的所要求的前提下,可以比全面调查节省人力、物力和时间。,24,四,.,典型调查,也是专门组织的一种非全面调查,在总体中选择有代表性的典型单位进行,深入细致,的调查。,典型调查的作用和目的,(1),研究新事物或某种倾向性的社会问题,通过对典型单位深入细致的调查,可以发现新情况、新问题,探测事物发展变化的趋势,形成科学的预见。,(2),分析事物的不同类型,通过研究造成它们间差别的原因,总结经验教训,研究对策,促进事物的转化和发展。,(,3),典型调查可用来研究事务的变化规律。,(4),典型调查的资料可用来补充和验证全面统计的数字,推论和测算有关现象的总体。,25,六,.,抽样调查,是指按随机原则从总体中抽取部分单位组成样本。目的是利用样本数据推断,(,估计,),总体的数量分布特征。,抽样调查是现代推断统计的核心,也是最重要的统计调查方法。,26,抽样调查中四种误差,涵盖误差,:当某一组代表性的样本被排除在抽样调查之外时所引起的选择偏差。,无回应误差:,抽样时,对样本个体数据收集失败会导致无回应偏差。,抽样误差:,选择抽样调查是因为这种方法简单、低成本和有效。但同时也意味着有的个体被抽中,有的个体没有被抽中。,测量误差:,测量误差是指由于样本数据测量程序的设计和应用不当所引起的误差。,课堂讨论,:,举例说明这几种误差。,27,七,.,网上调查,截至,2009,年,6,月底,中国网民规模达到,3.38,亿人,较,2008,年底增长,13.4%,,上网普及率达到,25.5%,。网民规模持续扩大,互联网普及率平稳上升。其中宽带网民数达到,3.2,亿,占比高达,94.3%,,较,2008,年底上升了,3.7,个百分点。另外,截至,2009,年,6,月底,作为国家域名,,CN,域名总计达到,1,296,万个。作为我国互联网的重要基础资源,,CN,域名已经广泛地应用在金融、汽车等各个行业中。截止,2009,年,6,月我国互联网用户发展情况如图,1.2,所示。,28,图,2008-2009,年我国互联网用户发展情况,(,资料来源:第,23,次中国互联网络发展状况统计报告,),29,网上调查优势,及时性和共享性,便捷性和低成本,可靠性和客观性,更好的接触性,穿越时空性,30,问卷是一种特殊形式的调查表。其特点是表中用一系列按照严密逻辑结构组成的问题,向被调查者调查具体事实和个人对某问题的反映、看法,它不要求被调查者填写姓名。问卷设计一般要遵循以下原则。,合理性:合理性指的是问卷必须紧密与调查主题相关。,一般性:即问题的设置是否具有普遍意义。,逻辑性:问卷的设计要有整体感,这种整体感即是问题与问题之间要具有逻辑性,独立的问题本身也不能出现逻辑上的谬误。,明确性:所谓明确性,事实上是问题设置的规范性。,非诱导性:非诱导性指的是问题要设置在中性位置、不参与提示或主观臆断,完全将被访问者的独立性与客观性摆在问卷操作的限制条件的位置上。,便于整理和分析,1.3,问卷设计,31,统计学中将变量分为分类变量或数值变量。,分类变量,(,也称为定性变量,),的值只能按类别分开。,数值变量,(,也称为定量变量,),的值表示数量。数值变量可进一步分为离散变量和连续变量。,1.4,变量类型,32,四种计量尺度,数据的计量尺度,定类尺度,定序尺度,定距尺度,定比尺度,33,计量层次最低,对事物进行平行的分类,各类别可以指定数字代码表示,使用时必须符合类别穷尽和互斥的要求,数据表现为“类别”,具有,=,或,的数学特性,定类尺度,(,概念要点,),34,对事物分类的同时给出各类别的顺序,比定类尺度精确,未测量出类别之间的准确差值,数据表现为“类别”,但有序,具有,或,的数学特性,定序尺度,(,概念要点,),35,1.,对事物的准确测度,2.,比定序尺度精确,3.,数据表现为“数值”,4.,没有绝对零点,5.,具有,+,或,-,的数学特性,定距尺度,(,概念要点,),36,1.,对事物的准确测度,2.,与定距尺度处于同一层次,3.,数据表现为“数值”,4.,有绝对零点,5.,具有,或,的数学特性,定比尺度,(,概念要点,),37,四种计量尺度的比较,四种计量尺度的比较,定类尺度,定序尺度,定距尺度,定比尺度,分类(,),排序(,),间距(,+,,,-,),比值(,,,),计量尺度,数学特性,“,”,表示该尺度所具有的特性,38,数据类型与统计方法,数据类型与统计方法,定类数据,定序数据,品质数据,数量数据,定距数据,定比数据,39,本章教学目标:,掌握利用统计图表整理和表示统计数据的基本方法;,掌握利用,Office,软件绘制各种统计图表、计算各种统计综合指标。,掌握分类数据图表的制作方法。,掌握数值数据图表的制作方法。,了解图表汇总和制作原则。,第,2,章 统计表和统计图,40,在获得原始数据资料之后,需要使用一定的方法对数据进行整理和综合,目的是从大量的原始数据资料中提炼所需要的信息,使之可以提供概要信息并能反映对象总体的基本数量特征,便于人们的理解和使用。表格和图形是整理和反映统计资料的主要工具。,当数据是分类数据时,可以对每一分类数据制作频率或百分比表格和图表。,2.1,分类数据的图表,41,频数分布表列出了一系列分类数据的频率、总数或百分比,可以看出不同类别数据间的区别。,表,2-1 1 000,美元用途的频数分布表,用钱做什么,百分比,/%,购买奢侈品、旅游或礼物,20,向慈善机构捐款,2,还贷,24,储蓄,31,购买必需品,16,其他,7,1.,频数分布表,42,2.,条形图,43,3.,圆饼图,44,在帕累托图中,不同类别的数据是按其频率降序排列的,并在同一张图中画出累积百分比图。帕累托图可以体现帕累托原则:数据的绝大部分存在于很少类别中,极少剩下剩余的数据分散在大部分类别中。这两组经常被称为“至关重要的极少数”和“微不足道的大多数”,4.,帕累托图,45,当数据量很大时,首先可以将数值数据进行排序或用茎叶图描述以获得初步信息。,(1),排序,从没有排序的数据中很难看出数据的整体范围。排序是把数据从小到大,(,或从大到小,),进行排列。,(2),茎叶图,茎叶图就是将数据分成几组,(,称为茎,),,每组中数据的值,(,称为叶,),放置在每行的右边。结果可以显示出数据是如何分布的,以及数据中心在哪里。,为了制作茎叶图,可以将整数作为茎,把小数,(,叶,),化整。例如,数值,5.40,,它的茎,(,行,),是,5,,叶是,4,;数值,4.30,,它的茎,(,行,),是,4,,叶是,3,。也可以将数据的十位数作为茎,个位数作为叶。,2.2,数值数据的整理,46,当数据量很大时,排序和茎叶图都很难得出结论。此时需要使用图表。有多种不同类型的图表可以用来精确描述数值数据,包括频数分布表、折线图、面积图、柱形图、条形图、直方图、频数多边形、圆饼图、散点图、时间序列、曲线图以及对数图等等。,2.3,数值数据的图表,47,例:,某公司汽车销售量,(,单位:辆,),48,1.,频数分布表,分组统计整理后,将杂乱无章的,60,个原始数据压缩到,8,组,清晰地反映了更多的有用信息。,49,制作频数分布表的注意事项,分组的数量,实际应用中分组的数量和组距应根据对象的特点和分析的需要决定。,如果分组是为了揭示数据的分布规律,则分组不能过多和过少。通常应在,5,15,之间。在绘制直方图时可以参照下表:,样本容量,n,参考分组数,20,50,5,6,51,100,7,8,101,200,8,9,201,500,9,10,501,1000,10,11,1000,以上,11,20,50,制作频数分布表的注意事项,2),分组的方法,分组的方法可以有等距分组和不等距分组两类。采用哪种分组方法应根据数据的分布特点而定。通常,当数据在一定范围内基本呈对称分布时,宜采用等距分组;而当数据的分布状态极度偏斜时,则宜采用不等距分组。,51,例:按雇工人数分组的私营企业规模统计,52,制作频数分布表的注意事项,3,)组限:,组限也即各组区间的上、下限。确定各组区间的上限和下限时,应保证各组之间既不重叠,又不能遗漏任一数据,使每一个数据都属于某一确定的分组。,重叠和组限不重叠组限,重叠组限,相邻组的上下限重合,。,适用于连续型变量。但各组上、下限中有一个不包含再内。通常按“上限不在内”处理,,即组区间是,a,b,),的形式。,注意:,Excel,在制作频数分布表时采用的是“上限在内”的规则,。,不重叠组限,相邻组的上下限不重合,。,适用于离散型变量,。,53,例:离散型变量的分组(不重叠组限),某公司某月汽车销售量的频数分布表,54,例:连续型变量的分组,(,上限不在内),某企业职工工资的分组统计,55,制作频数分布表的注意事项,4),组中值,组中值是各组的代表值,在计算分组数据的许多统计指标时要用到。通常取该组上限和下限的平均值为组中值。如表,2-7,所示,,1019,的组中值是,14.5,,,2029,的组中值是,24.5,,等等。,5),表格线,统计表中的表格线应当是两边开口的表格。,56,使用,Excel,制作频数分布表,利用,Excel,的,FREQUENCY,函数,语法规则:,格式:,FREQUENCY(,),接收区间,各组上限值组成的一列区域,功能:,返回各组的频数。,使用,【,工具,】,“,数据分析”“直方图”功能,57,统计图可以形象、直观、生动、简洁地显示数据的特征。,常用的统计图有以下几种:,1.,折线图,通常用来描述时间序列数据,,用以表示某些指标的变化趋势。,制作折线图时应正确选择坐标轴轴的刻度。对同样的统计资料,延伸或压缩某一坐标轴可能传达不同的甚至是误导的印象。,其它数值数据统计图,58,图,1.2,失业人数统计图,过分压缩了,Y,轴,59,图,1.3,失业人数统计图,过分压缩了,X,轴,60,2.,面积图,面积图可以直观地表示时间序列各组成部分的变化情况。,图 某地区各产业增加值构成比例的变化情况,61,3.,柱形图、条形图和直方图,柱形图、条形图和直方图是使用的最为广泛的统计图表。通常,将横向绘制的柱形图称为条形图,而将各柱形之间没有间隔的称为直方图,,但在,Office,中将直方图和柱形图统称为柱形图。,(1),柱形图,主要用于表示时间序列数据,。,62,图,1.4,各类进口商品的变化情况,柱形图示例,63,(2),直方图,用以表示数据的频数分布规律,。,图,1.5,比特公司啤酒销售量的频数分布,64,未分组数据的茎叶图,用于显示未分组的原始数据的分布,由“茎”和“叶”两部分构成,其图形是由数字组成的,以该组数据的高位数值作树茎,低位数字作树叶,对于,n,(20,n,300),个数据,茎叶图最大行数不超过,L,=10 log,10,n,茎叶图类似于横置的直方图,但又有区别,直方图可大体上看出一组数据的分布状况,但没有给出具体的数值,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息,65,树茎,树叶,788,022347778889,0012222333344466777889,0133445799,10,11,12,13,数据个数,3,13,24,10,茎叶图类似横置的直方图,未分组数据,茎叶图,(茎叶图的制作),某车间工人日加工零件数的茎叶图,66,4.,频数多边形,频数多边形是直方图的另一种表现形式,是由直方图的顶端中点,(,各组的组中值,),连线而成,其中两边都要连接到横轴上的某点,以便通过覆盖的面积反映总频数。当希望在一个图上比较两种频数分布的特征时,就需要使用频数多边形。,男、女学生的体重分布特征,67,5.,圆饼图,当要表示总体各组成部分的个体数量在总体中占的比率时,经常使用圆饼图,圆饼中各扇形的大小代表了不同组成部分的相对重要性。,某企业资产、负债与所有者权益的构成情况,68,6.,散点图、时间序列图和曲线图,Microsoft Office,中的曲线图属于平滑线散点图。,散点图,:在回归分析中,经常需要用样本数据的散点图来分析两个变量之间大致的曲线关系,如正相关关系,即一个变量的增长引起另一个变量的增长;负相关关系,即一个变量的增长引起另一个变量的减少。,时间序列图,:研究数值变量随时间变化的趋势。,X,轴代表时间,,Y,轴代表数值。时间序列图可用折线图来实现。,曲线图,:当变量是连续型数据时,通常使用曲线图来描述数据的分布情况,如连续型随机变量的密度函数和分布函数曲线。,69,6.,散点图、时间序列图和曲线图,Office,中曲线图的绘制,方法一:使用“平滑线散点图”,绘制,方法二:将折线图转换为曲线图,右击折线后选择“数据系列格式”,在“图案”标签下选“平滑线”复选框,就将折线图转换为曲线图。,70,经济管理中几种常见的频数分布曲线,正态分布曲线,这是客观事物数量特征上表现得最为普遍的一类频数分布曲线。,如人的身高、体重、智商,钢的含碳量、抗拉强度,某种农作物的产量等等。,正态分布曲线,71,偏态曲线,图,1.8,偏态曲线,右偏(正偏),左偏(负偏),例如收入和财富的频数分配曲线就是右偏的,大量财富都集中在极少数富豪手中,而多数人则是低收入者。,此外,在产品质量管理中也普遍存在这种现象,如多数次品都集中出在少数工人手中;次品也大都出在少数几道工序上。这就要求在管理和控制上需要突出重点、抓住关键因素。,按其长尾拖向哪一方又可分为右偏,(,正偏,),和左偏,(,负偏,),两类,。,72,J,形曲线,其典型的应用分别是经济学中的供给曲线和需求曲线。,供给曲线,(,正,J,形,),表现为随着价格的增加,供给量以更快的速度增加;,需求曲线,(,倒,J,形,),表现为随着价格的增加,需求量以更快的速度减少。,供给和需求曲线的交点即供求平衡点。,正,J,形,倒,J,形,图,1.9 J,形曲线,73,U,形曲线,人和动物的的死亡率、设备的故障率等通常都服从于,U,形曲线分布。,图,1.10 U,形曲线,又称生命曲线或浴盆曲线,74,7.,对数图,人们经常对时间序列变量的相对变化率而不是绝对数值的变化感兴趣,如各种经济变量的环比发展速度。此时若要用统计图直观反映增长率等现象的变动趋势,就需要使用对数图。,对数图是以时间为横轴,以,10,为底的对数比率刻度为纵轴的折线图。可以通过对数图中各线段的斜率比较各时期增长率的大小。考虑以下统计数据:,75,对数图可以直观反映时间序列的环比变化趋势,可以在,Office,图表类型中选择自定义类型中的“对数图”,也可通过将一般折线图纵轴“坐标轴格式”中的“刻度”设为“对数刻度”来绘制对数图。,76,例:某公司总成本和劳动成本的增长,该公司总成本和劳动成本每年增加相同的数量,因而用绝对数据作图时两条线是平行的,不小心可能会得出劳动成本占总成本固定比例的误解。实际上第,1,年占,40%,,第,6,年占,60%,。使用对数图就可以清晰反映劳动成本有更高的增长率。,77,对数图反映了劳动成本增长率大于总成本增长率,78,交叉表可以由列联表和并行条形图来表示。,1.,列联表,列联表表示两类变量的结果。横轴表示一类变量,纵轴表示另一类变量。值位于横纵轴的交叉处,称为单元。根据列联表的结构类型,每横纵轴组合单元包含频率、总值的百分比、横行的百分比或列的百分比。,2.,并行条形图,一个更有效的显示交叉分类数据的方式是作并行条形图。,2.4,交叉表,79,分析类型,数据类型,数值,分类,单变量值的图表,排序,茎叶图,频数分布表,折线图,直方图,面积图,柱形图和条形图,圆饼图,频数多边形,汇总表,条形图,圆饼图,帕累托图,两变量关系的图表,散点图,时间序列图,曲线图,列联表,并行条形图,图表选择指导,2.5,图表汇总和制作原则,80,图表制作原则,对于分类数据和数值数据,有些图表是专用的,如帕累托图专门用于分类数据的单变量值描述;而有些图表是通用的,如条形图既可以描述单变量的数值数据,也可以描述单变量的分类数据。为了提供图表表述的合理性,在日常的统计数据整理中,应该遵循下列一些基本原则,以更精确、更形象地抽取统计数据中所蕴含的特征信息和意义:,图表不能扭曲数据。,图表不应有不必要的修饰图,(,有时是图表垃圾,),。,任何两维图标应尽可能地在坐标轴上标上刻度。,纵轴的起始点应该合理。,所有的轴应合理布置。,图表应包含标题。,使用最简单的图表。,81,本章主要介绍以下,3,类综合统计指标:,度量中心(集中)趋势的平均指标,度量离散程度(变异性)的指标,度量偏斜程度的指标,度量两种数值变量关系的指标,第,3,章 统计数据的描述度量,82,常用的这类指标有以下五种:算术平均数、中位数、众数、四分位数、几何平均数、五数汇总和箱线图。,3.1,度量集中趋势的指标,83,(,1,)基本公式:,1.,算术平均数,84,(1),简单算术平均数,(,2,)算术平均数的计算,n,总体单位总数;,x,i,第,i,个单位的标志值。,(2),加权算术平均数,x,i,第,i,组的代表值,(,组中值或该组变量值,),;,f,i,第,i,组的频数,。,85,使,用,Excel,函,数求加权算术平均数,利用,Excel“,数学和三角函数”中的,SUMPRODUCT,函数可以方便地计算出,分组数据的加权算术平均数。,语法规则:,格式:,SUMPRODUCT(,),功能:,返回两个或多个区域中对应元素乘积之和。,例,:利用比特啤酒公司各销售点分组频数分布数据,求各销售点的平均销售量。,86,2.,几何平均数,当统计资料是各时期的发展速度等前后期的两两比环数据,要求每时期的平均发展速度时,就需要使用几何平均数。,几何平均数是,n,个数连乘积的,n,次方根。,(,1,)简单几何平均数,(,2,)加权几何平均数,f,i,各比率出现的频数,87,例,:,某公司原料成本随时间增长的情况如下表,求原料成本的平均年增长率。,解一,:,解二,:,年平均增长率,=1.0688,-,1=6.88%,88,(,3,)使用,Excel,求几何平均数,可以使用,Excel,统计函数中的,GEOMEAN,函数返回几何平均数。,语法规则:,格式:,GEOMEAN,(,),功能:,返回所有参数中数据的几何平均数。,89,将总体各单位标志值,按由小到大的顺序排列后,处于中间位置的标志值称为,中位数,,记为,M,e,。,中位数是一种位置平均数,不受极端数据的影响。当统计资料中含有异常的或极端的数据时,中位数比算术平均数更具有代表性。,比如有,5,笔付款:,9,元,,10,元,,10,元,,11,元,,60,元,付款的均值为,20,元,显然这并不是一个很好的代表值,而中位数,M,e,=10,元则更能代表平均每笔的付款数。,3.,中位数,90,(1),使用,Excel,的统计函数返回,未分组数据的中位数,可以使用,Excel,统计函数中的,MEDIAN,函数返回未分组数据的中位数。,格式:,MEDIAN,(,),功能:,返回所有参数中数据的中位数。,91,(2),分组数据中位数的确定,对于分组数据的统计资料,中位数要用插值法来估算。,(1),计算各组的累计频数,;,(2),确定中位数所在的组,是累计频数首次包含中位数位次,f,/2,的组,。,其中:,L,中位数所在组的下限;,S,m,-1,中位数所在组前一组的累计频数;,f,m,中位数所在组的频数;,d,中位数所在组的组距。,92,例,:计算下表数据的中位数,解,:,f,/2=27.5,,中位数在“,15-25”,的组中,,93,4.,众数,是总体中出现次数最多的标志值,,记为,M,0,。,众数明确反映了数据分布的集中趋势,也是一种位置平均数,不受极端数据的影响。但并非所有数据集合都有众数,也可能存在多个众数。,在某些情况下,众数是一个较好的代表值。,例如在服装行业中,生产商、批发商和零售商在进行生产和存货决策时,更感兴趣的是最普遍的尺寸而不是平均尺寸。,又如,当要了解大多数家庭的收入状况时,也要用到众数。,94,(1),未分组数据众数的确定,在数据量很大的时候,可以使用,Excel,统计函数中的,MODE,函数返回众数。,格式:,MODE,(,),功能:,返回所有参数中数据的众数。,95,(2),分组数据众数的确定,对于分组数据的统计资料,众数也要用插值法来估算。,(1),确定众数所在的组,对于等距分组,众数组是频数最高的组,;,(2),使用以下插值公式计算,其中:,L,众数组的下限,1,众数组与前一组的频数之差,2,众数组与后一组的频数之差,d,众数组的组距,1,2,众数,L,d,96,例,:,计算下表数据的众数,解:,众数组是“,15-25”,的组,则,97,算术平均数、中位数和众数间的关系,0,x,f,(,M,e,,,M,0,),0,x,f,M,e,M,0,0,x,f,M,e,M,0,2,.,频数分布为右偏态 时,众数小于中位数,算术平均数大于中位数,。,3,.,频数分布为左偏态时,众数大于中位数,算术平均数小于中位数,。,1.,频数分布呈完全对称的单峰分布,算术平均数、中位数和众数三者相同。,98,补充习题,补充题,3,:某地区私营企业注册资金分组资料如下,求该地区私营企业注册资金的平均数、中位数和众数。,99,补充题,3,答案,f/2=143/2=71.5,,中位数所在组为“,100,150”,的组,,众数组为“,100,150”,的组,,100,5.,四分位数,(,概念要点,),1.,集中趋势的测度值之一,2.,排序后处于,25%,和,75%,位置上的值,3.,不受极端值的影响,4.,可用于定序数据,也可用于数值型数据,但不能用于定类数据,Q,L,Q,M,Q,U,25%,25%,25%,25%,101,未分组数据:,组距分组数据:,下四分位数,(,Q,L,),位置,=,N+,1,4,上四分位数,(,Q,U,),位置,=,3(,N+,1),4,下四分位数,(,Q,L,),位置,=,N,4,上四分位数,(,Q,L,),位置,=,3N,4,四分位数位置的确定,102,数值型未分组数据的四分位数,(7,个数据的算例,),原始数据,:,23 21 30 32 28 25 26,排 序,:,21,23,25 26 28,30,32,位 置,:,1 2 3 4 5 6 7,N+,1,Q,L,=,23,7+,1,Q,L,位置,=,4,=,4,=2,Q,U,位置,=,3(,N+,1),4,3(7,+,1),4,=,=6,Q,U,=,30,103,数值型未分组数据的四分位数,(6,个数据的算例,),原始数据,:,23 21 30 28 25 26,排 序,:,21 23 25 26 28 30,位 置,:,1 2 3 4 5 6,Q,L,=21+0.75(23-21),=,22.5,Q,L,位置,=,N+,1,4,=,6+,1,4,=1.75,Q,U,位置,=,3(,N+,1),4,3(6,+,1),4,=,=5.25,Q,U,=28+0.25(30-28),=,28.5,104,数值型分组数据的四分位数,上四分位数,:,下四分位数,:,105,数值型分组数据的四分位数,Q,L,位置,50/4,12.5,Q,U,位置,350/4,37.5,表 某车间,50,名工人日加工零件数分组表,按零件数分组,频数(人),累积频数,105,110,110,115,115,120,120,125,125,130,130,135,135,140,3,5,8,14,10,6,4,3,8,16,30,40,46,50,合计,50,【,例,】,根据表中的数据,计算,50,名工人日加工零件数的四分位数,106,使用,Excel,统计函数中的,QUARTILE,函数,在数据量很大的时候,可以使用,Excel,统计函数中的,QUARTILE,函数返回四分位数,语法规则如下:,格式:,QUARTILE(,数据集,第,nthquart,分位数,),功能:返回不同,nthquart,的四分位数。,如果,nthquart,等于,函数,QUARTILE,的返回值,0,最小值,1,第一四分位数,(,第,25,个百分点值,),2,中位数,(,第,50,个百分点值,),3,第三四分位数,(,第,75,个百分点值,),4,最大值,107,6.,五数汇总和箱线图,五数汇总包括最小值、第一分位数、中位数、第三分位数和最大值这样五个数据,即,箱线图,(,亦称箱须图,),提供了基于五数汇总的几何图形,108,箱线图和四种不同类型分布图的联系,c),右偏分布,a),钟形分布,b),左偏分布,d),矩形分布,109,x,频数,要分析总体的分布规律,仅了解中心趋势指标是不够的,还需要了解数据的离散程度或差异状况。几个总体可以有相同的均值,但取值情况却可以相差很大。,变异指标就是用来表示数据离散程度特征的。变异指标主要有:极差、平均差、标准差和变异系数。,3.2,度量离散程度的指标,110,【,案例,】,道格拉斯公司应如何选择供应商,道森公司和克拉克公司是道格拉斯公司的两家供货商。两家供货商都表示大约需要,10,个工作日交付定货。下表是两家供应商定货交付时间的历史数据。今后道格拉斯公司应选择哪家供应商供货?,111,1.,极差,极差也称全距,是一组数据的最大值和最小值之差,通常记为,R,。显然,一组数据的差异越大,其极差也越大。,极差是最简单的变异指标,它广泛应用于产品质量管理中控制质量的差异,一旦发现超过控制范围,就采取措施加以纠正,以保证产品质量的稳定。,但极差有很大的局限性,它仅考虑了两个极端的数据,没有利用其余数据的信息,因而是一种比较粗糙的变异指标。,112,2.,平均差,平均差是各数据与其均值离差绝对值的算术平均数,通常记为,A.D,。,平均差越大,反映数据间的差异越大。,但由于使用了绝对值,其数学性质很差,因而很少使用。,113,3.,四分位差,1.,离散程度的测度值之一,2.,也称为内距或四分间距,3.,上四分位数与下四分位数之差,Q,D,=,Q,U,-,Q,L,4.,反映了中间,50%,数据的离散程度,不受极端值的影响,用于衡量中位数的代表性,114,4.,方差和标准差,方差和标准差是应用得最为广泛的变异指标。标准差是方差的算术平方根,也称均方差或根方差。,应注意总体方差、标准差与样本方差、标准差是有区别的。,(1),总体方差和总体标准差,总体
展开阅读全文