资源描述
统计学原理复习重点
第一章 总论。
本章介绍统计学及相关概念,勾勒了本课程的框架结构——描述统计学和推断统计学。是统计的三层含义,总体、样本及指标等概念。
统计的三层含义及相互关系
统计学是一门关于数据的科学,是一门关于数据的收集、整理、分析、解释和推断的科学。
(一)统计工作(统计的基本含义)
即统计实践活动,是人们对客观事物的数据资料进行搜集、整理、分析的工作活动的总称。
(二)统计资料
是统计工作的成果,包括各种统计报表、统计图形及文字资料等。
(三)统计学
是一门收集、整理、描述、显示和分析统计数据的方法论的科学,其目的是探索事物的内在数量规律性,以达到对客观事物的科学认识。
(四)三者关系
统计学与统计实践活动的关系是理论与实践的关系,理论源于实践,理论又高于实践,反过来又指导实践 。统计工作和统计数据是工作和工作成果关系。
统计实践活动的产生与发展
三个主要的统计学派
1、政治算术学派
代表人物:英国的威廉·配第(1623-1687)、约翰·格朗特(1620-1674)等。
威廉·配第的代表著《政治算术》对当时的英、荷、法等国的“ 国富和力量”进行了数量的计算和比较;格朗特写出了第一本关于人口统计的著作。他们开创了从数量方面研究社会经济现象的先例。
可以说,威廉·配第是统计学的创始人。
2、记述学派(国势学派〕
代表人物:德国的康令(1606-1681)
阿亨瓦尔(1719-1772; 1764年首创统计学一词)
他们在大学中开设“ 国势学”课程,采用记述性材料,讲述国家“ 显著事项”,籍以说明管理国家的方法。特点是偏重于事物质的解释而忽视量的分析。
3、数理统计学派
代表人物:比利时的凯特勒(1796-1874)
他把古典概率论引进统计学,发展了概率论,推广了概率论在统计中的应用。
凯特勒把德国的国势学派、英国的政治算术学派和意大利、法国的古典概率论家以融合改造为近代意义的统计学。他是数理统计学派的奠定人。
代表著作:社会物理学
统计学的分类
从统计方法的构成角度分:
1、描述统计学(descriptive statistics)
研究如何取得、整理和表现数据资料,进而通过综合、概括与分析反映客观现象的数量特征。包括数据的收集与整理、数据的显示方法、数据分布特征的描述与分析方法等。
2、推断统计学(inferential statistics)
研究如何根据样本数据去推断总体数量特征的方法。包括抽样估计、假设检验、方差分析及相关和回归分析等。
描述统计学和推断统计学的关系
描述统计学是统计学的基础和统计研究工作的前提,推断统计学则是现代统计学的核心和统计工作的关键。
从统计方法的研究和应用角度分:
1、理论统计学(theoretical statistics)
利用数学原理研究统计学的一般理论和方法的统计学,如概率论与数理统计
2、应用统计学(applied statistics)*
研究如何应用统计方法解决实际问题,大多是以数理统计为基础形成的边缘学科。如自然科学领域的生物统计学、社会科学领域的社会经济统计学等。
统计学与其他学科的关系
(一)统计学与数学的关系
1、区别
(1)研究对象不同:数学研究抽象的量,
统计研究具体的量。
(2)研究方法不同:数学是演绎,统计是归纳和演绎的结合。
2.、联系
数学为统计研究提供数学公式、模型和分析方法。
(二、)统计学与其他学科的关系
统计几乎与所有学科都有联系。统计方法可以帮助其他学科探索学科内的数量规律性,但对这种数量规律性的解释与进一步的研究,只能由各学科自已的研究完成。
统计的研究对象、特点、作用
统计的研究对象 、特点:
社会经济统计,也可称为经济统计,其研究对象是社会经济现象总体的数量规律,即通过对(社会)经济现象的规模、水平、结构、比例和速度等数量关系的调查研究,说明国民经济和社会发展在一定时间、地点、条件下的数量表现及变化规律,其中涉及到数量的多少、现象间的数量关系以及质量互变的数量界限等。社会经济统计学研究的就是在一定的质的规定下具体的不是抽象的数量表现与变化规律。
社会经济统计的特点:
1、数量性: 统计研究对象是客观事物的数量方面。
2、总体性: 社会经济统计认识社会经济现象时,主要是研究社会经济现象的总体数量规律,即通过大量的观察,获得足够多的统计资料,说明、认知总体现象的变化情况及规律。
3、具体性: 社会经济统计的研究对象是具体事物的数量,不是抽象的量。它与数学研究的数量是不尽相同的。
4、社会性:社会经济统计认识的对象是社会经济现象,它包括人类经济社会活动的各种条件(自然条件、社会条件)、人类各种活动的过程与结果(生产活动、交换活动、分配活动、消费活动等)。
统计的职能:信息职能、咨询职能、监督职能。
统计学中几个基本概念
统计总体和总体单位
总体 即统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别事物的整体。
例如:要研究全国城镇居民的收支情况,就以全国城镇居民作为一个总体。
特点:
同质性 是确定总体的前提和基础。它是根据统计的研究目的而定的。
研究目的不同,则所确定的总体也不同,其同质性的意义也随之变化。例如,研究城镇居民贫困户的生活状况,那么,贫困线下的城镇居民户则构成了统计总体,贫困线下的城镇居民户是同质的,而贫困线上的城镇居民户是非同质的。
大量性 统计总体应该由足够数量的同质性单位构成。实现统计研究目的的必要条件
差异性 构成总体的各个同质性单位的特征存在着差异。它是统计研究的前提和内容。
总体单位(简称单位)是组成总体的各个个体。根据研究目的的不同,单位可以是人、物、机构等实物单位,也可以是一种现象或活动等非实物单位。
总体和单位的概念是相对而言的,随研究目的不同,总体范围不同而变化。同一研究对象,在一种情况下为总体,但在另一情况下又可能变成单位。
根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。
样本 由总体的部分单位组成的集合称为样本(又称子样)。
当总体单位数量很多甚至无限时,不必要或不可能对构成总体的所有单位都进行调查。这时,需要采用一定的方式,从由作为研究对象的事物全体构成的总体(又称全及总体、母体)中,抽取一部分单位,作为总体的代表加以研究。
样本也由一定数量的单位构成的,符合总体的概念;由样本单位组成的总体称为抽样总体,样本所包含的总体单位数称为样本容量。
标志和变量
总体各单位普遍具有的属性或特征称为标志。
标志分类:
品质标志:品质属性方面的特征,只能用文字、符号或数字代码来表现 。
数量标志:数量方面的特征,用数值来表现。
不变标志: 一个总体中各单位某标志的具体表现都相同,称之为不变标志。不变标志是总体同质性的基础。 一个总体至少要有一个不变标志,才能够使各单 位结合成一个总体。
变异标志:亦称可变标志,在一个总体中,当一个标志在各单位的具体表现有可能不同时,这个标志便称为可变标志。作为总体,同时必须存在变异标志,这表示所研究的现象在各单位之间存在着差异,才需要进行统计研究。
统计指标
统计指标是反映统计总体数量特征的概念和数值。如2002年我国国内生产总值104790.6亿元。
– 统计指标由两项基本要素构成,即指标的概念(名称)和指标的取值。
– 指标的概念(名称)是对所研究现象本质的抽象概括,也是对总体数量特征的质的规定性。确定统计指标必须有一定的理论依据,使之与社会经济或科学技术的范畴相吻合。同时,又必须对理论范畴和计算口径加以具体化。
– 指标的数值反映所研究现象在具体时间、地点、条件下的规模和水平。在观察指标数值时,必须了解其具体的时间状态、空间范围、计量单位、计量方法等限定,同时注意由于上述条件的变化而引起数值的可比性问题。
特性:数量性、具体性、综合性
指标与标志的关系
– 标志反映总体单位的属性和特征,而指标则反映总体的数量特征。标志和指标的关系是个别和整体的关系。需要通过对各单位标志的具体表现进行汇总和计算才能得到相应的指标。
– 总体和单位的概念会随着研究目的不同而变化,因此指标与标志的概念也是相对而言的。例如,所要研究的是全国工业企业的情况,则各企业的职工人数、固定资产、工业增加值等都是总体单位(即各个企业)的标志,如果研究目的变成研究某一企业的职工状况,则该企业变成一个总体,企业职工人数变成了统计指标,每个职工的文化程度、技术等级、性别等就成为标志。
统计数据
(一)变量与变量值
说明现象的某一数量特征的概念也被称为变量,变量的具体取值是变量值,统计数据就是统计变量的具体表现。
例如,固定资产是一个变量,各企业固定资产的具体数值是变量值。
为了区别,在本书中,凡是变量均用大写的英文字母表示,而变量值则用小写英文字母表示。
连续型变量是指变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以取任意实数值。
例如,气象上的温度、湿度,零件的尺寸等。
离散型变量是指变量的其取值是整数值,可以一一列举。
例如,企业数,职工人数等。
确定性变量是受确定性因素影响的变量,即影响变量值变化的因素是明确的,是可解释和可控制的。
随机变量则是受许多微小的不确定因素(又称随机因素)影响的变量。变量的取值无法事先确定。
社会经济现象既有确定性变量也有随机变量。统计学所研究的主要是随机变量。
(二)数据的计量尺度
统计数据是总体单位标志或统计指标的具体数量表现。
根据对研究对象计量的不同精确程度,人们将计量尺度由低到高、由粗略到精确分为四个层次:定类尺度、定序尺度、定距尺度和定比尺度。
(三)数据的类型
横截面数据又称为静态数据,它是指在同一时间对同一总体内不同单位的数量进行观察而获得的数据。
时间序列数据又称为动态数据,它是指在不同时间对同一总体的数量表现进行观察而获得的数据。
例如,2005年全国各省市自治区的国内生产总值就属于横截面数据。而“十五”期间我国历年的国内生产总值就属于时间序列数据。
(四)数据的表现形式
绝对数。现象的规模、水平一般以绝对数形式表现。绝对数的计量单位一般为实物单位或价值单位,有时也采用复合单位。实物单位可以是自然计量单位,也可以是物理计量单位,如人口数用人计量,机器数用台计量,对于一些化工产品和燃料,常常还折合成标准实物单位计量。复合计量单位是由两种或两种以上计量单位复合而成的,如以“吨公里”为货物周转量的计量单位,以“千瓦时”为用电量的计量单位。
相对数。相对数由2个互相联系的数值对比求得。常用的相对数包括:结构相对数、动态相对数、比较相对数、强度相对数、利用程度相对数、计划完成相对数等。
平均数。平均数反映现象总体的一般水平或分布的集中趋势。关于这部分的内容,将在第三章作详细介绍。
第二、三章统计数据的调查与整理。
这两章介绍统计数据的搜集及整理。重点在于统计调查方式和统计数据整理(分组)。
统计调查方式:
1、普查:
为某一特定目的而专门组织的一次性全面调查
如:人口普查、工业普查等
●特点:
(1)通常是周期性的或一次性的,涉及面广、耗时、费力,一般需间隔较长时间;
(2)一般需要规定统一的标准调查时间,以避免调查数据的重复或遗漏;
(3)准确性一般较高,较规范;
(4)适用的对象较窄,只能调查一些最基本、最一般的现象。
2、抽样调查:
从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果推断总体数量特征。
●特点:
(1)经济性强:工作量小、可节省人、财、物力
(2)时效性高:可迅速、及时地获得所需要的信息
(3)适应面广:可获得更广泛的信息,适用于各个领域、各种问题的调查;
(4)准确性高:用工量小,从而工作可做得更细,误差往往很小。
3、统计报表
按国家有关法规规定,自上而下地统一布置,自下而上地逐级提供基本统计数据。
●特点:
统一的表式、统一的指标、统一的报送时间、统一的报送程序。
●类型:
(1)按报送调查范围分:
全面报表:调查对象中的每一个单位都填报
非全面报表:只要求调查对象中的一部分单位填报
(2)按报送时间间隔分
日报、月报、季报、年报
(3)按报送地域(机构)范围分:
国家报表、地方报表、部门报表
4、重点调查
从调查对象的全部单位中选择少数重点单位进行调查(适用于“同类”中的“大户”)。
5、典型调查
从调查对象的全部单位中选择一个或几个有代表性的单位进行调查。(不一定针对“大户”)
▼注意:
重点调查、典型调查与抽样调查的不同处在于:
1、抽样调查是随机抽取调查单位,不存在对调查对象选择的主观性,因此可以根据抽样结果推断总体的数量特征;
2、重点调查和典型调查不是随机取样,具有一定的主观性,因此调查结果不能推断总体。
数据的搜集方法
1、访问调查(派员调查):调查者与被调查者通过面对面的交谈获取调查资料;
2、邮寄调查:通过邮寄或其他方式将问卷送至被调查者,由被调查者填写问卷并寄回或投放到指定收集点;
3、电话调查:调查者利用电话同受访者进行语言交流以获取信息;
4、座谈会(集体访谈):将受访者集中在调查现场,使其对调查主题发表意见以获取调查资料;
5、个别深度访问:一次只有一名受访者参加的特殊的定性研究。
统计数据的整理(summarizing data)是指对所搜集的数据进行加工整理、使之系统化、条理化,以符合分析的需要。
统计数据的整理通常包括:
数据的预处理
分类或分组
汇总
数据分组与频数分布
统计分组是将预处理过的数据按照某种特征或标准分成不同的组别。
◎统计分组标志:分组时所依据的特征或标准,有品质标志和数量标志。
◎频数分布表:对分组后的数据,计算各组中数据出现的次数或频数所形成的汇总表。
概念:频数/次数分布;相对频数;百分数频数
◎ 频数分布或次数分布(Frequency distribution):全部数据按其分组标志在各组内的分布状况。
分布在各组内的数据个数称为频数或次数。
A frequency distribution is a tabular summary of a set of data showing the frequency (or number) of items in each of several nonoverlapping classes.
◎相对频数(Relative frequency)/频率/比重:各组频数与全部频数之和的比重。
The relative frequency of a class is the proportion of the total number of data items belonging to the class.(=Frequency of the class/n)
◎百分数频数(Percentage frequency):is the relative frequency multiplied by 100.
数值数据的分组与频数分布
分组计频基本步骤:
确定组数®¾ 确定组距®¾(按组)整理成分布频数表
第一步,确定组数(Number of classes)。组数的确定一般视数据本身的特点及数据的多少而定
经验上以5~20之间为好,尤其注意不要确定太多的组数,使得每组包含的数据太少。
实际分组时常按斯特格斯(Sturges)提出的经验公式来确定组数K:
第二步,确定组距(Width of classes):组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定:
组距=(最大值 - 最小值)/组数
第三步,确定各组组限(Class limits)并据此整理频数分布表。
1、分组所遵循的主要原则是“不重不漏”(each data value belongs to one class and only one class)。因此,
最低组限(The lower class limit) £ 数据的最小值,
最大组限(The upper class limit) ³数据的最大值;
另外,数据在每组中的归属习惯上采用“上组限不在内”。
2、对离散型数据,可采用相邻两组组限间断的办法解决“不重”的问题(如6~10,11~15,16~20等);
3、对连续型数据,往往采用相邻两组组限重叠,根据“上限不在内原则”解决“不重”问题(如[5,10),[10,15),[15,20)等)。
注意:
1、在最大值与最小值与其他数据相差悬殊时,为避免空白组出现,第一组和最后一组可采用“XX以下”及“XX以上”这样的开口组;
2、在组距分组时,如果各组组距相等则称为等距分组,否则为不等距分组。
不等距分组各组的频数受组距大小不同的影响,因此需要计算频数密度(=频数/组距),才能准确反映频数分布的实际;
3、有时为了统计需要,需进一步计算累积频数(某数值以上或以下的频之数和)。
统计分组的概念、原则、则和方法统计表(补充讲义14页word文档)。
分配数列/次数分布数列
由两个要素构成,一是组别,二是各组次数或频率。根据需要,可以编制简单次数分布表和累计次数分布表。
次数分布
主要有钟形分布、U形分布和J形分布。
统计表和统计图
统计表和统计图是显示统计数据的两种重要形式。统计表的结构从形式看可分为总标题、横表目、纵标目和指标数值;从内容上看可分为主词和宾词两部分。统计图主要有条形图、直方图、圆形图等。
数据分布特征的描述。
本章主要介绍数据的集中趋势和离散趋势。重点是各种平均指标及离散指标概念、计算方法和适用条件。
统计学中刻划数据分布特征的最主要的代表有二:数据分布的集中趋势与数据分布的离散程度。
集中趋势是指一组数据向某一中心值靠拢的倾向,测度集中趋势就是寻找数据一般水平的代表值或中心值。
均值(Mean) 均值就是一组数据的平均值(average value),用来测度中心位置(central location)。
1、算术平均数
简单算术平均数
加权算术平均
加权算术平均往往适用于对分组后的数据求均值,这时Xi为各组变量代表值(往往取组中值),Fi 为各组变量值出现的频数。
算术均值具有如下性质:
(1)各变量值与其均值的离差和为零:
(2)各变量值与其均值的离差平方和最小:
(3)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。
(4)对于任意两个变量x和y,它们的代数和的算术平均数等于两个变量的算术平均数的代数和。
均值容易受到统计数据中个别极端数据的影响,从而使均值代表某组统计数据的“平均水平”时失去意义,这时往往用“剔除极端值”的方法加以修正。
2、几何平均数
(1)几何平均数是N个变量值乘积的N次方根
(2)加权几何平均数
几何平均数的对数是各变量值对数的算术平均。
几何平均主要用于计算比率或速度的平均
几何平均数的应用及特点 :
我国国内生产总值2001年、2002年、2003年的环比发展速度分别是107.5%,108.3%,109.3%,则各年的平均发展速度是
某人有一笔款项存入银行10年,前2年的年利率为6%,第3至5年的年利率是5%,后5年的年利率3%,如果按复利计算,这笔款项的平均年利率为多少?
这笔款项的平均年利率为4.2%。
①应用条件
a.变量值是相对数据,如比率或发展速度。
b.变量值的连乘积等于总比率或总发展速度。
②特点
a.如果数列中有一个标志值等于零或负值,则无法计算。
b.受极端值影响较小,故较稳健。
(3)调和平均数,是各数据倒数的(简单)算术平均数的倒数:
价格=金额/购买量
由相对数和平均数计算平均数
根据相对数和平均数计算平均数时,如何正确选择和应用算术平均数与调和平均数,
在缺少被平均标志x的分子资料时,要采用算术平均数,即“缺分子,用算术”。如上述平均计划完成程度,其分子是实际利润额,分母是计划利润额,当已知各企业的利润计划完成程度和计划利润额时(缺少实际利润额),则采用算术平均数。
利润计划完成程度x
(%)
企业数
(个)
计划利润额
(万元)
80~90
2
500
90~100
5
1600
100~110
3
800
合计
10
在缺少被平均标志的分母资料时,要采用调和平均数,即“缺分母,用调和。”如例4.6中,当已知各企业的利润计划完成程度和实际利润额时(缺少计划利润额资料),则采用调和平均数。
中位数(Median)
中位数是一组数据按大小排序后,处于中间位置上的变量值。
1、 对于未分组数据:
(1)如果数据个数为奇数,则中位数恰为处于中间位置的数:
(2)如果数据个数为偶数,则为中间位置两个数的平均数
(2)单项数列的中位数
计算各组的累计频数(向上累计或向下累计);根据中位数位置确定中位数。
对于分组后的数据
下限公式:
上限公式:
式中:m为中位数所在的组,d为该组组距,
L、U分别为该组的下限值与上限值,
fm为该组的频数,
Sm-1 为该组以下各组的频数总和,
Sm+1为该组以上各组的频数总和,
显然
众数(Mode)
众数是一组数据中出现次数最多的变量值。
在分组数据中,众数可按下式计算:
下限公式:
上限公式:
式中: fm为某数值出现次数(频数)最多的组(第m组)的频数,
fm-1与fm+1分别为第m-1组与m+1组的频数,
L、U分别为第m组的下限与上限值,d为该组组距。
1、如果某组统计数据中没有哪个数值出现较多的频率(次数),则可认为该组数无众数;如果有多个数据出现的次数(频率)较多,则认为有多个众数。
在有多个众数的情况下,则对众数的关注度下降,因为多众数对描述数据位置无多大帮助。
2、对描述品质数据的分布特征的“位置”测度只能用众数。
中位数、众数与算术平均数的关系
• 众数、中位数和均值都是对数据集中趋势的测度,
1、均值由全部数据计算,包含了全部数据的信息,具有良好的数学性质,当数据接近对称分布时,具有较好的代表性;但对于偏态分布,其代表性较差。
2、中位数是一组数据中间位置上的代表值,不受数据极端值的影响,对于偏态分布的数据,其代表性要比均值好。
3、众数是一组数据分布的峰值,是一种位置的代表,当数据的分布具有明显的集中趋势时,尤其对于偏态分布,众数的代表性比均值好。
4、对接近正态的分布数据,常用均值描述数据的集中趋势;对偏态分布,常用众数或中位数描述数据的集中趋势。
5、均值只适用于定距或定比尺度的数据;定序尺度数据可用中位数或众数进行描述,而对定类尺度数据,只能用众数进行描述。
分布离散程度的测度
对数据分布特征的另一个测度指标是数据分布离散程度。
它反映各数据远离其中心值的程度,因此,也称离中趋势。
集中趋势反映的是各变量值向其中心值聚集的程度,
离中趋势反映各变量值之间的差异状况。
注意:
集中趋势的测度值概括地反映了数据的一般水平,它对该组数据的代表程度,取决于该组数据的离散水平。
数据的离散程度越大,集中趋势的测度值对该组数据的代表性就越差。
极差(Range)
极差是最简单的测度离中趋势(分散程度)的指标,也称全距,是一组数据最大值与最小值之差:
Range=Largest Value - Smallest Value
对于组距分组数据,极差可近似地表示为:
R=最高组上限 - 最低组下限
▲注意:
1、极差易受极端值的影响;
2、由于极差只利用了数据两端的信息,没有反映中间数据的分散状况,因而不能准确描述数据的分散程度。
方差(Variance)
方差是各变量值与其均值离差(deviation about the mean)平方的平均数。
总体方差(Population Variance)
总体方差用s2表示
其中:Fi为第i组数据的频数Xi为第i个数(未分组)或第i 组组中值(分组)
样本方差(Sample Variance)
样本方差用S2表示
其中:fi为第i组数据的频数xi为第i个数(未分组)或第i 组组中值(分组)
标准差:方差的平方根(正)。
1、由于方差计算中使用了平方运算,因此方差的单位也是平方,如上述班级规模例中方差为64(学生)2,其具体意义不明确。因此方差只有在比较不同组数据的离散程度时才有数量大小上的意义。
2、标准差是对方差的开方运算,因此,其单位与原始数据的单位一致,它与均值及其他用同一单位测度的数据相比较也容易一些。
(标准差就是指数据“离散程度的测度值”距“均值”的距离)。
离散系数(Coefficient of Variation)
离散系数:一组数据标准差与其均值的比,也称为标准差系数,是测度数据离散程度的相对指标:
1、对不同组数据,其离散程度既受其数据本身的水平的影响,也受数据计量单位的影响,因此对不同(性质)组别的数据,不好用离差或标准差来比较它们的离散程度;
2、由于离散系数消除了来自这两方面的影响,因此可以用它进行不同数据组的比较。
分布偏态与峰度的测度
偏态(Skewness)和峰度(Kurtosis)是对数据分布特征的进一步描述。
平均数与标准差相同的数据组,其频数分配(分布)也可能不同,如果频数分布是对称的,则称为对称分布,否则为偏态分布。
偏态及其测度
测定偏态的方法主要有两种:
(1)算术平均数与众数比较法,
(2)动差法。
算术平均数与众数比较法
完全对称分布:算术平均数、中位数、众数重合
非对称分布:三者相互分离,
算术平均数 < 中位数 < 众数
可用算术平均数与众数之间的距离作为测度偏态的一个尺度:
偏态 = 算术平均数 - 众数
这是偏态的绝对数,它以原有数据的单位为单位。
峰度及其测度
峰度是频数分布的另一重要特点。
其测度的是: 某种频数分布的曲线与正态分布曲线相比,是尖顶,还是平顶,其尖或平的程度如何。
峰度就是频数分布曲线顶端的尖峭程度。
峰度的测度,往往以中心4阶动差为基础进行;
第四章抽样估计。本章主要介绍了抽样估计的基本概念及抽样估计。点估计和区间估计。其中区间估计是主要方法。应理解置信区间、置信度、显著性水平的含义,领会区间估计精确度和可靠度之间的关系,重点掌握总体均值和总体比例的区间估计方法、样本容量的确定方法。
一般所讲的抽样调查,即指狭义的抽样调查(随机抽样):按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体作出数量上的推断分析。
抽样估计的特点
q 按随机原则抽取样本单位
q 目的是推断总体的数量特征
q 抽样推断的结果具有一定的可靠程度,抽样误差可以事先计算并控制
抽样推断中的基本概念
全及总体和样本
1.全及总体:是由被调查对象的全部单位所构成的集合体,简称总体。
总体容量:总体中的单位数,用N表示。
2.样本:样本是从总体中抽取的进行调查的部分单位的集合体,又称抽样总体。
样本容量:样本中的单位数,用n表示。
大样本和小样本:n≥30时称大样本,n<30称小样本。
**应用:在班级40名学生中随机选取15人进行健康状况调查,说明其中的总体、样本及容量。
概率抽样与非概率抽样
1.概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。
2.非概率抽样:又称非随机抽样,是指从研究的目的和需要出发,根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。
**应用举例:重点调查、典型调查应为非概率抽样。
重复抽样和不重复抽样
1.重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。
2.不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。
总体参数和样本统计量
1.总体参数:是反映总体数量特征的数值。在抽样推断 中,参数是未知的、待估计的确定值。
2.样本统计量:是根据样本资料计算的反映样本数量特征的变量,它的值随着样本的不同而变化,因此是一个随机变量。
抽样误差的概念及其影响程度
抽样误差即指随机误差,这种误差是抽样调查固有的误差,是无法避免的。
简单随机抽样的抽样平均误差
区间估计的步骤
区间估计根据给定的条件不同,有两种估计方法:
• ⑴ 给出允许误差(Δ),求概率保证程度F(t)。
• ⑵ 给出概率保证程度F(t),求估计区间。
⑴ 给出Δ,求F(t)
• ① 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差);
• ② 根据给定的抽样误差——允许误差Δ计算估计区间的上、下限;
• ③ 求出概率度t,F(t),对总体参数作区间估计。
⑵ 给出概率保证程度F(t),求估计区间。
• ① 抽取样本,计算样本指标(样本平均数、样本方差、抽样平均误差);
• ② 根据给定的F(t),查表求出t;
• ③ 求出抽样极限误差Δ和估计区间的上、下限,对总体参数作区间估计。
区间估计注意
• 首先确定被估计总体指标的种类,是平均数还是成数;
• 其次取定抽样方法,是重置抽样还是不重置抽样;
• 然后再根据给定的样本资料和抽样条件(给定概率保证程度还是给定抽样极限误差),确定计算步骤,进行计算。
时间数列分析
了解时间序列的概念、种类、因素构成和编制原则。掌握水平指标和速度指标的计算方法、应用条件及指标间的相互关系。
1.时期数列:由时期指标排列形成。
特点:
(1)时期数列中各指标值可以相加。
(2)时期数列中各指标值大小与时间间隔正相关。
(3)时期数列通过连续登记获取数据。
2.时点数列:由时点指标排列形成。
特点:
(1)时点数列中各指标值不能相加。
(2)时点数列中各指标值大小与时间间隔无关。
(3)时点数列通过间断登记获取数据。
相对数时间序列:由相对指标排列形成。
特点:
1.由两个绝对数数列相比形成。
2.不同时期的相对指标数值不可直接相加。
平均数时间序列:由平均指标排列形成。
特点:不同时期的平均指标数值不可直接相加。
时间序列的编制原则
基本原则——可比性原则
具体原则
1.时间长短应当一致。
2.总体范围保持一致。
3.指标的经济内容保持一致。
4.指标的计算方法和计量单位保持一致。
时间数列的水平指标
增长量和平均增长量
6.3 时间数列的速度指标
统计指数分析。
了解统计指数的含义及种类、统计指数在我国的应用。掌握综合指数、平均数指数的编制原则和方法。掌握指数体系的含义、指数间的相互关系及因素分析法。重难点提示指数的编制原则和方法。同度量因素时期的确定。指数体系及因素分析法。
概念:统计指数(statistical index)是分析现象数量变动的一种对比性指标,有两层含义:
广义指数:一切反映现象数量变动或对比的相对数,说明某种具体产品的产量、成本、价格等的动态变化。
如发展速度、计划完成百分比、成本降低百分比等。
狭义指数:表明不能直接相加或对比的现象综合变动的相对数。
如多种商品价格指数、多种产品产量指数等。
统计指数的作用
Ø 综合反映不能直接相加或对比的复杂现象总体的变动方向和程度。
Ø 用指标体系分析受多因素影响的现象总体变动中各个因素变动的影响方向和程度。
Ø 通过编制指数数列,反映现象变化的长期趋势。
展开阅读全文