资源描述
第一节 计数活动与统计学的产生
一、人类的计数和统计活动人类最初的计数活动,主要表现在对人们的剩余劳动成果或其视线所及的劳动对象加以清点和计量。这就决定了计数本身只是一种零散的、无组织的、非经常性的和范围有限的个人活动。 (P2 )
二、统计学的产生与发展一般认为,统计学的产生与发展有三个影响源泉(识记):即英国的政治算术(配第、格朗特)德国的国势学(康令、阿亨瓦尔)和法国的概率统计。凯特勒将三者加以融合,形成近代统计学。 (P7 )
(一)英国的政治算术
(1)创始人:配第、格朗特
(2)产生的背景:当时英国统治阶级为了管理国家、发展经济、争夺世界霸权,需要了解国内外的社会经济状况,于是在英国产生了政治算术学派。
(3)从数量方面研究社会经济现象。
(二)德国的国势学
(1)创始人:康令、阿亨瓦尔
(2)产生的背景:当时德国正处于封建制度解体时期,统治者要了解国内外政治经济情况,决定国策,在当时封建制的德国产生了国势学派。
(3)研究方法:对国家重要事项的记述,几乎完全偏重于品质方面而忽视了量的分析。因此,国势学也被人们称为是有名无实的统计学。
(三)概率论与数理统计
(1)创始人:凯特勒
(2)产生背景:当时的资本主义国家的自然科学有了很大的发展,促使英美统计学界尝试用研究自然地方法研究社会经济现象,并引入了概率论,产生了数理统计学派。
(3)研究的方法:把概率论用到统计学,确定大数法则的原理分析社会经济现象复杂不定的偶然性,从中寻找其规律性。
(4)凯特勒将统计学的三个主要源泉加以融合、统一,形成和发展了近代统计学。
(四)现代统计学的发展趋势
1、统计理论和方法不断得到完善和深化。
2、计算机的使用和统计软件的问世强化了统计计算的手段。
3、通用方法论科学的属性更加突出。
第二节 统计的涵义和应用
统计的含义和作用 (P8 ,简答题)
汉语“统计”一词的涵义(理解)包括三个方面的内容,即统计工作、统计资料和统计学。
统计工作:是指对客观事物总体数量方面进行计量、核算和分析的活动及过程。
统计资料:就是统计实践活动所取得的各种信息,其中主要是反映统计对象总体数量特征的数字资料。
统计学:是对统计工作及其成果的理论概括和总结。(P8)
三者紧密相连,体现出一种工作与成果关系,实践与理论关系。
统计的职能(理解)P9:统计职能、咨询职能和监督职能。
统计信息具有数量性和总体性两个重要特征。
统计信息的数量性特征,表明统计是从数量方面来认识和反映客观事物的。
统计信息的总体性特征,表明统计反映和研究的客观事物总体数量方面,而不是其个体数量表现。
统计方法概括地有如下的应用:(理解)
(一)搜集数据,对所研究对象的总体事实做出数量上的叙述说明需要根据研究对象的性质和特点以及统计目的来决定选用哪种或哪些统计方法。
(二)对获得的总体事实进行时间、空间和属性等的比较有了反映总体事实的数据,就可以利用统计方法进行时间、空间、构成、属性等等方面的比较。
(三)探索总体事实的内在数量规律性。
第三节 统计的基本方法
统计的基本方法 (P12-13 )(理解)
(一)大量观察法
所谓大量观察法就是指要从总的、综合的方面来把握现象的“量”,要对研究的对象的全部或者足够多的单位进行数量上的调查和分析。
(二)综合分析法
所谓“综合”就是指对大量观察所获得的个别单位的数量事实,运用各种指标来加以综合,反映现象的总体数量表现。
所谓“分析”是指对统计指标进行对比分析,以研究客观现象内部或客观现象之间的差异和数量关系。
(三)归纳推断法
所谓“归纳”是指由个别到一般,由事实到概括的整理、描述方法。
所谓“推断”就是指以一定的逻辑标准,根据局部的、样本的数据来推断总体相应数量特征的归纳推理方法。
二、统计数据的来源(识记)
统计数据可以分为个体数据和总体数据。
个体数据是指研究对象中的个别单位所表现的数量事实。如在人口统计中,每个人的年龄、收入、身高等数据就是个体数据;所有人的平均年龄、总收入、平均收入、平均身高、平均体重等就是总体数据。
(一)专门组织的调查
(二)政府职能机构的统计报表
(三)公开的出版物和统计媒体
第四节 量度层次和计量尺度
从数据计量的量度层次来划分,可分四种类型(识记)
一、定类尺度 (量度层次最低)
所谓定类尺度,就是将所研究对象按某种特征将其划分成若干类别,并给每一类别定名,但不对类别之间的关系做任何假设。
教材举例:工业企业按经济类型划分为国有经济、集体经济、股份制经济、外商投资经济、港澳台投资经济等。
定类尺度只具有等与不等的关系,计量的数据主要是各类(各组)的比重。
二、定序尺度
定序尺度不仅可以将所研究的现象分成不同的类别(像定类尺度一样),而且可以确定这些类别的顺序,各类之间还能比较等级和次序上的差别。
如教材举例:教育程度可以划分和排列成大学、中学、小学、文盲;产品等级可分为特等品、一等品、二等品。
定序尺度的各类量值除了具有等与不等特征外,还有大小之分,计量的数据除比重外,还可以大致确定众数之类的位置指标。
三、定距尺度
定距尺度一般要求建立某种物理量的量度单位。
如教材举例:考试成绩以 “ 分 ” 计量,且每分之间的间隔是相等的;长度以 “ 米 ” 计量等。
定距尺度可进行 加减运算。在统计数据中占据重要的地位,总量指标就是运用定距尺度计量的。
四、定比尺度(层次最高)
定比尺度是在定距尺度的基础上,确定相应的比较基数,然后将两种相关的数加以对比而形成的相对数(或平均数),用于反映现象的结构、比重、速度、密度等数量关系。
例如:将一个企业创造的增加值与该企业的职工人数对比,计算全员劳动生产率,以此反映该企业的生产效率。
四、定比尺度(层次最高)
定比尺度在定距尺度上确定了一个绝对的、有意义的零点。(0值表示没有)定比尺度可进行加减乘除运算。在统计的对比分析中,定比尺度的运用相当广泛。
第五节 统计学的基本概念
(一)统计总体与总体单位(P18)(应用)
统计总体简称为总体,是指客观存在的、具有一个或若干个相同性质的许多个体所形成的集合。
总体应该同时具备的要素:
(1)客观存在性
(2)组成总体的个体是大量的
(3)组成总体的个体至少具有一个相同的属性或特征表现
(4)组成总体的个体在所研究的属性或特征上的表现不尽相同
总体单位是指构成统计总体的每一个体,简称单位。总体单位是统计所研究的属性和特征的原始、直接、
具体的承担着。
统计总体还可以分为有限总体和无限总体。前者是指总体包含的单位数是有限的;后者是指总体中包含的单位数是无限的。
(二)统计标志与统计指标(P19-20,简答)(应用)
统计标志简称为标志或标识,他是说明总体单位所具有的属性或特征的名称。
标志表现要落实到每一个个体上,也就是说,标志总是依附和说明总体单位的。
标志可以分为品质标志和数量标志。
品质标志是说明总体单位属性的名称,它属于定类变量,并无大小之分。
数量标志是说明总体单位特征的名称,其标志表现是具体的数值。
统计指标简称指标,它是说明统计总体综合数量的特征的名称。统计指标都用数值来表现,指标的具体表现称之为指标值。
指标的性质
(1)总体性。指标是说明总体的,而不是说明总体单位的,这是它与标志的主要区别。
指标——总体; 标志——总体单位
(2)数量性。指标都是能用数值来表现的,不存在不能用数值来表示的统计指标。
(3)综合性。统计指标是指各单位特征(数量标志)表现的数量综合(总和),不是一种原始、直接的数据。
统计指标应包括以下构成要素:
(1)指标名称; (2)计量单位; (3)计算方法
当对指标作为“名称+数值”的理解时,还应包括三个要素:
(1)指标值; (2)指标值的时间规定; (3)指标值的空间规定
统计指标按所反映总体的数量状况不同,可以分成数量指标和质量指标。
数量指标是说明所研究特征的规模、水平的绝对量指标。
质量指标是反映所研究总体某一方面相对水平、工作质量的相对量和平均量指标。
(三)变异与变量(理解)
变异是指总体各单位在所研究的标志上其表现不尽相同,即为总体差异性。
变异是统计的前提,不存在变异也就无需统计。
所谓变量,是指统计的数量标志和指标,其取值就成为变量值。
按变量的取值之间能否无限分割,可将变量分为连续变量和离散变量。
连续变量两个取值之间可以作为无限分割,离散变量的两个取值之间不可以作无限分割。
社会经济统计中的离散变量,一般是指取值为整数的变量,如人口数、设备数、企业数等。
按变量的性质又可分为确定性变量和随机变量。
按变量的量化层次还可以分为定类变量,定序变量,定居变量和定比变量。
连续变量:取值可用小数表示。离散变量:取值只能用整数表示。
第二章 统计资料的搜集与整理
第一节 统计资料及其搜集方法
一、统计资料的意义
统计资料的三个基本性质:(P23 )(识记)
1 、数量性(主要特征):任何统计资料都是以数字的形式描述事物。定量分析与定性分析
2 、总体性:统计资料描述的是大量的、密集型事物的总体特征。
3 、客观性:真实的情况,不能凭空猜测
二、统计资料的搜集
获得统计资料有多种渠道和方法。从获得资料的途径看。统计资料可以分为原始资料和次级资料。
所谓原始资料就是指通过统计调查或试验所取得的统计资料,都属于第一手资料。
所谓次级资料就是指来源于别人通过统计调查或试验所取得并已经加工整理过的统计资料,都属第二手资料。
(一)次级资料的搜集
主要有两种情况:
1.公开出版的资料
2.非公开出版的资料
(二)原始资料的搜集
在内容上可分为两大类:观察性的和实验性的。
所谓观察性的,指的是调查人员不对客观发生的事物进行干预,仅凭观测而获得统计资料。
所谓实验性的,指的是观察人员要通过对一些具体事项的安排才能获取不同条件下的统计数据。
原始资料的搜集方法有以下几种:(识记)
(1)访问调查
优点:有利于获得详细深入的信息,准确程度较好
缺点:调查费用较高,调查时间长,对调查人员的素质要求较高。
(2)电话调查
优点:调查效率比访问调查高,数据质量也有一定的保障。
缺点:会受到电话普及程度的影响,电话普及率低,影响调查效果的可靠性。
(3)邮寄问卷
优点:调查成本较低,用时不长,有利于被调查者对一些敏感性的问题进行真实回答。
缺点:通常回收率和合格率较低
(4)观测
优点:调查效果好 缺点:一般调查成本很高
(5)互联网调查
优点:可给调查活动带来许多方便
缺点:目前仍受到普及率的影响
三、搜集资料的注意事项:
(1)涉及范围要适度。资料太少不足以反映情况,资料太多又需要花费大量的时间和费用。
(2)事先进行规划,提高搜集资料的效率。
(3)注意版权问题。
第二节 调查方式与调查方案
一、调查方式(P28) )
1、普查(理解)
1 )为特定目的专门组织的一次性的全面调查。
2 )通常是一次性或周期性的。
3 )一般需要规定统一的标准调查时间。。
4 )数据的规范化程度较高。
5 )应用范围比较狭窄。
2、抽样调查
1 )从总体中随机抽取一部分单位(样本)进行调查。
2 )目的是推断总体的未知数字特征。
3 )最常用的调查方式。
4 )具有经济性好、时效性强、适应面广、准确性高等特点。
3、统计报表(理解)
统计调查方式之一。
过去曾经是我国主要的数据搜集方式。
按照国家有关法规的规定,自上而下地布置,自下而上地逐级提供基本统计数据。
有各种各样的类型。
4、重点调查(理解)
从调查对象的全部单位中选择少数重点单位进行调查。
是在涉及的所有单位中仅对重要的、被调查项目数量较大的单位进行调查的调查方法。
调查结果不能用于推断总体。
5、典型调查(理解)
1 )从调查对象的全部单位中选择少数典型单位进行调查。
2 )目的是描述和揭示事物的本质特征和规律。
3 )调查结果不能用于推断总体。
二、统计调查方案(识记)
统计调查方案是指导整个调查活动的纲领性文件。一般包括以下主要内容:
(一)调查目的
调查目的是指调查活动所要达到的具体目标
(二)调查对象和调查单位
调查对象就是指根据调查目的确定的调查研究总体或调查范围。
调查单位是指调查范围内的个别单位,它是具体调查项目和指标的承担者,即所要了解的信息的载体。
调查单位的层次和类型可以是多种多样的。
(三)调查内容和调查表
调查活动的核心就是将要进行调查的内容,也就是需要向调查单位了解的情况和问题。
调查表是把所调查的内容具体化为一些明确的项目或指标,并适当排列制成表格。
(四)其他内容
调查方案中还应明确规定调查内容的时间特征和调查工作的时间限制,确定搜集数据的具体方法以及调查的具体组织实施工作。
第三节 统计调查误差
误差的种类(P34) (理解)
主要包括两类:登记性误差和代表性误差
1、登记性误差
又称调查性误差,是指在统计过程中,由于观察、测量、登记、计算上的差错以及调查者和被调查者
主观原因使调查中获得的原始资料不准确引起的误差而引起的误差。
这种误差不是抽样调查所特有的,而是所有统计工作都可能存在、并难以计算和控制的。
它的减少或避免,只有通过改进调查设计、加强组织和管理、提高统计人员素质予以实现。
2、代表性误差
是指用样本指标估计总体指标时所引起的误差。
在非全面调查中, 由于选取的那部分单位对全部单位的代表性不足而产生的误差.
它是抽样系统本身所引起的一种误差。
系统误差可分为两种:
① 非随机误差 :是抽样过程中由于没有遵循随机原则而千万的误差。如调查者有意挑选好的或差的单位进行调查所引起的误差。
② 随机误差 :是在遵循随机性原则下,由于抽样时偶然因素影响而引起的样本结构不能有效地代表总体结构所产生的误差。这是我们所要研究的抽样误差。
产生误差的客观原因:(识记)
(一)客观随机性;(二)操作不当;(三)计算中的舍入误差;(四)故意制造的误差
三、对误差的理解(P36) )(理解)
1 、误差降低了统计数据的质量
2 、误差是难以避免的
3 、人们对准确性的要求是相对的
4 、追求过高的准确性往往得不偿失。
第四节 统计数据的整理
一、统计数据整理的意义和步骤(识记)
(一)统计数据整理的目的
原始数据杂乱无章,很难从中看出事物的内在规律性,进行数据整理的基本目的是使数据简单化、系统化。
(二)统计数据整理的基本方法
分组是进行数据整理的基本方法。
分组的依据是事物的相似性。
(三)统计数据整理的步骤
(1)对原始资料进行审核。审核的主要方法有:
① 常识性审查。② 比较性审查。③ 设置疑问框审查。
(2)对原始资料进行分组和汇总
(3)将汇总结果用统计表或统计图的方式表现出来,未统计资料的使用和分析做好准备。
二、统计分组(理解)
(一)统计分组的意义
统计分组是将总体所有单位按照一定的标志区分为若干部分,在不同的部分之间,存在着差异,而在每一部分内部,忽略其差异,视为性质相同。
分组的关键是选择恰当的分组标准和准确地划分组的界限。
(二)统计分组的类型
品质分组和数量分组
品质分组指的是按照事物的某种客观属性进行分组,或是对“定类尺度”和“定序尺度”的数据进行分组。这些“客观属性”的共同点是:它们都必须用文字来表述而不能数量化。
数量分组指的是按照事物的某一种数量特征来划分组间界限,或是对“定距尺度”和“定比尺度”的数据进行分组。
三、次数分布(应用)
(一)次数分布的概念
将原始资料按某个标志分成若干组,每个组内都会包括不同数目的个别单位,这个数目就是各组的次数。次数与每组的数量界限共同排列,就形成次数分布。次数分布描述了总体的结构和数量特征。
(二)数量分组的次数分布
1.分组方法
组数与组距基本上成反比关系,组距越大,组数越少;组距越小,组数越多。一般情况下,资料中的数据分为5~15组较好。
2.分组组距及组中值
次数分布中,组限可以相等,形成等距式分组;组限也可以不相等,形成不等距分组。
这两种分组方法适合不同的情况:前者常用于数值变化比较平缓的情况;后者常用于变量值变化比较剧烈的情况。
组中值的计算方法为:组中值=(下限+上限)/2
对于开口组,计算组中值的方法为:首组(数值最小的一组)组中值=本组上限- (邻组组距/2)
末组(数值最大的一组)组中值=本组下限+ (邻组组距/2)
3.累计次数分布
为了统计分析需要,有时要观察某一数值以上或某一数值以下的次数之和,这就要在分组的基础上列出累积次数值。
4.分组变量的类型
对不同类型的数据进行分组,需要考虑数据本身的性质——是连续变量还是离散变量来选择组限的标示方法。
对连续变量分组时,本组的上限与后一组的下限是重叠的,即数值相同。对数据分组时还需要注意“上组限不在内”原则。
离散变量通常是由计数而产生的,其数值都是自然数,不像连续变量那样存在着数值连续或“处处稠密”的特点。因此,在划分组限时,本组的上限与后一组的下限是相邻的自然数。
统计学在处理连续变量和离散变量时,并未完全依照数据自身的数学特征来划分变量的性质。
当数据数值较小、不易或不必取得连续变量的准确数值等情况时,可按照离散变量的方法处理;而当数据数值较大时,可按照连续变量的方法处理。
(三)次数分布的图示(理解)
为了使次数分布的特征形象化,需要绘制次数分布图。次数分布图是在平面直角坐标系上画出直方图或折线、曲线图,来表现不同的组各自的次数或频率的方法。一般都把横轴用作分组,纵轴用来表示次数或频率。
1.品质分组次数分布的图示
2.等距分组次数分布的图示
3.不等距分组次数分布的图示
4.累积次数分布的图示
(四)次数分布的类型(应用)
常见的分布曲线有三种类型:
1.钟形分布曲线
基本特征是“两头小,中间大”,即靠近变量极大值和极小值的单位比较少,而靠近中间的单位比较多。
钟型分布经常出现不对称的情况,根据其长尾拖向哪个方向又可分为右偏和左偏两种类型。右偏时,靠近最小值一端的单位比较多;左偏时,靠近最大值一端的单位比较多。
2.J型曲线
根据其方向分为正J型曲线和反J型曲线。正J型曲线,随着变量值的上升,各组次数也上升,即“越来越多”;反J型曲线,随着变量值的上升,各组次数下降,即“越小越多”。
3.U型曲线
U型曲线的分布特征恰与钟型曲线相反,是“两头大,中间小”,靠近极端值的单位数比较多。
第三章 统计数据的描述与显示
第一节 绝对指标和相对指标
一、绝对指标(P56)(理解)
• 反映社会、经济现象整体规模和水平的指标一般都以绝对数形式表示,称为绝对指标。
• 绝对指标反映的是某一事物在一定范围内的总数量级,也叫总量指标。
时期指标和时点指标 (P57 ,简答题)
时期指标是反映现象在一段时期的某一范围内的变化总量。其特点如下:
(1 )表示现象在一定时期内的发展过程。指标可以累计。
(2 )指标值的大小与时期的长短有直接关系,一般来说,时期越长,数值越大,反之,则越小。如:产品产量、销售额、广告费用额等。
时点指标是反映现象在某一时刻的状态。其特点如下:
(1 )表示现象处于某一瞬间的情况。不能进行累计。
(2 )时点指标值的大小与时间的间隔长短没有直接关系。如:库存额、出勤人数、银行存款余额等。
绝对指标的计量单位
( 一)实物单位
1 、自然单位:台、头、辆
2 、度量衡单位:公斤、米、立方米
3 、复合单位:吨公里、千瓦小时
4 、标准实物量单位:
将各种不同含量的化肥折合成含量100 %来计算其总量;将各种不同发热量的能源统一折合成7000 大卡/千克的标准煤单位计算其总量 。
(二)价值单位
价值单位是用货币度量社会财富和劳动成果的计量单位。
价值单位具有高度的抽象性和概括性,在进行综合比较时,是最常使用的。
( 三)劳动单位
以劳动时间为计量对象。如工分、工时、工日等
二、相对指标(P59)(应用)
是说明一个数值与另一个数值之间相对比形成的数量关系,基本计算方法是两个绝对指标之比,也称相对数。
相对指标的种类 (P59 )
(一)计划完成程度相对指标;(二)结构相对指标;
(三)比例相对指标;(四)比较相对指标;
(五)强度相对指标;(六)动态相对指标。
第二节 集中趋势的测定
一、众数 (P60 ,计算题)(理解)
众数是现象总体中出现次数最多的标志值。分组数列
确定众数计算公式如下:
下限公式:
上限公式:
二、中位数 (P61 ,计算题)(理解)
将总体各单位标志值排序后,位于中间位置的标志值称为中位数。分组资料确定中位数计算公式如下:
下限公式:
下限公式:
三、算术平均数 (P63 ,计算题)(应用)
算术平均数又称均值,是集中趋势最主要的测度值。其基本计算方法是各项数据之和与数据的个数之比。
(一)简单算术平均数
主要用于末分组资料算术平均数的计算
(二)加权算术平均数
主要用于分组资料算术平均数的计算
(二)加权算术平均数
主要用于分组资料算术平均数的计算
各变量值与均值的离差之和为0
各变量值与均值的离差平方和最小
四、几何平均数(理解)
几何平均数是计算平均比率和平均速度最适用的方法。
有简单几何平均数和加权几何平均数两种形式。
简单几何平均数就是n 个变量值的连乘积的n 次方根。
当几何平均的每个变量值的次数不同时,则应用加权几何平均数。
第三节 离散程度的测定
一、极差(识记)
极差(R ) 是指总体各单位标志值中最大变量值与最小变量值之差,又称全距。
二、 平均差(理解)
平均差(M.D. )是指各个标志值与其算术平均数离差的绝对值的算术平均数。
简单算术平均差的公式:
加权算术平均差的计算公式:
三、标准差和方差(P74,计算题)(应用)
n 标准差( σ )是总体各单位变量值与其算术平
均数离差平方的算术平均数的平方根。
n 方差就是标准差的平方,即
未分组资料,标准差的计算公式:
分组资料,标准差的计算公式:
四、 离散系数(P77,计算题)(理解)
离散系数又叫标准差系数、变异系数,它是标准差与均值的比值,是用相对数表示的标志变异指标,通常用百分数表示。
标准差系数
两组数据的平均水平与变异程度并没有必然联系,在两组数据平均水平不同而标准差也不同的情况下 ,进行变异程度的比较就要使用离散系数,剔除均值大小不等的影响。 (P77 )
五、成数的标准差(P78,计算题)(理解)
是非标志:有时需要将总体各单位按一定的标志划分为具有某种属性的单位和不具有某种属性的单位,这种标志只有非此即彼的标志表现 “ 是 ” 和 “ 非 ” ,这种标志称为是非标志。
P 为具有某种属性的总体单位数占全部总体单位数的比重,即为具有某种属性组的成数。 Q 为不具有某种属性的总体单位数占全部总体单位数的比重,即为不具有某种属性组的成数。
是非标志的平均数:
是非标志的标准差:
第四节 统计数据的显示
1、统计表(应用)
统计表是显示统计数据的主要方法和形式。
用途:1 、伴随文章以支持文章中的观点;2 、组织数据。
内容:被描述的现象和这些现象的具体数值。
基本要素:表头、表体、表尾 (P81 )
编制统计表的规则和惯例
标题简明扼要;
同栏数字精度相同,数字个位对齐;
不应有的数字画 “ — ” ,暂缺的画 “ … ” ,数字格内必须填相应的数字;
编号时,文字栏用( 甲) 、( 乙)…… ,数字栏用(1) 、(2)…… ;
表的左右两端不画竖线,称为两端不封口;要注明计量单位。
2、统计图(P82-87,简答题)(理解)
统计图是表述统计资料的另一种重要方法和形式。
(一)条形图
用平行的条状图表现统计数值的图示方法。一般用横轴表示类别,用纵轴表示次数或频率。
(二)线图
线图是平面直角坐标系上用折线或曲线表示数量变化的统计图。经常用显示数据随时间变化的情况。
(三)圆形图
需要表现事物的内部结构时,可采用圆形图。
(四)统计地图
在地图上标明某些统计数据可以使我们了解不同地区间的差异。这也是经常使用的统计显示方法。
第四章 抽样调查
第一节 抽样调查的基本问题
一、抽样调查的意义(应用)
含义:抽样调查就是随机抽取总体中的部分单位进行观测,并用这些观测值估计总体数量特征的统计方法。
特点(P91)(理解)
1 、按随机原则抽选调查单位
2 、用样本推断总体
3 、在调查前可以计算和控制抽样误差
第一节 抽样调查的基本问题
二、抽样调查的应用 ( P92 )(理解)
1 、总体范围较广,不需要了解每一个别单位的情况。
2 、对于具有破坏性的产品质量检测或进行抽样推断。
3 、对全面调查的结果进行检验和修正。
三、抽样调查的几个基本概念
(一)总体与样本
总体(N)
含义:统计研究对象的全体,是由具有某些共同性质或特征的个体或单位组成。
类型:有限总体和无限总体(P92)
有限总体是指总体单位数是有限的,在理论上可以进行全面调查,但由于各种原因而往往采取抽样调查的方法。
样本(n)含义:从总体中抽取的那部分单位所组成的集合体。理想的样本应该和总体具有相同的统计分布。
(二)参数与统计量
无论是总体还是样本,都可以用平均数、成数和标准差(或方差)等指标来描述其数量特征。(P93)
参数:描述总体特征的指标称为参数
统计量:描述样本特征的指标称为统计量。
(三)抽样方法
重置抽样:同一个单位有被重复抽中的可能。
不重置抽样:每个单位只能有一次被抽中的机会。一般采用不重置抽样,因为重置抽样误差较高
(四)抽样框
包含有全部总体单位及其主要标志特征的一个框架或列表。是抽选样本的基础资料。
其形式有一览表和地图
(五)样本可能数目
即样本个数,是从一个有N个单位的总体中抽取容量为n的样本时,有可能出现的所有样本的个数。
四、 抽样推断的基本理论
抽样推断的理论基础是概率论的大数定律和中心极限定理。(理解)
(一) 大数定律
大数定律是阐明大量随机现象平均结果的稳定性的一系列定理的总称。
其一般意义是:在随机试验过程中,每次试验的结果不同,但大量重复试验后,所出现结果的平均值总是接近某一确定的值 。或者说,当样本单位数逐渐增大时,样本均值与总体均值的离差趋于0.
(二)中心极限定理
是指样本平均数分布的性质和总体分布的性质之间关系的系列定理。 它认证了:
第一、如果总体很大,而且服从正态分布,样本平均数(成数)的分布也同样服从正态分布。
第二、如果总体很大,但不服从正态分布,只要样本容量足够大,样本平均数(成数)的分布趋近于正态分布。
第三、样本平均数(成数)的平均数,等于总体平均数(成数)
因此,在抽样推断中,不论总体服从什么分布,只要样本很大时,抽样分布都服从正态分布,进而可以推算总体平均数或成数落在某一范围内的概率。
第二节 抽样误差
一、抽样误差的概念(P99 )(理解)
抽样误差是指由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起样本指标和总体指标之间的绝对离差。
抽样误差越小,样本对总体的代表性越高;反之,代表性越低。
影响抽样误差的主要因素(P101) )
1、总体的变异程度; 2、样本容量;3、抽样方法; 4、抽样的组织形式
二、抽样平均误差的意义
反映了抽样指标与总体指标的平均离差程度。
反映抽样误差的一般水平。
它的实质含义是指抽样平均数(或成数)的标准差。
定义:指所有可能样本的指标(所有的统计量)与总体指标(参数)的平均离差,反映抽样误差的一般水平,用 表示。 (P102)
三、抽样平均误差的计算 (P104 ,计算题)(应用)
总体平均数的抽样平均误差
(1 )重置抽样条件下:
(2 )不重置抽样条件下:
总体成数的抽样平均误差
(1 )重置抽样条件下:
(2 )不重置抽样条件下:
当总体标准差 σ 未知时,可用样本标准差 S 代替!
当N 很大时, N-1 也可以当作N N 进行简便运算!
四、抽样极限误差(理解)
概念:可允许的误差范围叫做抽样极限误差。
含义:用一定的概率保证的抽样误差不能超过的
最大可能范围,用 表示。
计算
1. 总体平均数的抽样极限误差
2.总体成数的抽样极限误差
五、抽样估计的可靠程度(理解)
抽样极限误差的估计总是要和一定的概率保证程度联系在一起的。
抽样误差的范围是抽样的准确程度的问题;总体指标落在这一范围的概率是抽样推断的可靠性问题。两者紧密联系,不可分割。准确程度高,可靠性就低;反之,可靠性就高。
当抽样误差范围扩大时,可以提高抽样推断的可靠程度;缩小抽样误差范围,抽样推断的可靠程度就降低。
抽样平均误差和抽样极限误差都是讲抽样误差,但前者讲的是抽样推断的准确程度,后者讲的是准确程度的范围。它们两者之间的关系是通过 概率度 联系起来的。
概率度反映抽样极限误差是抽样平均误差的多少倍,以t 表示。
第三节 参数估计
一、点估计的优良标准 (P110 )(理解)
无偏性; 一致性; 有效性;
二、总体参数估计的方法
(一)点估计
点估计也称为定值估计;不考虑抽样误差,用样本指标直接作为总体指标的估计值。
优点:简便易行,原理直观。
缺点:没有表明估计的误差,没有给出估计的把握程度。
(二)区间估计 (P111 ,计算题)(应用)
区间估计就是根据抽样指标定出置信区间和置信度
总体平均数的区间估计
置信度:
置信区间:
总体成数的区间估计:
置信度:
置信区间:
三、样本容量的确定(理解)
影响样本容量的因素(P114)
1、总体的变异程度
2、抽样的误差范围
3、抽样估计的置信度
4、不同的抽样组织形式
简单随机抽样的样本容量确定
总体平均数的抽样样品容量确定
(1)重置样品条件
(2)不重置样品条件
总体成数的抽样样品容量确定
(1)重置样品条件
(2)不重置样品条件
第四节 抽样调查的组织形式 (理解)
一、简单随机抽样—— 完全随机地抽取样本
简单随机抽样又称纯随机抽样,是指在对总体未作任何处理的情况下,按随机原则直接从总体中抽取n 个单作为样本。( P116-118 ,简答题)
简单随机抽样是抽样调查的 理论基础,其核心特点是随机性 ,其它组织形式都是在它的基础上发展起来的。
二、等距抽样—— 在样本框中每隔一定距离抽选一个被调查者。
等距抽样又称机械抽样,从总体中抽取样本时,是按照规定的间隔从已经排列为一定顺序的总体单位中抽取样本单位的。
三、类型抽样—— 对总体各单位按主要标志加以分组,然后再从各组中按随机原则抽选一定单位构成样本。
类型抽样又称分层抽样。是将总体首先按一定的内容划分为许为类型,使得性质相近的单位归入同一组中,然后再从各组中随机抽取样本。
四、整群抽样—— 将一组被调查者(群)作为一个抽样单位。
整群抽样是先将总体划分为若干群,然后从所有群中随机抽取一部分群组成样本。中选群中的所有单位都是样本中的单位。
第五章 相关分析与回归分析
第一节 变量间的相互关系
一、 相关关系的概念(理解)
由于众多现象所形成的复杂性和我们认识的局限性,或者由于试验误差、测量误差等偶然因素,使得一个变量的变,另一个变量可以有若干个不同的取值。统计学中把这种现象之间在数量上非确定性的对应关系叫做 “ 相关关系 ”或 “ 统计关系 ” 。 ( P121)
相关关系产生的可能情况:
1 、受到干扰的因果关系;
2 、同一原因的诸多结果之间的关系;
3 、因果关系不同而局部出现相同走势。
二、 相关关系的种类 (P123-124 )(识记)
1 、按相关的方向不同:正相关和负相关;
2 、按相关的形式不同:线性相关和非线性相关;
3 、按影响因素的数量不同:单相关、复相关和偏相关。
第二节 简单线性相关分析
一、相关表与相关图(识记)
1 、相关表
把相关的两个变量的数值,相对应地排列而成的一张表。
简单相关表
分组相关表:根据分组资料编制。又可分为单变量相关表和双变量相关表。
2 、相关图
又称散点图,是在平面直角坐标中,以横轴表示变量X ,以纵轴表示变量Y ,将相关表中对应的资料数值在图上标出坐标点所形成的图形。
二、相关系数 (P129, 计算题)(应用)
含义:是用于测定两个变量之间线性相关程度和相关方向的统计分析指标,用字母r r 表示。计算相关系数可采用积差法,用文字描述可以表述如下:
展开阅读全文