统计学名词解释归纳.doc_咨信网zixin.com.cn

资源描述

1什么是统计学？统计方法可分为哪两大类？统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。方法有描述统计和推断统计两类 2统计数据可分为哪几种类型？不同类型数据各有什么特点？按采取计量尺度，分类、顺序、数值型数据；按统计数据收集方法，观测、实验数据；按被描述对象与时间关系，截面、时间序列数据统计数据；按所采用的计量尺度不同分；（定性数据)分类数据：只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，用文字来表述；（定性数据)顺序数据：只能归于某一有序类别的非数字型数据。它也是有类别的，但这些类别是有序的. （定量数据）数值型数据：按数字尺度测量的观察值，其结果表现为具体的数值。统计数据；按统计数据都收集方法分；观测数据:是通过调查或观测而收集到的数据，这类数据是在没有对事物人为控制的条件下得到的。实验数据:在实验中控制实验对象而收集到的数据。统计数据;按被描述的现象与实践的关系分；截面数据：在相同或相似的时间点收集到的数据，也叫静态数据。时间序列数据：按时间顺序收集到的,用于描述现象随时间变化的情况，也叫动态数据。 3举例说明总体、样本、参数、统计量、变量这几个概念：对一千灯泡进行寿命测试，那么这千个灯泡就是总体,从中抽取一百个进行检测，这一百个灯泡的集合就是样本,这一千个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是参数，这一百个灯泡的寿命的平均值和标准差还有合格率等描述特征的数值就是统计量，变量就是说明现象某种特征的概念，比如说灯泡的寿命。 4什么是有限总体和无限总体？举例说明有限总体指总体的范围能够明确确定,而且元素的数目是有限可数的，如若干个企业构成的总体,一批待检查的灯泡。无限总体指总体包括的元素是无限不可数的，如科学实验中每个试验数据可看做是一个总体的一个元素，而试验可无限进行下去，因此由试验数据构成的总体是无限总体 5变量可分为哪几类? 变量可以分为分类变量，顺序变量，数值型变量。变量也可以分为随机变量和非随机变量。经验变量和理论变量。 6举例说明离散型变量和连续型变量离散型变量，只能取有限个值,取值以整数位断开，比如“企业数" 连续型变量,取之连续不断，不能一一列举，比如“温度"。 1数据的预处理包括哪些内容？数据审核（完整性和准确性；适用性和实效性)，数据筛选和数据排序。 2直方图和条形图有什么区别？ ①条形图使用图形的长度表示各类别频数的多少，其宽度固定，直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率，宽度表示组距，②直方图各矩形连续排列,条形图分开排列,③条形图主要展示分类数据,直方图主要展示数值型数据。 3饼图和环形图有什么不同？饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞"，每个样本或总体的数据系类为一个环。 4茎叶图和直方图相比有什么优点？茎叶图既能给出数据的分布情况，又能给出每一个原始数据，即保留了原始数据的信息.在应用方面,直方图通常适用于大批量数据，茎叶图适用于小批量数据。 5使用图标应注意哪些问题? ①合理安排统计表结构②表头一般包括表号,总标题和表中数据的单位等内容③表中的上下两条横线一般用粗线，中间的其他用细线④在使用统计表时，必要时可在下方加注释,注明数据来源。 1.一组数据的分布特征可以从哪几方面进行测度。一是分布的集中趋势，反映数据向其中心靠拢或聚集的程度；二是分布的离散程度，反映各数据远离其中心值的趋势；三是分布的形状，反映数据分布偏斜程度和峰度. 2.简述四分位数的计算方法：首先对数据进行排序，然后确定四分位数所在的位置，该位置上的数值就是四分位数.(设25%的四分位数为Q25%，75%四分位数为Q75%，根据四分位数定义有：Q25%位置=n/4，Q75%位置=3n/4。 3.对于比率数据为什么采用几何平均。在实际应用中，对于比率数据的平均采用几何平均要比算数平均更合理。从公式中也可看出，G就是平均增长率。 4。简述众数、中位数、和平均数的特点和应用场合。众数是一组数据分布的峰值，不受极端值的影响，缺点是具有不唯一性。众数主要作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。均值是就数值型数据计算的，具有优良的数学性质，缺点是易受数据极端值的影响。均值主要适合于作为数值型数据的集中趋势测度值。 5. 为什么要计算离散系数。第一，极差、平均差、方差和标准差等都是反映数据分散程度的绝对值，其数值的大小取决于原变量值本身水平高低的影响。第二,它们与原变量值的计量单位相同，采用不同计量单位计量的变量值，其离散程度的测度值也就不同.因此，为消除变量值水平高低和计量单位不同对离散程度的测度值的影响，需要计算离散系数。 6。简述异众比率、四分位差、方差或标准差的适用场合对于顺序数据，但主要使用四分位差来测量其离散程度；对于数值型数据，虽然可以计算异众比率和四分位差，但主要使用方差或标准差来测量其离散程度。 7。标准分数有哪些用途? 标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变量进行处理时，常需要对各变量进行标准化处理.它还可以用来判断一组数据是否有离群数据。 1.抽样推断的含义:是在根据随机原则从总体中抽取部分实际数据的基础上,运用数理统计方法，对总体某一现象的数量性作出具有一定可靠程度的估计判断。 2。简单随机抽样：①含义:从含有N个元素的总体中，抽取n个元素作为样本，使得每一个容量为n的样本都有相同的机会被抽中,这样的方式称为简单随机抽样。②特点:简单随机抽样是其他抽样方法的基础。有两种抽取元素的方式：重复臭氧和不重复抽样. 分层抽样：①含义：在抽样之前先将总体的元素划分为若干层，然后从各个层中抽取一定数量的元素组成一个样本，这样的样本抽样方式称为分层抽样,也成分类抽样。②特点:⑴除了可以对总体进行评估外，还可以对各层的子总体进行评估。⑵可以按自然区域或行政区域进行分层，使抽样的组织和实施都比较方便。⑶分层抽样的样本分布在各个层内，从而使样本在总体中的分布比较均匀。⑷可以提高估计的精度。系统抽样：①含义：先将总体个元素按照某种顺序排列,并按某种规则确定一个随机起点,然后，每隔一定的间隔抽取一个元素，直至抽取n个元素形成一个样本。②特点：⑴简单易行⑵在总体中的分布一般也比较均匀，由此估计的误差通常要小于简单随机抽样。整群抽样： ①含义：先将总体划分成若干群，然后以群作为抽样单位从中抽取部分群，再对抽中的各个群中所包含的所有元素进行观察.②特点：不需要有总体元素的具体名单而只要有群的名单就可以进行抽样。整群抽样时群内各元素比较集中，对样本进行调查比较方便，节约费用.在群内各元素存在差异时,整群抽样可以提供较好的结果，理想的情况是每一群都是整个总体的一个缩影。 3。重复抽样:从总体中抽取一个元素后，把这个元素放回到总体中再抽取第二个元素，直至抽取n个元素为止. 不重复抽样:一个元素被抽中后不再放回总体，然后再从所剩下的元素中抽取第二个元素,直到抽取n个元素为止. 4。抽样分布:重复选取容量为n的样本时，由每一个样本算出的统计量数值的相对频数分布或概率分布，称为样本统计量的抽样分布. 5.样本统计量的分布与总体分布的关系？由于现实中我们不可能将所有的样本都抽出来，因此，统计量的抽样分布实际上是一种理论分布，但它与总体分布存在着密切的关系，以均值x的抽样分布为例，其抽样分布与原有总体的分布有关，如果原有总体是正态分布，那么，无论样本容量的大小,样本均值也服从正态分布。其分布的数学期望为总体均值,方差为总体方差的1/n，即00。如果原有总体的分布不是正态分布，就要看样本容量的大小了，当n为大样本时(n≥30），根据统计上的中心极限定理可知,当样本容量n增大时，不论原来的总体是否服从正态分布，样本均值的抽样分布都将趋于服从正态分布。其分布的数学期望为总体均值，方差为总体方差的1/n。 6。 Zα/2的含义：是估计误差。Zα/2的值和样本量n共同确定了估计误差的大小，一旦确定了置信水平1—α，Zα/2的值就确定了。对于给定的Zα/2的值和总体标准差σ。可以确定任一允许的估计误差所需要的样本量。 7。样本均值抽样分布的两个主要特征值：与总体参数的关系： 1。理解原假设与备择假设的含义：原假设：通常将研究者想收集证据予以反对的假设称为原假设或零假设,用H0表示;备择假设:通常将研究者想收集证据予以支持的假设称为备择假设或研究假设，用H1表示。 2.统计检验量：根据样本观测结果计算得到的,并据以对原假设和备择假设作出决策的某个样本统计量，称为检验统计量. 标准化检验统计量：是将统计检验量标准化，标准化的统计检验量=(点估计量-假设值)/点估计量的抽样标准差。 3。第Ⅰ类错误：当原假设为真时拒绝原假设，所犯的错误称为Ⅰ类错误。犯第Ⅰ类错误的概率通常记为α。第Ⅱ类错误：当原假设为假时没有拒绝原假设，所犯的错误称为第Ⅱ类错误，又称取伪错误。犯第Ⅱ类错误的概率通常记为β。它们发生概率之间的关系：在样本量不变的情况下，要减小α就会使β增大，而要增大α就会使β减小，这两类错误此消彼长。 4。显著性水平：假设检验中犯的第Ⅰ类错误的概率,称为显著性水平，记为α。它对于假设检验决策的意义：显著性水平是人们事先制定的犯第Ⅰ类错误的概率α的最大允许值，在实际应用中,显著性水平往往是人们事先给出的一个值。 5.P值：在原假设为真的条件下，检验统计量的观察值大于或等于其计算值的概率,称为P值，也称为观察到的显著性水平。利用P值决策的准则：如果P值＜α，拒绝H0；如果P值＞α，不拒绝H0. 6.单侧检验与双侧检验的区别：单侧检验中,P值位于抽样分布的一侧，而双侧检验P值位于分布的两侧，每一侧的P值为1/2。 7。大样本情形下总体均值左侧检验的拒绝域:Z＜﹣Zα；右侧检验的拒绝域：Z＞Z;双侧检验的拒绝域:|Z|＞Zα/2。 8。小样本情形下总体均值检验应该构造的检验统计量t 应用前提：服从正态分布 9。小样本情形下总体均值左侧检验拒绝域：t＜﹣tα（n—1）；右侧检验拒绝域： t＞tα（n—1）；双侧检验的拒绝域：｜t|＞tα/2（n-1） 10。假设检验的一般步骤：①依照题意建立原假设H0与备择假设H1②判断样本大小并计算检验统计量③根据显著水平进行判断原假设是否成立。 1、相关关系：变量之间存在的不确定的数量关系.相关关系的特点:一个变量的取值不能由另一个变量唯一确定，当变量x取某个值时，变量y的取值可能有几个 2、相关系数的取值和意义:取值范围：—1≤r≤1。若0<r≤1,x、y之间存在正线性相关关系;—1≤r〈0,负线性相关关系;若r=+1,x、y之间为完全正相关关系;r= —1，为完全负线性相关关系。当|r|=1时，y的取值完全依赖于x，二者之间即为函数关系；当r=0时，说明y的取值和x无关，即二者之间不存在线性关系（并不说明变量之间没有任何关系)。若|r｜→1，说明变量之间线性关系越密切，｜r｜→0,越不密切.|r|≥0.8，高度相关;0。5≤｜r｜〈0.8,中度相关;0。3≤｜r｜<0.5,低度相关;｜r｜<0。3，不相关 3. 相关系数显著性检验步骤：①提出假设②计算检验统计量t的值③在给定的显著性水平α下，查找t分布表中相应的临界值tα/2(n-2) ④判断,若|t｜≥tα/2，，表明r在统计上是显著的，若若｜t｜〈tα/2,，表明r在统计上是不显著的。 4、回归模型：描述因变量y如何依赖于自变量x和误差项ε的方程。估计的回归方程:利用最小二乘法，根据样本数据求出的回归方程的估计. 回归方程：对变量之间统计关系进行定量描述的以后总数学表达式.指具有相关的随机变量和固定定量之间关系的方程. 5、参数最小二乘估计的基本原理:使因变量的观察值yi与估计值ˆyi之间的离差平方和达到最小来求得β0和β1的方法. 6、总平方和:对一个具体的观测值来说，变差的大小可以用实际观测值y与其均值ˆy之差(y—ˆy)来表示。而n次观测值的总变差可由这些离差的平方和来表示，称为总平方和。（143 反映了y的总变差中由于x与y之间的线性关系引起的y的变化部分，它是可以由回归直线来解释的yi变差部分，称回归平方和. 是各实际观测点与回归值的残差（yi_—ˆyi）的平方和，它反映除x对y的线性影响之外的其他因素对y变差的作用，是不能由回归直线来解释的yi变差部分，称为残差平方和。总平方和=回归平方和+残差平方和 7、判定系数：回归平方和占总平方和的比例。作用： 8、在回归分析中,F检验和t检验各有什么作用 9、线性关系检验的步骤：第一步：提出假设.H0:β1=0 两个变量之间的线性关系不显著。第二步：计算检验统计量F。（）F= 第三步：作出决策。确定显著水平α,并根据分子自由度df1=1和分母自由度df2=n—2查F分布表，找到相应的临界值Fα。若F>Fα，拒绝H0，表明两个变量之间的线性关系是显著的；若F<Fα，不能拒绝H0，表明两个变量之间的线性关系不显著.回归系数的检验：第一步,提出检验.H0：β1=0 H1:β1≠0 第二步：计算检验的统计量t (148）第三步:作出决策。确定显著性水平α，并根据自由度df=n—2查t分布表，找到相应的临界值tα/2。若｜t｜〉tα/2，拒绝H0，回归系数等于0的可能性小于α，表明自变量x对因变量y的影响是显著的（两个变量之间存在着显著的线性关系）；若|t｜<tα/2，则不能拒绝H0,表明x对y的影响是不显著的，二者之间不存在线性关系。 10. 置信区间估计：对x的一个给定值x0，求出y的平均值的区间估计. 预测区间估计：对x的一个给定值x0，求出y的一个个别值的区间估计。区别： 1简述时间序列的各构成要素构成要素分为四种，即趋势（T）、季节性or季节变动（S）、周期性或循环波动（C）、随机性或不规则波动（I）.趋势是指时间序列在长时期内呈现出来的某种持续向上或持续下降的变动。它是由某种固定性的因素作用于序列而形成的.可以是线性,也可以是非线性。季节变动是指时间序列在一年内重复出现的周期性波动。循环波动或周期性波动是指时间序列中呈现出来的围绕长期趋势的一种波浪形或振荡式变动。不同于趋势变动，季节变动有比较固定的规律,周期为一年,而循环波动则无固定的规律,变动周期多为一年以上，且周期长短不一。周期性通常是由于经济环境的变化而引起的。随机性或不规则波动是由于一些偶然性的因素产生的。 2利用增长率分析时间序列时应注意哪些问题（1）当时间序列中的观察值出现0或负数时，不宜计算增长率； (2)不能单纯就增长率论增长率，要注意增长率与绝对水平的综合分析；大的增长率背后,其隐含的绝对值可能很小，小的增长率背后其隐含的绝对值可能很大。 3简述平稳序列和非平稳序列的含义平稳序列:基本上不存在趋势的序列。各观察值基本上在某个固定的水平上波动，虽然在不同的时间段波动的程度不同，但并不存在某种规律，而其波动可以看成是随机的。非平稳序列：包含趋势性、季节性或周期性的序列.它可能只含有其中的一种成分，也可能是几种成分的组合。 4指数平滑法的基本含义：①是加权平均的一种特殊形式②对过去的观察值加权平均进行预测的一种方法③观察值时间越远,其权数也跟着呈现指数的下降,因而称为指数平滑④有一次指数平滑、二次指数平滑、三次指数平滑等 ⑤该方法使用第T+1期的预测值等于T期的实际观测值与第T期预测值的加权平均值⑥一次指数平滑法也可用于对时间序列进行修匀，以消除随机波动,找出序列的变化趋势 5分解预测的基本步骤:①确定并分离季节成分。计算季节指数，以确定时间序列中的季节成分。然后将季节成分从时间序列中分离出去,即用每一个时间序列观测值除以相应的季节指数，以消除季节成分②建立预测模型并进行预测。对消除季节成分的时间序列建立线性预测模型，并根据这一模型进行预测③计算出最后的预测值。用预测值乘以相应的季节指数,得到最终的观测值。 1指数的含义:测定多个项目在不同场合下综合变动的相对数，称为指数。 2加权综合指数和加权平均指数有何区别与联系加权综合指数：通过加权来测定一组项目的综合变动，有加权数量指数和加权质量指数。使用条件：必须掌握全面数据（数量指数，测定一组项目的数量变动，如产品产量指数，商品销售量指数等）(质量指数,测定一组项目的质量变动,如价格指数、产品成本指数等）拉式公式：将权数的各变量值固定在基期。帕式公式：把作为权数的变量值固定在报告期。加权平均指数:以某一时期的总量为权数对个体指数加权平均。使用条件:可以是全面数据、不完全数据.因权数所属时期的不同，有不同的计算形式。有：算术平均形式、调和平均形 3说明消费者价格指数、生产者价格指数、股票价格指数的含义消费者价格指数CPI：是反映一定时期内消费者所购买的生活消费品价格和服务项目价格的变动趋势和程度相对数。生产者价格指数PPI:是测量在初级市场上出售的货物的价格变动的一种价格指数.股票价格指数：是反映某一股票市场上多种股票价格变动趋势的一种相对数，其单位一般用“点"表示 4消费者价格指数有哪些作用 ①用于反映通货膨胀状况.通货膨胀的严重程度是用通货膨胀率来反映的，它说明了一定时期内商品价格持续上升的幅度②用于反映货币购买力的变动趋势。货币购买力是指单位货币能够购买到的消费品和服务的数量.消费者价格指数上涨货币购买力则下降，反之则上升③用于反映对职工实际工资的影响。消费者价格指数的提高以为这实际工资的减少,消费者价格指数下降则意味着实际工资的提高④用于缩减经济序列.通过缩减经济序列可以消除价格变动的影响，其方法是将经济序列除以消费者价格指数。

展开阅读全文