资源描述
<p>(李金昌)统计学(第四版)复习资料
此为整本书的复习资料,若应对期末考试,则不再考试范围内的请自动忽略。
第一章:总论
统计含义:统计数据、统计活动、统计学
统计学:关于如何搜集、整理和分析统计数据的科学。
古典统计学时期 国势学派——德国
政治算术学派——英国
统计学发展历程 近代统计学时期 社会统计学派——德国
数理统计学派——比利时
现代统计学时期:推断统计
统计学研究对象:现象的数量方面—统计数据
定性数据 定类数据
计量尺度 定序数据
定量数据 定距数据
统计数据 定比数据
表现形式:绝对数、相对数、平均数
来源:观测数据、实验数据
加工程度:原始数据、次级数据
时空状态:时序数据、截面数据
总体:统计研究的客观对象全体,也称母体。特征:大量性、同质性、差异性
个体数量:有限无限总体
存在形态:具体形象总体
总体分类: 个体计数:可计数不可计数总体
人为判定个体:自然人为总体
个体:组成总体的个别事物,也称总体单位。
总体及个体关系:.总体随个体数量可变大变小;
.研究目的不同,总体中个体可改变;
.研究范围不同,总体和个体角色可变换。
样本:从总体中抽取一部分个体所组成的集合,也称字样。其不具唯一性,除非其实总体本身。
样本数:总体中最多可抽取的不同样本数量。
样本及总体关系:.总体是研究对象,样本是观测对象,样本是总体的代表和缩影;
.样本用来推断总体:观测样本的目的是对总体数量特征作出判断。
.总体和样本角色可改变
标志:描述或体现个体特征的名称,标志在每个不同个体的结果为标志变形
表示方式 品质标志:表明个体属性特征
数量标志:表明个体数量特征
表现结果是否相同 不变标志:每个个体上表现完全相同
分类 可变标志:每个个体上表现不同
表现个体直接程度 直接标志(第一标志):直接表明个体属性或数量特征
间接标志(第二标志):两个或两个以上标志计算后(通常对比)
变量:狭义:可变的数量标志;变量是可变数量标志的抽象化;变量的具体数值—变量值(标志值)。
广义:可变标志(可变数量品质标志)。
定性变量 定类变量
定序变量
定量变量 定距变量
变量分类 定比变量
所受影响因素 确定性变量
随机性变量
是否连续 离散型变量(只能取整)
连续性变量(随意取)
统计指标:简称指标,是反映现象总体数量特征的概念及其数值。
组成:统计指标由指标名称和指标数值两个基本部分组成。指标名称反映所研究现象的实际内容,是对现象本质特征的一种概括;
指标数值时所研究现象实际内容的数量表现,是对总体本质
特征的量的规定性,是对个体特征综合和计算的结果。
统计指标和标志的联系和区别:
区别:.说明对象不同:指标说明总体的特征;标志说明个体的特征;
.表现形式不同:指标用数值体现;标志既有文字又有数值。
联系:.标志是计算统计指标的依据,即统计指标数值是根据个体的标志表现综合而来的;
.由于总体和个体的确定是相对的,可以换位,因而指标和标志的确定也是相对的。
计算范围 总体指标
样本指标
反应现象不同 总体标志总量
数量指标 总体容量
指标 反映现象内容不同 反应时间状况 时期指标
时点指标
质量指标 相对指标
平均指标
反映现象时间状态 静态指标
动态指标
第二章:统计数据的收集、整理及显示
统计数据收集:按照统计研究目的和任务,运用各种科学有效的方式和方法,有针对地收集反映客观现实的统计数据的活动过程,是整个统计活动的基础阶段,通常也称统计调查阶段。
基本要求:准确性(核心)、及时性(信息价值体现)、完整性(分析需要)
统计数据收集方式:普查、抽样调查、重点调查及间接的统计调查—统计推算
普查:根据特定的统计目的而专门组织的一次性的全面调查,用以手机所研究现象总体的全面资料(总体中所有个体都是观测单位)
分类:.专门建立普查机构,配备人员,如我国人口普查;.利用观测的原始记录是记录和核算资料,发表,由观测单位填报。如物资库存普查。
特点:一般全国范围,涉及面广、工作量大、需要大量物力人力和财力。
抽样调查:一种非全面调查,从总体中抽取样本,以样本推断总体。根据抽取样本方式的不同,分为概率抽样和非概率抽样。
特点:经济节省、时效性高、准确度高、灵活方便
概率抽样从抽样方法上看分为重复抽样和不重复抽样;从抽样组织形式上看,分为简单随机抽样、分层抽样、等距抽样、整群抽样和多阶段抽样
非概率抽样分为任意抽样、典型抽样、定额抽样、和流动总体抽样几种。
数据收集误差:观测性误差和代表性误差。
观测性误差:也叫登记性误差或调查性误差,事调查工作的各个环节因工作粗心或被观测者不愿很好配合而造成的所收集数据及实际情况不符的去查,包括计量错误、记录错误、计算错误、抄写错误、汇总错误、计算机输入误差等各种人为因素干扰的误差。在全面调查和非全面调查中都会产生,调查范围越广、观测个体越多,产生误差可能性越大。是一种非一致性误差。
代表性误差:是在抽样调查中,由于样本不能完全代表总体而产生的估计结果及总体真实数量特征不符的误差。分为系统代表性误差和偶然性代表性误差。
系统代表性误差:由于抽样框(用于抽取样本的名录)不完善、抽样时违反随机原则、被调查者误会等因素引起的误差,等距抽样也会有这种误差。是难以计算和控制的。
偶然性代表性误差:也叫抽样误差或偶然性误差,是由于抽样的随机性引起的样本机构及总体结构不完全相符,从而产生的估计结果及总体真值不一致的误差,这种误差在随机抽样不可避免,但可以计算和控制。
统计分组:根据据统计研究的目的和事物本身的特点。选择一定的标志(一个或多个),将研究现象总体划分为若干性质不同的组或类的一种攻击研究方法。
性质:.兼有分及合的双重功能,是分及合的对立统一;必须遵循“穷尽原则”和“互斥原则”,即现象总体中的任何一个个体都必须而且只能归属于某一个组,不能出现遗漏或重复出选的情况;其目的是在同质性的基础上研究总体的内在差异性,即尽量体现出分组标志的组间差异而缩小其组内差异;其在体现分组标志的组间差异的同时,可能掩盖了其他标志的组间差异,任何统计分组的意义都有一定的限定性。
分类:
分组标志多少:简单分组:只按一个标志分组
复合分组:按两个或两个以上标志进行层叠式分组,先按第一个标志分组,再按第二个…
两个标志进行复合分组时,还可以用交叉式,形成交叉分组表。
分组标志性质:品质分组,即属性分组,总体按一个或多个品质标志分组,分组标志一经确定,各组名称、界限和组数也就随之确定。
数量分组,即变量分组,总体按一个或多个数量标志分组。是反映总体内部数量差异的重要方法;难点是合理确定组间数量界限和分组数,其结果形成变量数列。
分布数列:在统计分组的基础上,将总体中的所有个体按组归类排列,并计算出各组的个体数,就形成频数分布。分配在各组的个体数,称为频数或次数,各组频数或次数之和称为总频数或总次数,各组频数于总频数之比称为频率。将各组的频数或频率按分组的一定顺序加以排列,就形成分布数列。分布数列有两个构成要素:统计分组所形成的各个组和各组的聘书或频率。
分类:按分组标志的性质不同,分为品质标志的品质分布数列和按数量标志分组的变量分布数列。变量数列又分为单项式数列(一个变量值表示一个组)和组距式数列(一个变量区间表示一个组的变量数列)。
频数密度是频数及组距之比,频率密度是频率及组距之比,各组的频数密度或频率密度可以进行比较。
注意:.最小组的下限应略低于总体的最小变量值,最大组的上限应略大于总体的最大变量值;.连续型变量的各组组限必须重叠
,采用“上限不在内”原则;。开口组:最小组只有上限,最大组只有下限;开口组一般按相邻组的组距加以确定,进而确定上下限。.组中值,代表各组变量值的一般水平的数值,是各组上限及下限的简单算术平均数。
第三章:变量分布特征的描述
变量分布特征的描述:.变量分布的集中趋势,反映变量分布中各变量值向中心值靠拢或聚集的程度;.变量分布的离中趋势,反映变量分布中变量值远离中心值的程度;.变量分布的形状,反映变量分布的偏斜程度和尖陡程度。
平均指标:将变量的各变量值差异抽象化,以反映变量值一般水平或平均水平的指标,即反映变量分布中心值或代表值的指标。平均指标的拘役表现为平均数,平均数因计算方法不同分为数值平均数和位置平均数。
作用:.反映变量分布的一般水平,帮助人们对研究现象的一般数量特征有一个可观的认识;
.利用平均指标可以对不同空间的发展水平进行比较,消除因总体规模不同而不能直接比较的因素,以反映他们之间总体水平上能够存在的差距,进而分析产生差距的原因。
.利用平均指标可以对某一现象总体在不同时间上的发展水平进行比较,以说明这种现象发展变化的趋势或规律性。
.利用平均指标可以分析现象之间的依存关系或进行数量上的推算
.平均指标可以作为研究和评价事物的一种数量标准或参考。
算术平均数:也称均值,是变量的所有取值的总和除以变量值个数的结果。
简单算术平均数:根据未分组数据计算的,直接将变量的每一个变量值相加,除以变量值的个数。
x=x1+x2+…xnn=i=1nXi(可简记为x=xin)
加权算术平均数:根据变量数列,即以各组变量值(或组中值)乘以相应的频数求出各组标志总量,加总各组标志总量得出总体标志总量,再用总体标志总量除以总频数。
x=x1f1+…+xkfkf1+…+fk=i=1kXifii=1kfi(可简记为x=Xififi)
算术平均数的数学性质:.各变量值及算术平均数的离差之和等于零,即Xi-x=0(对于简单算术平均数)或xi-χfi=0(对于加权算术平均数);
.各变量值及算术平均数的离差平方和为最小值,即
Xi-x2=最小值或Xi-x2≤Xi-x0∧2,只有当x=x0时,等号成立。
算术平均数优缺点:
优:.可以利用算术平均数来推算总体标志总量,算术平均数及变量值之乘积等于总体标志总量(变量值总和);
.由算术平均数的数学性质知,算术平均数在数理上具有无偏性及有效性(方差最小性);
.其具有良好的代数运算功能
局限性:.算术平均数易受特殊值(特大或特小值)影响;
.根据组距数列计算算术平均数时,由于组中值具有假定性而使得计算结果只是一个近似值,尤其是当组距数列存在开口组时,算术平均数的准确性会更差。
调和平均数:是平均数的一种,是变量值的倒数的算术平均数。分为简单调和平均数和加权调和平均数。
简单调和平均数:当各组的标志总量相等时,所计算的调和平均数称为简单调和平均数;设总体分为组,每个组的标志总量都为。
kmmx1+…mXk=ki=1k1Xi(可简记为k1xi)
加权调和平均数:当各组标志总量不相等时,所计算的调和平均数要以各组的标志总量为权数,其结果为加权调和平均数。
m1+…+mkm1x1+…mkxk=i=1kmii=1kmixi(可简记为mimixi)
简单和加权调和平均数的联系和区别:区别在于计算过程中应用的数据条件的不同前者以各组频数为权数,后者以各组标志总量为权数,但它们都符合总体标志总量及总体总频数的对比关系,事实上,两者是可以相互变通的。对于同一现象,无论用加权或是简单调和平均数,计算结果是相等的,无非是因数据条件不同采用了不同的计算形式。
由相对数或平均数计算平均数
不论是用加权算术平均数公式还是加权调和平均数,都要从相对数或平均数指标本身的经济含义出发来计算,这是一个很重要的原则。
几何平均数:是计算平均比率或平均速度常用的一种方法。分为简单几何平均数和加权几何平均数。
简单几何平均数:就是变量的个变量值连乘积的次方根。nx1.x2…xn=nk=1nAk(可简记为n∏xi)
加权调和平均数:当计算几何平均数的各种变量值出现的次数不等,即数据经过了统计分组时,则应采用加权几何平均数。
i=1kfix1f1…xkfk=i=1kfii=1kXifi(可简记为i=1kfiXifⅈ)
算术、调和、几何平均数的数学关系:单从数学意义上说三者大小关系为:<<x
位置平均数
中位数:变量的所有变量值按定徐尺度排序后,处于中间位置的变量值,由于处于中间位置,可以用来代表变量值的一般水平,可以预测定量变量的集中趋势,也可测定定序变量的集中趋势,但不适用于定类变量。
中位数确定:.根据未经分组的原始数据来确定
x(n+12), 为奇数
me
12 x(n2)+x(n+12) ,为偶数
.根据变量分布数列来确定
按组距数列来计算中位数,首先要计算各组的累计频数,然后找出中位数所在的位置,即累计次数大于或等于f2的组,(严格上讲是f+12,简化起见取f2)。
下限公式:
me=L+fi2-SMe-1fme×d
(为中位数所在组的下限,fme为中位数所在组的频数,sMe-1为向上累计至中位数所在组下一组止的累计频数,为中位数所在组的组距。)
上限公式:
me=U-fi2-sme+1fme×d
位中位数所在组的上限,sme+1为向下累计之中位数所在组上一组的累计频数。
中位数优缺点:
优:.作为一种位置平均数,概念比较清晰;
.不受变量数列中特殊值的影响;
.组距数出现开口组时,对中位数无影响
.当某些变量不能表现为数值但可以定序时,不能计算数值平均数而可以确定中位数。
局限性:.不能像算术平均数那样进行代数运算;
.除了变量数列的中间部分数值外,其他数值的变化都不对中位数产生影响,因此中位数的灵敏度较低。
分位数:
以四分位数为例,分为第一、第二和第三四分位数,分别为QL,QM,QU.位置分别为:n+14,2(n+1)4,3(n+1)4.具体计算方法可参考中位数的计算方法。
众数:是变量数列中出现次数最多、频率最高的变量值。
众数的确定:.根据单项式数列确定众数直接找出频数最多或出现频率最高的变量值即可。
.根据组距式数列来确定众数,先要找出频数最多的一组作为众数组,然后运用下列公式来确定众数:
下限公式:
m0=L+∆1∆1+∆2×d
式中∆1为众数组频数与上一组从左往右频数之差,∆2为众数组频数及下一组频数之差, 含义及中位数公式中一样。
上限公式:
m0=U-∆2∆1+∆2×d
位众数组的上限
众数特点:
1. 不受数列中特殊值的影响,表示某些现象的一般水平会具有较好的代表性;
2. 具有较广的应用面,可用于测定任何变量的集中趋势;
3. 众数只有在总频数充分多且某一组的频数明显高于其他组时才有意义,若各组的频数相差不多,则不能确定频数;
4. 有时一个数列会有两个组的频数明显最多,这就会有两个众数,该数列属于双众数数列。
中位数、众数和算术平均数的关系:
1. 在变量分布完全对称(正态分布)时,中位数、众数和算术平均数三者完全相同,即x=me=m0
2. 在变量分布不对称(偏态分布)时,中位数、众数和算术平均数三者之间存在着差异。
当算术平均数受极大值一端影响较大时,变量分布向右偏(右边更低),三者关系为m0<me<x;
当算术平均数受极小值一端影响较大时,变量分布向左偏(左边更低),三者关系为x</p><me<m0 1.="" 2.="" 3.="" xmax-xmin="" qd="QU-QL" vr="fi-fmofi=1-fmofi" a.="" i="1k(xi-a)tfii=1kfi(根据变量数列,可简记为阶动差(xi-a)tfifi)" s2="i=1k(xi-x)2fii=1kfi-1(可简记为s2=(xi-x)2fifi-1)" sa2="b2sx2;" z="xi-xs.(服从均值为零,标标准差为的标准正态分布,是无量纲。通过计算标准化值可以使处于不用均值水平、不同计量单位的变量值之间的比较成为可能,使比较的对象找到统一标准的相对位置。)" vs="sx。离散系数越大,说明变量分布的离散程度越强,平均数的代表性越差;离散系数越小,说明变量分布的离散程度越弱,平均数的代表性越好。" x-mos="" sk2="QL+QU-2meQU-QL" mi="xin或Mi=xififi" m1="0,偶数阶中心动差恒为正(其中二阶中心动差就是方差,即m2=s2)而三阶以上的奇数阶中心动差可正可负。" m3="0时,表示变量分布无偏;当m3">时,表示变量分布是正偏,当m3<时,表示变量分布是负偏。 m3s3="">时,表示变量分布正偏;若sk(3)<,表示变量分布负偏;当sk(3),表示变量分布两边对称,无偏。sk(3)的绝对值越接近零,表示变量分布的偏度越轻微;反之,偏度越严重。
峰度系数:可以告诉我们根不是尖陡还是扁平,即频数(频率)分布绝大部分集中于众数附近还是各变量值的频数(频率)相差不大(如果各变量值的频数或频率相等,则分布呈一条直线,无峰顶可言)。
计算:主要通过动差法,是四阶中心动差及标准差四次方s4相比的结果,即
m4s4
峰度系数的标准值为。当时,变量分布的峰度为标准正态峰度;当<时,变量分布的峰度为平顶峰度;当>时,变量分布的峰度为尖顶峰度。更进一步,当值接近于时,变量分布曲线就趋向于一条水平线,表示各组分配的频数接近于相同。当小于时,则变量分布曲线为“”形曲线,表示变量分布的频数分配是“中间少,两头多”。
第七章 相关回归分析
现象之间的数量关系,大致可以分为两种不同的类型:函数关系和统计相关关系。函数关系指现象之间的确定性的数量依存关系。(两个变量及之间的函数关系一般可以表示为())。
相关关系:也称统计相关,是指现象之间存在的非确定性的数量依存关系。数学一般形式:(),其中为随机误差。值得注意的是,相关关系不能通过个别现象体现出其关系的规律性,必须在大量现象中才能得到体现。
相关关系分类:
1. 按照相关关系涉及的因素(变量)的多少,可分为单相关和复相关;
2. 按照相关关系的表现形式不同,可分为线性相关于非线性相关。对于一元相关,即为直线相关和曲线相关;
3. 对于单相关,按照现象数量变化的方向不同,可分为正相关和负相关
4. 按照相关程度不同,可以分为完全相关、不完全相关和无相关。
相关分析:广义上讲,对两个或两个以上现象之间数量上的不确定性依存关系进行的统计分析,即为相关分析。
内容:
1. 判断确定现象之间有无关系以及相关关系的具体表现形式;
2. 确定相关关系的密切程度;
3. 检验现象统计相关的显著性,包括检验相关关系的存在性、检验相关关系强度是否达到一定水平,检验两对现象相关程度的差异性,估计相关系数的取值。
相关关系的测度:
一:相关关系的一般判断
1. 定性分析:根据一定的经济理论和实践经验的总结,对社会经济现象进行科学的定性分析,以判断它们之间是否具有相关关系以及相关关系的类型。
2. 相关表和相关图:
简单相关表:利用未分组的原始资料,将两个现象的变量值一一对应地填列在同一张表格上,这就叫简单相关表,适用于资料的项数较少的情况。
分组相关表:
1. 单变量分组表:只对自变量进行分组,因变量不分组,只是计算出其次数和平均数,这种表成为单变量分组表。可以使原始资料大大简化,在原始资料较多的情况下,使用单变量分组表能更清晰地反映现象间的相互依存关系,找出变量间数据变动的规律性。
2. 双分组变量表:将自变量和因变量都进行分组制成的表称为双变量分组表。适用于大量复杂数据的处理和分析。
相关系数的测定:
直线相关系数的计算:对于定距尺度的连续变量和,测定它们之间的线性相关关系最常用的方法是采用皮尔逊相关系数。根据资料情况不同,有不同的计算形式。其中的积差法是最基本表达式。
1. 积差法:r=sxy2sxsy
其中为直线相关系数,sx是变量数列的标准差, sy是变量数列的标准差, sxy2是变量数列和的协方差。
sxy2=(x-x)(y-y)n-1
2. 积差法在计算过程中要使用两个数列的平均数,当平均数的小数位很多或除不尽时,计算会比较繁杂且影响最终结果的精确性。因此常常采用其简捷公式:
r=nxy-xyny2-(y)2nx2-(x)2
3. 利用分组资料计算相关系数
(1) 根据单变量分组表计算相关系数,可以在简单相关的基本公式上,以每组的次数作为权数进行加权计算,公式如下:
r=x-xy-yf(y-y)2f(x-x)2f
(2) 根据双变量分组表,也能计算相关系数,但一般很少采用。计算公式为:
r=(x-x)(y-y)fxy(y-y)2fy(x-x)2fx
fxy是及交叉组的次数。
直线相关系数的统计检验:检验的内容包括两个部分,一是总体线性相关的存在性检验,即检验总体线性相关系数是否为零;二是总体线性相关差异性检验,检验某一总体线性相关程度是否等于(或者单侧检验大于或小于)某一特定值,以及检验两个相关系数是否来自同一相关总体。
设随机变量()服从正态分布。总体相关系数记为,则对于由样本资料(xi,yi)(,…)计算的皮尔逊相关系数,需要检验一下原假设和备择假设:
Ho:
H1:≠
在H0成立情况下,有以下统计量:
t=rn-21-r2()
在给定显著性水平下,当>tα2(),即表示总体线性相关系数显著不等于零,即线性相关关系(在一定程度上)是存在的。
皮尔逊直线相关系数的取值含义:
(1) 的取值有一定范围,在和之间,即<<;>表示正相关;<表示负相关。
(3) 相关程度的大小要看相关系数绝对值的大小。即越接近,表示密切程度越强;越接近于,表示相关密切程度越弱;
(4) 为了使判断有一定的标准,一般将相关程度设为以下几个不同的等级:<为无相关,<<为低度相关,<<为中度相关,>是高度相关。(只有样本量较大时,这一判断才成立)。
(5) 皮尔逊直线相关系数是一种线性(直线)相关程度的度量。两个变量的皮尔逊相关系数低,只能表示他们之间线性相关程度很低,不表示它们之间其他形式的相关密切程度很低。
等级相关系数的测定方法:就是把有关联的定序变量按等级次序排列,形成和两个序数数列,再测定这两个序数数列之间的相关程度,用这种方法计算的相关指标叫做等级相关系数。
斯皮尔曼相关系数
(1) 定等级。将变量和的观测值按从小到大(或从大到小)顺序排出等级,形成两个序数数列。
(2) 计算和两个序数数列的每对观测值的等级之差,记作,.
(3) 按下述公式计算rs:
rs=1-6D2n(n2-1)
在一般情况下,斯皮尔曼相关系数rs的取值范围亦为【】。完全正相关时,两数列等级一致,rs=1;完全负相关时,两数列等级相反,rs.
肯德尔等级相关系数:交错级数。
rk=1-4in(n-1)
i为换位总次数。肯德尔相关系数的取值范围也为【】。当等级数列和的等级完全一致并按同一方向变化时,则rk,表示和的等级之间完全正相关。
回归分析:
特点:
(1) 在两个或两个以上变量中,必须根据研究目的确定其中一个为因变量,其余为自变量;
(2) 在相关分析中,两个变量都是随机的,而在回归分析中,要求因变量是随机的,而自变量是给定的;
(3) 若变量之间互为因果,或是没有明显因果关系,则可以求出两个回归方程,,对于相关分析来说,两个变量之间只能求出一个相关系数;
(4) 回归方程有较强的应用性。
直线回归方程:
理论模型:α+βx+ε
估计模型:
a、 的确定:
b=nxy-xynx2-(x)2
a=y-bxn=y-bχ
回归系数是回归直线的斜率,其含义为:自变量每增加(或减少)一个单位,因变量将平均增加(或减少)个单位。
回归估计标准误:离差平方和的平均数称为剩余方差,记为sxy2,即
sxy2=(y-yc)2n-2
为自由度,这是因为按最小二乘法求解两个参数和,受到两个正规方程的约束,失去两个自由度。
对剩余方差开方就得到回归估计标准误,又称估计标准误差,它是衡量回归估计精确度高低或回归方程代表性大小的统计分析指标。其计算公式为
syx=(y-yc)2n-2
syx的下标表示以为因变量的回归故居标准误。
回归方程判定系数(可决系数):
在直线回归方程中,实际观察值的大小是围绕其平均值y上下波动的,的这种波动现象称为变差。产生原因有二:
(1) 受自变量的影响,取值不同会影响取值不同;
(2) 受其他因素影响(包括随机因素和观测误差)的影响。
把(y-y)2称为总变差(通常记为),其中(yc-y)2是由变动造成的变差,(y-yc)2称为回归变差(通常记为),是随机因素引起的变差,称为随机变差或剩余变差().
总变差剩余变差回归变差,。
回归变差占总变差的比值,可以作为衡量两个变量之间相关程度大小的统计指标,记作r2
r2=(yc-y)2(y-y)2=1-(y-yc)2(y-y)2
在大样本下,可化简为:
r2=1-nsyx2nsy2=1-syx2sy2
对上式稍作转换,可得:
syx=sy1-r2
^称为判定系数,又称可决系数,它是相关系数的平方。它表明自变量的方差对因变量的方差的解释程度,换句话说,它表明的方差中有多大程度是由原因引起的,判定系数一般用来反映回归方程的拟合程度。
值越大,说明相关程度越密切,这时syx值越小,也就是观测点离回归直线越近。当值大到±1时,syx=0,此时,所有的观测点都在回归直线上,也就是完全相关。反之,值越小,则syx越大。
因变量的置信区间估计:
步骤:
1. 由样本数据求出估计值yC及其标准差syx;
2. 利用标准化正态分布曲线下的面积查对表,就可以在一定的概率保证下对总体估计值做出置信区间估计。
其公式为;
yc-tsyx≤y≤yc+tsyx
第八章 时间数列分析
时间数列:是某一指标数列按时间先后顺序加以排列而形成的统计序列。由于时间数列从动态上反映社会经济现象的数量发展变化,所以又称动态数列。
综合分析法 水平分析法
速度分析法
时间数列分析法 循环波动
长期波动
数学模型法 季节波动
时间数列构成要素:
(1) 现象所属时间;
(2) 现象在响应时间所达到的水平(指标数值)。
时间数列的分析意义:
(1) 通过观察时间数列,可以了解社会经济现象总体的动态变化全过程;便于人们全面地认识事务的发展反方向和速度;
(2) 通过分析,可以研究哪些因素对时间数列数值的大小起作用,进一步掌握事物发展变化的趋势和规律性;
(3) 根据时间原有的发展规律,进行短期预测或长期预测,是生产、管理、决策过程中不可缺少的有力工具。
时间数列的分类;
一. 总量指标时间数列
定义:也称绝对数时间数列,是由总量指标按时间先后顺序排列而形成的统计数列,反映现象在不同时间上所达到的规模、水平或工作总量。
分类:
1. 时期数列:指同类的时期指标按时间先后顺序形成的数列,是数列中的各期指标值反映社会经济现象在一定时期累计达到的总量。
特点:
(1) 数列中不同时间的指标数值可以累计;
(2) 指标值的大小和时期长短有直接关系,一般来说,时期越长,数值越大;
(3) 指标值一般是通过连续登记获取的。
举例:社会商品零售额、居民总收入、进出口贸易总额等。
2. 时点数列:是时点指标按时间先后顺序排列形成的统计数列其指标反映经济现象在某一时点或某一瞬间所达到的水平。
特点;
(1) 数列中不同时点上数值不可累计(或相加没有意义);
(2) 指标数值的大小和时间长达没有直接关系;
(3) 时点指标的数值一般是通过不连续登记取得的。
举例:商品库存数、企业数、存款余额等。
二.相对数时间数列
定义:相对指标按时间先后顺排列形成的数列,反映社会经济现象之间数量对比关系的发展变化过程。相对指标很多,大多数是由两个总量指标对比派生出来的。
由于相对指标计算时抽象了基数(或绝对数)的差异,因此相对指标不仅在空间上不具有直接相加性,而且在时间上也不具有直接可加性。也就是说相对时间数列是不可直接相加的。
三.平均数时间数列
定义:平均指标按时间先后顺序排列形成的数列,反映现象的一般水平在不同时间上的发展变化情况。是由两个总量指标时间数列对比形成的派生数列在时间上不具有可加性。
时间数列的影响因素:
1. 长期趋势
定义:是指时间数列中指标数值在较长一段时间内,由于受普遍的、持续的、决定性的基本因素的作用,是发展水平沿着一个方向持续向上或向下发展或持续不变的基本态势。
作用:通过长期趋势分析,可以了解经济现象在一段相当长的时间内发展的方向、趋势和规律,便于进行预测和决策。
2. 季节变动
定义:数列中各期指标值随着季节交替而出现周期性的有规则的重复变动,这里的时间通常指一年。扩展:只要呈现重复变动,不仅是年中的季节,每月,每周,每天而且每小时的周期性变动,均可称为季节变动。
3. 循环变动
定义:及季节变动相类似,但<!--为无相关,<<为低度相关,<<为中度相关,--><!--<;--><!--时,变量分布的峰度为平顶峰度;当--><!--时,表示变量分布是负偏。--></me<m0>
展开阅读全文