1、统计学基础知识经济计量模型是一类十分重要的统计模型,经常用于描述一些经济当中的随机现象及规律。为此,我们需要对经济计量模型给出一些基本的介绍,以便学习更为深入的经济计量学理论与方法。为此,我们需要首先回顾概率论与数理统计方面的一些重要内容。3.1 随机变量及其分布的数字特征3.1.1 随机变量任何随机实验的结果都可以利用样本空间表示,因此可以在样本空间上定义随机变量。定义3.1 定义在样本空间上的实值可测函数,称为随机变量。这样一来,随机变量可以表示很多随机实验的结果,也可以通过定量化变量来表示随机实验的结果。定义随机变量以后,便可以定义随机变量的概率分布函数,这样就可以利用概率分布函数分析随
2、机变量取值的概率。3.1.2 随机变量的概率分布定义3.2 假设是随机变量,对任意实数,定义函数: (3.1)我们称函数是随机变量的概率分布函数。如此定义的概率分布函数是左连续函数。当分布函数连续可微的时候,其导数称为概率密度函数;当分布函数存在可数个间断点时,称其为离散概率分布,这时可以定义离散概率分布列。如果了解了随机变量的概率分布,则可以计算出任何区间内随机变量的概率,则有:命题3.1 假设是随机变量,是概率分布函数,是概率密度函数,则对于任意的实数,有: (3.2)3.1.3 随机变量的数字特征由于彻底了解随机变量的概率性质,需要知道随机变量的分布函数或者密度函数,这是比较困难的。因此
3、,有些时候只需要了解一些概率分布函数的重要特征就可以了,因此我们讨论下述随机变量的重要数字特征,即均值和方差。定义3.3 假设是随机变量,并且二次可积,则定义随机变量的均值和方差为:,均值和方差具有非常重要的统计性质,均值表示随机变量的平均取值,而方差表示随机变量围绕均值的波动程度。这里的波动经常代表一种“信息”和“风险”,需要大家给予深入的理解。 例3.1 一些重要的概率分布函数如下:(1) 均匀分布(),密度函数为: (3.3),均匀分布是一种表示均等可能的概率分布,表示“等同无知”或者“等同浓度”等概念。(2) 指数分布 密度函数为: (3.4),指数分布经常表示一种生命过程,例如产品周
4、期和使用寿命等。(3) 正态分布,这是十分重要的概率分布。其分布密度函数为:, (3.5)这种分布的意义应该给予更为深刻的了解,因此这种分布是概率统计的基础。显然有:,(4) 二项分布 假设随机变量,概率分布列为: (3.6),二项分布表示次试验中成功次数的概率分布,是一种十分常见的离散概率分布类型。(5) 泊松分布(Poisson) 假设随机变量,概率分布列为:, (3.7),泊松分布经常表示一段时间内某种时间发生频率或者强度的概率分布。3.2 多元随机向量及其概率分布3.2.1 多元随机向量如果一个随机变量无法描述一个随机现象,例如某种射击的弹落点就需要二元坐标加以度量,则需要多个随机变量
5、一起度量这些随机现象。以随机变量为分量构成的向量称为随机向量。定义3.4 假设是维随机向量,对任意实数,称元函数: (3.8)为的联合概率分布函数。有了上述联合概率分布函数的定义以后,就可以联合概率密度函数,也定义边际概率密度和条件概率密度。联合概率密度函数定义为: (3.9)例如对于二元概率密度函数,边际密度函数定义为:, (3.10)条件概率密度函数为:, (3.11)3.2.2 随机向量之间的独立性和相依性独立性和相关性是随机变量之间最为重要的相互关系,独立性定义为:定义3.5 如果随机向量的联合概率分布函数等于边际分布函数的乘积,则称随机变量之间的相互独立的。对于两个随机变量而言,如果
6、,则两个随机变量和之间是相互独立的。对于多个随机变量而言,两两独立和相互独立之间存在区别,这在应用中应该给予注意。如果两个随机变量之间不是独立的,则称其为相依的。这时需要定义它们之间的协方差,即: (3.12)上述协方差表示两个随机变量围绕其均值偏离水平之间的关系。如果协方差大于零,则说明两个随机变量具有相同的变化趋势;如果协方差小于零,则说明两个随机变量具有相反的变化趋势;这种统计性质需要大家认真理解协方差定义来加以理解。如果协方差等于零,则称两个随机变量是无关的。将协方差标准化,可以得到相关系数的定义。定义3.5 如果随机向量和均是非退化的,即具有大于零的方差,则定义相关系数为: (3.1
7、3)相关系数定量地描述随机变量之间的线性相关程度。3.3 抽样分布和参数估计注意到上述所描述的分布及其特征都是理论上的,要想获得对现实随机现象及其分布的认识,必须通过抽取数据进行推断和估计。为此,理论上的分布称为母体的,获得数据后的推断称为样本的。母体的性质是理论上的,样本的性质是经验的。3.3.1 样本和统计量假设是从母体中获得的样本,这些样本在进行实验之前是随机变量,而进行实验以后就是观测值。因此,一般情况下,我们所表示的都是样本,而不是观测值,这样是具有独立同分布的随机变量,这样的样本也称为简单随机子样。定义3.4 不包含任何参数的样本的函数,称为统计量。统计量是可以计算出数值的,这是统
8、计量最为重要的性质,例如下述都是重要的统计量:样本均值: (3.14)样本方差: (3.15)样本k原点矩: (3.16)样本k中心矩: (3.17)样本极差: (3.18)样本协方差: (3.19)随机变量的矩:连续随机变量的阶矩定义为:这里“”表示数学期望,是的概率密度函数。一阶矩称之为的均值或者数学期望,其度量的是分布的中心位置。我们用表示的均值。的阶中心矩可以表示为:假定积分存在。二阶中心矩用表示,度量的是的变化,称为的方差。方差的正平方根称为的标准离差。知道一阶矩和二阶矩就可以确定一个唯一的正态分布,对于其他的分布,则要考虑更高阶矩。三阶矩度量相对于均值的对称性。四阶矩度量的是的尾部
9、特征。统计学意义上,偏度和峰度(也就是的三阶矩和四阶矩)常常用于概括分布的偏峰和厚尾的程度。的三阶矩和四阶矩定义如下:,。因为正态分布下,因此称之为剩余峰度。于是,正态随机变量的剩余峰度为零。如果一个分布具有正的剩余峰度,则称之为厚尾的,这暗示着和正态分布相比较,该分布在尾部有更多的质量。在实际中,这意味着这样的随机分布具有更多的极值。在应用上,偏度和峰度也称为峭度,描述的是密度函数的陡峭程度,若十分陡峭,则具有厚尾的特性。可以通过样本观测值估计出来,令是随机变量的个样本观测值,样本均值如下: (1.10)样本方差为: (1.11)样本偏度为: (1.12)样本峰度为: (1.13)在正态假设
10、下,和渐进的服从零均值,方差分别为和。3.3.2 参数估计如果随机变量的概率分布中存在未知参数,则需要利用统计量将参数估计出来。一般的估计方法有两种,一种是点估计,一种是区间估计。(1) 参数点估计(point estimation)常用的点估计方法有两种,一种是矩估计,一种是极大似然估计。矩估计是假设样本原点矩等于母体原点矩,从而获得参数的估计;极大似然估计是通过似然函数的极大化,获得参数的点估计,这是最为重要的一种参数估计方法。极大似然估计依据极大似然原理,可以从下述例子中了解这种原理的应用。例3.2 假设随机样本从母体中获得,试求参数的极大似然估计。解:构造似然函数。似然函数一般是概率分
11、布列或者概率密度函数的乘积,然后通过求对数,获得对数似然函数,这是单调变换,不影响极大值性质。然后可以得到:(2) 区间估计(interval estimation)定义3.5 假设和是两个统计量,且对于任意样本都有:。如果随机区间覆盖未知参数的概率等于某个事先给定的正常数,即 (3.20)则称是参数的置信度为的置信区间。一般情形下,置信区间不是唯一的,我们希望获得长度最小的置信区间。置信区间估计的构造方法比较普遍,希望大家复习并掌握。3.3.3 参数估计的判断准则参数估计的优劣可以通过一些标准加以判断,主要的准则有无偏性,有效性和一致性等。(1) 无偏性是指统计量在母体分布下是参数的无偏估计
12、,即: (3.21)(2) 有效性是指统计量在一定范围内(无偏估计范围内)具有较小的方差。(3) 一致性是一种参数估计的大样本性质,是指样本容量增加时,统计量按概率收敛到未知参数,即 (3.22)对于大样本性质,大家要尽量了解一些收敛性的概念和命题,这样可以对经济计量学中的一些高级算法有所理解。3.4 参数的假设检验假设检验是数理统计中非常重要的一类内容,重要根据“小概率事件不可能发生原理”来进行参数显著性的检验,基本过程包括:(1) 根据实际问题提出原假设和备选假设(2) 根据实际问题确定适当的显著性水平(3) 根据原假设形式构造检验统计量,并计算检验统计量的数值。(4) 确定假设检验的拒绝域。(5) 对原假设和备选假设给出判断结果。对于正态单母体和双母体的均值和方差,基础概率统计教材都给出了比较完整的检验统计量和检验拒绝域。但是,需要对于假设检验的单边性和双边性给予必要的注意。3.5 基本的线性回归分析这类内容需要大家复习,主要是对经典线性模型的假设和检验给予重视,这些内容是经济计量学的基础。3.6 基本的方差分析方差分析主要用于说明某种定量或者定性变量对于实验结果影响的显著性的,属于重要的概率统计内容,但是通常不被包括在经济计量学的主要内容当中。3.7 高级计量经济学模型举例GARCH模型6 / 6
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100