资源描述
经济计量分析 第1章 多元古典线性回归模型
第1章 多元古典线性回归模型
一、计量经济学中的重要问题:
1.计量经济学是经济学
2.计量经济学包括的范畴:古典方法(最小二乘、广义最小二乘、工具变量、加权最小二乘),极大似然估计,矩估计;参数法,半参数法;离散数据,受限因变量,面板数据。
3.计量方法验证结果不等同于正确,结果符合理论假设,构建模型符合经济理论的意义,才能认为结果是正确的。
4.计量经济学存在天然的缺陷:卢卡斯批判。
二、计量经济模型的形式和构建:
1.模型构建受限于数学和统计学的发展
2.模型构建必须符合经济理论上的意义
3.计量经济学模型表现的仅仅是数据中包含的信息之间的相关特征,而不是确切的现实世界,更加不是完全正确的结论。
4.模型估计属于技术范畴,模型解释和检验则更加依托于对经济理论的把握,不能过度解释,更加不能解释不足。
进行经济计量分析时,我们将首先通过经济理论来指定变量之间精确的和确定性的关系,然后利用模型方法经验地探索这些估计,再通过适当的检验判断估计的准确性,最后使用这样的模型来推断和判断经济行为。
无论当前的经济计量分析多么复杂,仍然大都从线性回归模型(linear regression model)开始进行分析。因此多元线性模型可以作为经济计量分析的基石。线性模型的估计方法可以推广到更为广泛的模型当中。
§1.1 线性回归模型
多元线性回归模型主要用于研究一个相依变量与一个或者多个独立变量之间的关系。线性模型的一般形式是:
(1.1)
这里是相依变量(dependent variable)或者被解释变量(explained variable),是独立变量(independent variable)或者解释变量(explain variable)。一些理论将有助于指定函数的形式,这个函数通常称为基于的母体回归方程(population regression equation) 母体回归方程是相对于样本回归方程而言的,利用样本替代后的函数称为样本回归方程。
。被称为随机扰动项(random disturbance),如此定义是因为它是对原本稳定关系的扰动。
随机扰动项的出现主要有下述原因:首先,无论模型是多么精美,也无法完全表示穷尽对经济变量的各种影响,因此它们被忽略掉的因素所产生的净影响便体现在扰动项中;其次,在经验模型中还有很多对随机扰动产生影响的因素,其中最为显著的可能是模型度量的误差。虽然我们可能在理论上很容易地得到变量之间准确的关系,但是却很难获得这些变量准确和合理的度量;更为困难的是,可能一些理论上的变量在现实中难以寻求到对应的观测数据。
假设样本观测值是由下述潜在的过程生成的:
, (1.2)
这里观测值由两部分组成,一部分是确定性成分,另一部分是随机误差,我们的目的是:
(1) 利用数据估计模型中的未知参数;
(2) 利用数据检验理论命题的正确性;
(3) 利用模型去推断或者预测变量。
显然,这里所做的一切都依赖我们对于数据生成过程所做出的假设。
§1.2 古典线性回归模型的假设
古典线性模型涉及到一些数据如何被潜在的数据生成过程产生的假设。这些描述模型形式和变量之间联系的假设可以有助于对模型进行有效的估计和推断。
一般情形下,古典线性回归模型要求下述假设:
假设1 线性假设(linearity):模型要求相依变量和独立变量之间的线性关系。
假设2 满秩(full rank):模型解释变量当中不存在确切的线性关系,这个条件也是模型参数估计所要求的必要条件。
假设3 解释变量的外生性 (exogeneity of independent variables): 这要求随机误差项满足:,即样本中观测值处扰动的期望值不是其他观测值中独立变量的函数,也包括本身的观测值。这意味着独立变量当中没有包含任何用于推断的有用信息,即随机误差是与解释变量无关的。
假设4 同方差性和非自相关性 (homoscedasticity and nonautocorrelation):这需要假设每个扰动项都具有相同的方差,并且与其他扰动项不相关。这个假设限制了模型的一般性,在后来的非经典经济计量模型,大都放松这个要求而处理条件异方差情形。
假设5 外生的生成数据 (exogenously generated data):这意味着解释变量中的数据可以是常数和随机变量的混合数据。这些数据的生成过程处于模型的整体假设之外,也就是独立变量的生成过程与随机误差的生成过程是独立的。这样的假设推广了假设3,这时的分析是基于的观测值的条件上的。
假设6 正态分布 (normal distribution) 即假设扰动项是服从正态分布的。
下面我们需要详细分析上述假设及其启示。
§1.2.1 回归模型的线性(linearity of the regression model)
如果获得了变量的观测值或者样本值,则可以将线性模型表示为列向量形式:
(1.2)
其中黑体符号表示列向量,表示第i个解释变量的n个观测值构成的向量。线性模型具有多种表示方式,有单方程的表示方式,有解释变量列向量的表示方式,有解释变量矩阵和参数向量的表示方式,大家需要对各种方式有清楚的认识。
进一步可以将线性模型表示为矩阵形式:
(1.3)
写成矩阵形式为:
一般情况下可以假设数据矩阵的第一列均为1,则所对应的参数便是模型中的常数。我们主要的目的在于估计和推断模型中的未知参数向量。因此模型的线性假设要求:模型关于未知参数是线性的(或者变换后是线形的),同时具有可加的随机扰动(或者变换后是可加的)。例如下述模型则是线性的(方程两端取对数则变为线性的):
而下述模型则不是线性的,因为无法通过变化满足线性的两个基本要求(关于参数线性和关于随机扰动可加):
理解线性模型的关键在于,所谓的线性并不是指独立变量之间的关系是线性,而是关于参数和随机扰动是线性的,因此下述模型都是线性模型:
;;;
在关于解释变量非线性的线性模型中,一些具有代表性的模型有:
(1) 对数线性模型(loglinear model)
这个模型的一个著名特点是变量之间具有常数弹性形式。例如变量相对于变量的弹性系数为:,该系数不随改变。
(2) 半对数模型(semi-log model)
这个模型经常用于描述增长率过程,显然的增长率为:。
更为一般的线性模型形式为:
(1.4)
这样的模型是相当丰富的,而每一种这样的模型形式都符合线性函数的定义。上述线性模型的广义形式可以用做判断线性模型的标准。
(3) 转移对数模型(trans-log model)
一些线性模型可以认为是某些未知的潜在函数的逼近。这时函数可以允许具有变化形式(flexible functional form)。假设潜在函数形式为:,通过变换可以将这个函数表示为:
现可以围绕点将上述函数进行二阶Taylor展开,得到:
由于在固定点展开,可以将上述模型表示为:
显然上述模型是很多潜在函数的逼近,同时也是对数线性模型的推广。另外,如果函数关于变量二阶连续可微的,则对系数存在对称限制:,这一点在以后的检验中还会遇到。
§1.2.2 回归模型中独立变量的满秩性(full rank)
满秩性要求变量之间不存在线性相关性,这要求:
(1.5)
因此独立变量构成的样本矩阵是一个列满秩矩阵,这要求数据矩阵的各列(各个样本观测值向量)是线性无关的,同时也要求样本数量不小于参数数量,即。这个条件也被称为可识别条件(identification condition)。我们可以通过下面的例子了解可识别性的含义。
例1.1 假设模型结构为:
(1.6)
其中是消费变量,是非劳动收入,是劳动收入,是总收入(非劳动收入和劳动收入之和,即)。显然,这个模型的度量变量之间存在确定的线性关系。假设:
,,
这里是任意常数。将其代入到模型中,得到:
(1.7)
显然,即使方程(1.6)和(1.7)的回归系数存在常数差别,但是我们无法从模型结构上去识别它们的差别,也就是说我们无法估计模型的参数,这个时候我们称模型是不可识别的。
§1.2.3 回归性(regression)
我们假设随机扰动在给定的每个观测值的条件下,其预期值为零。这个时候我们可以将假设3表示为:
(1.8)
这是一个相当强的假设条件,意味着独立变量数据观测值中没有包含任何关于随机误差的信息,不仅不同样本之间没有信息传导,即使相同样本之间也不存在信息转移。这就相当于假设随机扰动是单纯地从某个母体中产生的,而这个母体与独立解释变量无关。
条件均值是0也意味着无条件均值也是0,这是因为:
又因为对每个,有:
则假设3意味着,对所有样本,都有
(1.9)
需要注意的是,对于包含常数项的线性模型来说,假设误差是零均值的假设不是十分关键和必须的。这时即使误差的均值不为零,我们也可以通过平移,将其多余部分归结到常数项中,从而使得新的误差项的均值为零。但是,对于没有常数项的线性模型来说,则需要假设误差项的均值为零,否则无法进行必要的平移。因此,除非得到确切的理论支持,一般都假设线性模型当中存在常数项。
假设3也意味着:
(1.10)
到此为止,我们知道假设1、假设2和假设3一起构成了线性回归模型,即基于的回归是条件均值。但是,如果假设3不成立,这个条件均值就不一定是线性函数。这里我们有必要认真体会“回归”的含义。
对于回归性,上述论述告诉我们,所谓的回归是指在给定信息或者变量条件下,如果推断相依变量的条件均值,因此回归是指回归到条件均值上。
§1.2.4 球状扰动(spherical disturbances)
第4个假设涉及到扰动项的方差(variance)和协方差(covariance),根据这些假设可以得到:
, (1.11)
并且:
,对所有 (1.12)
常数方差通常被称为是同方差性(homoscedasticity)。但是,经济当中经常存在异方差现象,例如某种工业中的企业利润是规模的函数,我们经常会发现,较大企业的利润会体现更为明显的波动性,而较小企业的利润则体现出较小的波动性。这种情形就是以后我们加以讨论的异方差性(heteroscedasticity)。
样本之间的不相关性一般被称为非自相关性(nonautocorrelation)。目前已经有大量的文献和研究讨论样本和误差项之间所出现的序列自相关性(autocorrelation)。
讨论误差向量的协方差矩阵,可以得到:
(1.13)
类似地,也可以得到无条件方差矩阵:
(1.14)
一般情形下,我们称具有同方差和非自相关性的随机扰动为球状扰动。
§1.2.5 回归变量的数据生成过程
一般情况下可以假设独立变量是非随机变量,例如在实验情形下是先选择各种解释变量的数值,然后通过实验来观测被解释变量。例如在农业生产中,解释变量可能是化肥的使用量和灌溉的用水量,而被解释变量则是农田的产量。这样将解释变量的观测值当作常数,在数学处理上非常方便。
但是,社会学家很少有机会去分析实验数据,也很少有机会将模型建立在非随机的回归因子(regressor)上。因此,更为现实的做法是假设也是随机向量,这样一来,前面的假设就都涉及到联合概率分布的问题。这时假设3是十分关键的,即假设和是不相关的。这时假设的确切含义就是:第4个假设涉及到扰动项的方差(variance)和协方差(covariance),根据这些假设可以得到:
可能是固定的或者随机的,但是它的产生机制与无关。
§1.2.6 正态性(normality)
一般情况下,我们假设随机扰动是服从正态分布的,这时在假设3和假设4的基础上,可有:
(1.15)
注意到我们对随机扰动项来源的描述,一般情形下中心极限定理能够得到应用,因此正态性假设是一个比较合理的假设。在正态性假设下的一个重要应用是,只要判断随机误差是不相关的,则可以推断它们之间是独立的。但是,正态性也通常认为是回归模型中不必要甚至是不合适的一种要求。因此,我们在一些讨论中放松分布服从正态性的限制。
对于大量的金融时间序列而言,其概率分布已经与经典正态分布所要求的“单峰对称性”要求有所偏离,因此,在随机误差服从其他类型分布的研究正在深入展开。
5
展开阅读全文