1、1主要内容n回归分析概述 n双变量线性回归模型的参数估计 n双变量线性回归模型的假设检验n双变量线性回归模型的预测n案例22.12.1 回归分析概述回归分析概述一、变量间的关系及回归分析的基本概念二、总体回归函数(PRF)三、随机扰动项四、样本回归函数(SRF)3一、变量间的关系及回归分析的基本概念一、变量间的关系及回归分析的基本概念1.1.变量间的关系变量间的关系(1)确定性关系确定性关系或函数关系函数关系:研究的是确定现象非随机变量间的关系。n一个(或多个)变量的变化能完全决定另一个变量的变化:n利息率一定,存入本金与到期本息 4n存在密切联系但并非完全决定n居民收入与消费密切相关,但不能
2、完全决定消费n广告费支出与销售额密切相关,但不能完全决定销售额(2)统计依赖)统计依赖或相关关系(相关关系(非确定性关系):):研究的是非确定现象随机变量间的关系。5 回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。其用意:在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。这里:前一个变量被称为被解释变量(Explained Variable)或因变量(Dependent Variable),后一个(些)变量被称为解释变量(Explanatory Variable)或自变量(Independent Variab
3、le)。2 2、回归分析的基本概念、回归分析的基本概念6 回归分析构成计量经济学的方法论基础,其主要内容包括:n根据样本观察值对经济计量模型参数进行估计,求得回归方程;回归方程;n对回归方程、参数估计值进行检验;n利用回归方程进行分析、评价及预测。7二、总体回归函数二、总体回归函数n回归分析回归分析关心的是根据解释变量的已知或关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。89n在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线总体回归线(populati
4、on regression line),或更一般地称为总体回归曲线总体回归曲线(population regression curve)。称为(双变量)总体回归函数总体回归函数(population regression function,PRF)。相应的函数:10n含义:含义:回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。函数形式:函数形式:可以是线性或非线性的。如,将居民消费支出看成是其可支配收入的线性函数时:为一线性函数。线性函数。其中,0,1是未知参数,称为回归系数回归系数(regression coefficients)。11三、随机扰动项三、随
5、机扰动项n总体回归函数说明在给定的收入水平Xi下,家庭平均的消费支出水平。n但对某一个别的家庭,其消费支出可能与该平均水平有偏差。n称为观察值围绕它的期望值的离差离差(deviation),是一个不可观测的随机变量,又称为随随机干扰项机干扰项(stochastic disturbance)或随机误差随机误差项项(stochastic error)。12nE(Y|Xi)称为系统性(系统性(systematic)或确定性确定性(deterministic)部分;部分;其他为随机随机或非确定性非确定性(nonsystematic)部分部分ui。13 称为总体回归函数(PRF)的随机设定形式。表明被解
6、释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。14n随机误差项主要包括下列因素:随机误差项主要包括下列因素:n在解释变量中被忽略的因素的影响;n变量观测值的观测误差的影响;n模型关系的设定误差的影响;n其他随机因素的影响。n随机干扰项的意义 n将各种次要变量作了综合处理,保证了分析的可操作性。15四、样本回归函数(四、样本回归函数(SRF)n问题:问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?n例:例:在总体中有如下一个样本,能否从该样本估计总体回归函数PRF?家庭消费支
7、出与可支配收入的一个随机样本家庭消费支出与可支配收入的一个随机样本 Y 800 1100 1400 1700 2000 2300 2600 2900 3200 3500 X 594 638 1122 1155 1408 1595 1969 2078 2585 2530 该样本的散点图散点图(scatter diagram):n 画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该直线近似地代表总体回归线。该直线称为样本回归线样本回归线(sample regression lines)。)。17n 记样本回归线的函数形式为:称为样本回归函数样本回归函数(sample regression f
8、unction,SRF)。18样本回归函数的随机形式样本回归函数的随机形式/样本回归模型:样本回归模型:样本回归函数也有如下的随机形式:由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型样本回归模型(sample regression model)。式中,ie称为(样本)残差(样本)残差(或剩余剩余)项项(residual),代表了其他影响iY的随机因素的集合,可看成是 的估计量。回回归归分分析析的的主主要要目目的的:根据样本回归函数SRF,估计总体回归函数PRF。根据 估计202.2 2.2 双变量线性回归模型的参数估计双变量线性回归模型的参数估计 一、参数的普通最小二乘估计(
9、一、参数的普通最小二乘估计(OLSOLS)二、双变量线性回归模型的基本假设二、双变量线性回归模型的基本假设三、最小二乘估计量的性质三、最小二乘估计量的性质 四、参数估计量的概率分布及随机干四、参数估计量的概率分布及随机干 扰项方差的估计扰项方差的估计 22n回归分析的主要目的回归分析的主要目的是要通过样本回归函数(模型)SRF尽可能准确地估计总体回归函数(模型)PRF。n估计方法估计方法有多种,其中最广泛使用的是普通最普通最小二乘法小二乘法(ordinary least squares,OLS)。n为保证参数估计量具有良好的性质,通常对模型提出若干基本假设。n实际这些假设与所采用的估计方法紧密
10、相关。23一、参数的普通最小二乘估计(一、参数的普通最小二乘估计(OLSOLS)给定一组样本观测值(Xi,Yi)(i=1,2,n)要求样本回归函数尽可能好地拟合这组值.普通最小二乘法普通最小二乘法(Ordinary least squares,OLS)给出的判断标准是:二者之差(残差)的平方和最小。24最小二乘法的思路n为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(做到全面)。nY与X之间是否是直线关系(用协方差或相关系数判断)?若是,可用一条直线描述它们之间的关系。n在Y与X的散点图上画出直线的方法很多。n找出一条能够最好地描述Y与X(代表
11、所有点)之间的直线。问题是:怎样算“最好”?n最好指的是找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小。25最小二乘法的思路yx纵向距离横向距离距离A为实际点,B为拟合直线上与之对应的点26最小二乘法的思路n纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。n将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。n于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。27YX0*Y7Y9Min数学形式28得到的参数估计量可以写成:称为OLS估计量的离差形
12、式离差形式(deviation form)。)。由于参数的估计结果是通过最小二乘法得到 的,故称为普通普通最小二乘估计量最小二乘估计量(ordinary least squares estimators)。其中 例例2:在上述家庭可支配收入可支配收入-消费支出消费支出例中,对于所抽出的一组样本数,参数估计的计算可通过下面的表进行。30因此,由该样本估计的回归方程为:31n模型解释变量和误差项模型解释变量和误差项ui的的假定条件假定条件如下如下:(1)ui 是一个随机变量,是一个随机变量,ui 的取值服从概率分布。的取值服从概率分布。(2)E(ui)=0。(3)ui 具有同方差性。具有同方差性。
13、D(ui)=Eui-E(ui)2=E(ui)2=2。(4)ui为正态分布(根据中心极限定理)。为正态分布(根据中心极限定理)。以上以上四个假定条件四个假定条件可作如下表达。可作如下表达。ui N(0,)二、线性回归模型的基本假设二、线性回归模型的基本假设32 (5)ui 非自相关。非自相关。Cov(ui,uj)=E(ui-E(ui)(uj-E(uj)=E(ui,uj)=0,(i j)。(6)xi是非随机的。是非随机的。(7)ui 与与xi 相互独立。相互独立。Cov(ui,xi)=E(ui-E(ui)(xi-E(xi)=Eui(xi-E(xi)=Eui xi-ui E(xi)=E(ui xi)
14、=0.(8)对于多元线性回归模型,解释变量之间不能完全对于多元线性回归模型,解释变量之间不能完全 相关或高度相关(非多重共线性)。相关或高度相关(非多重共线性)。在假定(在假定(1),(),(2),(,(6)成立条件下有)成立条件下有 E(yi)=E(0+1 xi+ui)=0+1 xi33n同方差34n异方差35 三、最小二乘估计量的性质三、最小二乘估计量的性质 当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。一个用于考察总体的估计量,可从如下几个方面考察其优劣性:(1)线性)线性,即它是否是另一随机变量的线性函数;36(2)无偏性)无
15、偏性,无偏性意味着这两个估计量没有高估或低估的系统倾向。即估计量的均值或期望值是否等于总体的真实值;37(3)有效性)有效性,即估计量在所有线性无偏估计量中具有最小方差。n含义:估计量方差与随机项方差、自变量取值范围、样本量等有关。38n这三个准则也称作估计量的小样本性质。小样本性质。拥有这类性质的估计量称为最佳线性无偏估计量最佳线性无偏估计量(best liner unbiased estimator,BLUE)。高斯高斯马尔可夫定理马尔可夫定理(Gauss-Markov theorem)在在给给定定经经典典线线性性回回归归的的假假定定下下,最最小小二二乘乘估估计计量是具有最小方差的线性无偏
16、估计量。量是具有最小方差的线性无偏估计量。39 四四、参数估计量的概率分布及随机干扰、参数估计量的概率分布及随机干扰项方差的估计项方差的估计 402.随机误差项随机误差项u的方差的方差 2的估计的估计 2又称为总体方差总体方差。u 由于随机项ui不可观测,只能从ui的估计残差ei出发,对总体方差进行估计。2的最小二乘估计量最小二乘估计量为它是关于2的无偏估计量。41422.3 2.3 双变量线性回归模型的统计检验双变量线性回归模型的统计检验 一、拟合优度检验一、拟合优度检验 二、变量的显著性检验二、变量的显著性检验 三、参数的置信区间三、参数的置信区间 43 如果Yi=i 即实际观测值落在样本
17、回归“线”上,则拟合最好拟合最好。44 对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:即 TSS=ESS+RSS45TSS=ESS+RSS总体平方和总体平方和(Total Sum of Squares)回归平方和回归平方和(Explained Sum of Squares)残差平方和残差平方和(Residual Sum of Squares)46 Y的观测值围绕其均值的总离差的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自可分解为两部分:一部分来自回归线回归线(ESS),另一部分则来自随机势力,另一部分则来自随机势力(RSS)。n在给定样
18、本中,TSS不变,n如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此n拟合优度:回归平方和拟合优度:回归平方和ESS/Y的总离差的总离差TSS472、判定系数、判定系数R2 2统计量统计量 称 R2 为(样本)(样本)判定系数判定系数/可决系数可决系数(coefficient of determination)。判定系数判定系数的取值范围取值范围:0,1 R2 2越接近越接近1 1,说明实际观测点离,说明实际观测点离样本线样本线越近,越近,拟合优度越高拟合优度越高。48拟合优度(或称判定系数、决定系数)n判定系数只是说明列入模型的所有解释变量对应变量的联合的影响程度,不说明
19、模型中单个解释变量的影响程度。n对时间序列数据,判定系数达到0.9以上是很平常的;但是,对截面数据而言,能够有0.5就不错了。49判定系数达到多少为宜?n没有一个统一的明确界限值;n若建模的目的是预测应变量值,一般需考虑有较高的判定系数。n若建模的目的是结构分析,就不能只追求高的判定系数,而是要得到总体回归系数的可信任的估计量。判定系数高并不一定每个回归系数都可信任;50 二、变量的显著性检验二、变量的显著性检验 回归分析回归分析是要判断解释变量解释变量X是否是被解释被解释变量变量Y的一个显著性的影响因素。在双变量线性模型双变量线性模型中,就是要判断X是否对Y具有显著的线性影响。这就需要进行变
20、量的显著变量的显著性检验。性检验。变量的显著性检验所应用的方法是数理统计学变量的显著性检验所应用的方法是数理统计学中的中的假设检验假设检验。计量经济学中计量经济学中,主要是针对变量的参数真值是,主要是针对变量的参数真值是否为零(?)来进行显著性检验的。否为零(?)来进行显著性检验的。51 1、假设检验、假设检验 n 所谓假设检验假设检验,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否“接受”或否定原假设。52n假设检验采用的逻辑推理方法是反证法假设检验采用的逻辑推理方法是反证法 先假定原假设正确,然后根据样
21、本信息,观察由此假设而导致的结果是否合理,从而判断是否接受原假设。n判断结果合理与否,是基于判断结果合理与否,是基于“小概率事件不易小概率事件不易发生发生”这一原理的这一原理的53 2、变量的显著性检验、变量的显著性检验 54 检验步骤:检验步骤:(1)对总体参数提出假设 H0:1=0,H1:10(2)以原假设H0构造t统计量,并由样本计算其值(3)给定显著性水平,查t分布表得临界值t/2(n-2)(4)比较,判断 若|t|t/2(n-2),则拒绝H0,接受H1;若|t|t/2(n-2),则拒绝H1,接受H0;55 假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但
22、它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。三、参数的置信区间三、参数的置信区间 要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数的区间估计区间估计。如果存在这样一个区间,称之为置置信信区区间间(confidence interval);1-称为置置信信系系数数(置置信信度度)(confidence coefficient),称为显显著著性性水水平平(level of significance);置信区间的端点称为置置信信限限(co
23、nfidence limit)或临界值临界值(critical values)。57/2/21-图示如下58双变量线性模型中双变量线性模型中,i(i=1,2)的置信区间的置信区间:在变量的显著性检验中已经知道:意味着,如果给定置信度(1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-t/2,t/2)的概率是(1-)。表示为:即59于是得到:(1-)的置信度下,i的置信区间是 在上述收入收入-消费支出消费支出例中,如果给定=0.01,查表得:由于于是,1、0的置信区间分别为:(0.6345,0.9195),(-433.32,226.98)60n由于置信区间一定程度地给出了样本参数
24、估计值与总体参数真值的“接近”程度,因此置信区间越小越好。n要缩小置信区间,需要n增大样本容量增大样本容量n。因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;n提高模型的拟合优度。提高模型的拟合优度。因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。612.4 2.4 双变量线性回归分析的应用:预测问题双变量线性回归分析的应用:预测问题 一、一、0 0是条件均值是条件均值E(Y|X=X0)或个值或个值Y0的一个无偏估计的一个无偏估计二、总体条件均值与个值预测值的置信二、总体条件均值与个值预测值的置信区
25、间区间62 对于双变量线性回归模型 给定样本以外的解释变量的观测值X0,可以得到被解释变量的预测值0 0,可以此作为其条件均条件均值值E(Y|X=X0)或个别值个别值Y0的一个近似估计。严格地说,这只是被解释变量的预测值的估计值,而不是预测值。原因:(1)参数估计量不确定 (2)随机项的影响63 二、总体条件均值与个值预测值的置信区间二、总体条件均值与个值预测值的置信区间 1、总体均值预测值的置信区间、总体均值预测值的置信区间 由于 于是64于是,在1-的置信度下,总体均值总体均值E(Y|X0)的置的置信区间为信区间为 其中652、总体个值预测值的预测区间、总体个值预测值的预测区间 由 Y0=
26、0+1X0+u 知:于是 式中:从而在1-的置信度下,Y0的置信区间的置信区间为 66 总体回归函数的置信带(域)置信带(域)(confidence band)个体的置信带(域)置信带(域)67 对于Y的总体均值E(Y|X)与个体值的预测区间(置信区间):(1)样本容量n越大,预测精度越高,反之预测精度越低;(2)样本容量一定时,置信带的宽度当在X均值处最小;X越远离其均值,置信带越宽,预测可信度下降。用回归模型预测木材剩余物用回归模型预测木材剩余物n伊春林区位于黑龙江省东北部,有森林面积219万公顷,木材蓄积量为2.3亿m3。森林覆盖率为62.5%,是我国主要的木材工业基地之一。1999年伊
27、春林区木材采伐量为532万m3。按此速度44年之后,1999年的蓄积量将被采伐一空。n为缓解森林资源危机,并解决部分职工就业问题,除了做好木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。2.5 2.5 案例:案例:林业局名年木材剩余物yt(万m3)年木材采伐量xt(万m3)乌伊岭26.1361.4东风23.4948.3新青21.9751.8红星11.5335.9五营7.1817.8上甘岭6.8017.0友好18.4355.0翠峦11.6932.7乌马河6.8017.0美溪9.6927.3大丰7.9921
28、.5南岔12.1535.5带岭6.8017.0朗乡17.2050.0桃山9.5030.0双丰5.5213.8合计202.87532.00观测点近似服从线性关系。观测点近似服从线性关系。建立一元线性回归模型如下:建立一元线性回归模型如下:yi=0+1 xi+ui年剩余物年剩余物yi和年木材采伐量和年木材采伐量xi散点图散点图分析分析EViews输出结果。输出结果。=-0.7629+0.4043 xi (-0.6)(12.1)R2=0.91,T=16上述模型的上述模型的经济解释经济解释是,对于是,对于伊春林区每采伐伊春林区每采伐1 m3木材,木材,将平均产生将平均产生0.4 m3的剩余物。的剩余物
29、。73讨论讨论1 1:判断下列表达式是否正确:判断下列表达式是否正确7475参数的经济含义。回归模型的残差平方和很大,说明拟合效果很差。讨论讨论2:76小结n回归分析含义 n双变量线性回归模型的参数估计 n双变量线性回归模型的假设检验n双变量线性回归模型的经济含义n双变量线性回归模型的预测求和算子n采用代表变量各个观测值的和:n下面是一些求和算子的运算法则:高高 斯斯 马马 尔尔 可可 夫夫 定定 理理(Gauss-Markov theorem)在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。证:证:易知故同样地,容易得出(2)证明最小方差性其中,ci=ki+di,di为不全为零的常数则容易证明 普通最小二乘估计量普通最小二乘估计量(ordinary least Squares Estimators)称为最佳线性无偏估计量最佳线性无偏估计量(best linear unbiased estimator,BLUE)由于最小二乘估计量拥有一个由于最小二乘估计量拥有一个“好好”的估计量所的估计量所应具备的小样本特性,它自然也拥有大样本特性应具备的小样本特性,它自然也拥有大样本特性。