第二章-简单线性回归模型.ppt

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,ECONOMETRICS,第二章简单线性回归模型,本章主要讨论,:,回归分析与回归函数,简单线性回归模型参数的估计,拟合优度的度量,回归系数的区间估计和假设检验,回归模型预测,1,第一节回归分析与回归方程,本节基本内容,:,回归与相关,总体回归函数,随机扰动项,样本回归函数,2,1.,经济变量间的相互关系,确定性的函数关系,不确定性的统计关系,相关关系,(,为随机变量,),没有关系,一、回归与相关,3,2.,相关关系,相关关系的描述,相关关系最直观的描述方式,坐标图（散布图）,4,相关关系的类型,从涉及的变量数量看,简单相关多重相关（复相关）,从变量相关关系的表现形式看,线性相关,散布图接近一条直线,非线性相关,散布图接近一条曲线,从变量相关关系变化的方向看,正相关,变量同方向变化，同增同减,负相关,变量反方向变化，一增一减,5,相关程度的度量,相关系数,总体线性相关系数：,其中：,X,的方差；,Y,的方差,X,和,Y,的协方差,样本线性相关系数：,其中：和分别是变量,和的样本观测值,和分别是变量和样本值的平均值,6,和都是相互对称的随机变量,线性,相关系数只反映变量间的线性相关程度，不,能说明非线性相关关系,样本相关系数是总体相关系数的样本估计值，由,于抽样波动，样本相关系数是个随机变量，其统,计显著性有待检验,相关系数只能反映线性相关程度，不能确定因果,关系，不能说明相关关系具体接近哪条直线,计量经济学关心：变量间的因果关系及隐藏在随机性后面的统计规律性，这有赖于回归分析方法,使用相关系数时应注意,7,3.,回归分析,回归的,古典意义,：,高尔顿（,Francis Galton,）,遗传学的普遍回归规律：相对于一定身高的父母，子女的平均身高有朝向人类平均身高回归的趋势。,8,图：对于给定父亲身高的子女身高分布,子,女,身,高,父,亲,身,高,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,9,回归的,现代意义,：,一个应变量对若干解释变量,依存关系的研究,回归的,目的（实质）,：,由固定的解释变量去,估计应变量的平均值,10,回归与相关的联系,回归分析是在相关分析和因果关系分析的基础上去研究解释变量对因变量的影响。,相关分析中相关系数的确定是建立在回归分析基础上的。,11,回归与相关的区别,研究目的：回归分析根据解释变量的固定值去估计和预测因变量的平均值。,相关分析用一定的数量指标度量变量之间的联系程度。,对变量处理：回归分析在因果关系基础上研究解释变量对因变量的影响，因变量是随机的，解释变量是固定的。,相关分析中，对称地对待任何变量，因变量和解释变量都是随机的。,12,的,条件分布,当解释变量,取某固定值时（条件），,的值不确定，,的不同取值形成一定的分布，即,的条件分布。,的,条件期望,对于,的每一个取值，,对,所形成的分布确,定其期望或均值，称,为,的条件期望或条,件均值,注意几个概念,13,回归线,:,对于每一个,的取值，,都有,的条件期望,与之对应，,代表这些,的条件期,望的点的轨迹所形成,的直线或曲线，称为,回归线。,回归线与回归函数,14,回归函数：,应变量的条件期望随解释变量的的变化而有规律的变化，如果把,的条件期望表现为的某种函数,这个函数称为回归函数。,回归函数分为：,总体回归函数和样本回归函数,举例：假如已知,55,个专业构成的总体。,回归线与回归函数,15,价格,X,单位（元）,5,10,15,20,25,30,35,40,45,50,85,84,80,75,76,72,72,71,68,69,86,85,82,78,79,75,74,72,70,70,87,86,84,82,80,77,76,73,72,71,需,88,87,86,84,82,78,78,74,74,89,88,88,86,83,79,80,75,76,求,90,87,82,76,91,83,77,量,Y,消费者数量,7,5,5,6,5,7,5,7,5,3,88,86,84,82,80,78,76,74,72,70,例,:55,个专业对,计量经济学,教材的需求,16,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,散布图,17,1.,总体回归函数的概念,前提：假如已知所研究的经济现象的总体应变量,和解释变量,的每个观测值,可以计算出总体应变量,的条件均值,，,并将其表现为解释变量,的某种函数,这个函数称为总体回归函数（,PRF,）,二、总体回归函数,（,PRF,）,18,（,1,）,条件均值,表现形式,假如,的条件均值是解,释变量,的线性函数，可表示为：,（,2,）,个别值,表现形式,对于一定的，,的各个别值分布,在的周围，若令各个与条件,均值的偏差为,显然是随机变量,则有,或,2.,总体回归函数的表现形式,19,实际的经济研究中总体回归函数通常是未知的，只能根据经济理论和实践经验去设定。,“,计量,”,的目的就是寻求,PRF,。,总体回归函数中,与,的关系可是线性的，也可是非线性的。,对线性回归模型的,“,线性”有两种解释,就变量而言是线性的,的条件均值是,的线性函数,就参数而言是线性的,的条件均值是参数,的线性函数,3.,如何理解总体回归函数,20,变量、参数均为“线性”,参数“线性”，变量”非线性”,变量“线性”，参数”非线性”,计量经济学中,:,线性回归模型主要指就参数而言是,“,线性,”,因为只要对参数而言是线性的,都可以用类似的方法估计其参数。,“,线性,”,的判断,21,三、随机扰动项,概念,:,各个值与条件均值,的偏差代表,排除在模型以外的所有,因素对,的影响。,性质：是期望为,0,有一定分布的随机变量,重要性：随机扰动项的性质决定着计量经济方,法的选择,22,随着家庭收入的增加，家庭消费支出平均地说也增加，但对某一个家庭而言，两者的关系如何？由于受随机因素的影响，对各个家庭而言,Y,i,变化趋势并不相同，消费支出围绕其条件期望上下波动,此时，,Y,i,可以表示如下,：,系统性,systematic,或确定性成份,deterministic,随机干扰或随机误差项，非系统性成份,nonsystematic,23,例,2.1,中，给定收入水平,X,i,，,个别家庭的支出可表示为两部分之和：（,1,）该收入水平下所有家庭的平均消费支出,E(Y|X,i,),，,称为系统性或确定性部分；（,2,）其他随机或非确定性部分,u,i,。,称为总体回归函数（,PRF,）,的随机设定形式。表明被解释变量除了受解释变量的系统性影响外，还受其他因素的随机性影响。由于方程中引入了随机项，成为计量经济学模型，因此也称为总体回归模型。,24,随机误差项的意义,:,干扰项是从模型中省略下来的而又集体影响着,Y,的全部变量的替代物，代表除解释变量,X,以外其他所有没有列出的变量对因变量的影响。影响,Y,的其他变量要么不知要么知而不确,.,未知,影响因素的代表,无法取得数据,的已知影响因素的代表,众多细小影响因素,的综合代表,模型的,设定误差,变量的,观测误差,变,量内在,随机性,引入随机扰动项的原因,25,四、样本回归函数,（,SRF,）,总体回归函数实际是未知的，需要通过对样本观测获得的信息去估计总体回归函数。,样本回归线,：,对于的一定值，取得的样本观测值，可计算其条件均值，样本观测值条件均值的轨迹称为样本回归线。,样本回归函数：,如果把应变量的样本条件均值表示为解释变量,的某种函数，这个函数称为样本回归函数（,SRF,）,。,26,SRF,的特点,每次抽样都能获得一个样本，就可以拟合一条样本回归线，所以样本回归线随抽样波动而变化，可以有许多条,（,SRF,不唯一）。,SRF2,SRF1,27,样本回归函数的函数形式应与设定的总体回归函数的函数形式一致。,样本回归线还不是总体回归线，至多只是未知总体回归线的近似表现。,28,样本回归函数如果为线性函数，可表示为,其中：是与相对应的的样本条件均值,和分别是样本回归函数的参数,应变量的实际观测值不完全等于样本条件,均值，二者之差用表示，,称为,剩余项或残差项,：,代表了其他影响的随机因素的集合,样本回归函数的表现形式,29,为样本回归函数的随机形式,由于方程中引入了随机项，成为计量经济模型，因此也称为,样本回归模型,（,sample regression model,）,。,30,对样本回归的理解,如果能够获得和的数值，显然,:,和是对总体回归函数参数和的估计,是对总体条件期望的估计,在概念上类似总体回归函数中的，可,视为对的估计。,PRF:,SRF:,31,样本回归函数与总体回归函数的关系,SRF,PRF,A,回归分析的主要目的就是根据样本回归函数估计总体回归函数,32,回归分析的目的,用样本回归函数,SRF,去估计总体回归函数,PRF,。,由于样本对总体总是存在代表性误差，,SRF,总会过,高或过低估计,PRF,。,要解决的问题：,寻求一种规则和方法，使得到的,SRF,的参数和,尽可能“接近”总体回归函数中的参数和。,这样的“规则和方法”有多种，最常用是最小二乘法,注意：这里,PRF,可能永远无法知道,33,第二节,简单线性回归模型的最小二乘估计,本节基本内容,:,简单线性回归的基本假定,普通最小二乘法,OLS,回归线的性质,参数估计式的统计性质,34,回归分析的主要目的是要通过样本回归函数（模型）,SRF,尽可能准确地估计总体回归函数（模型）,PRF,。,估计方法有多种，其中最广泛使用的是普通最小二乘法,（,ordinary least squares,，,OLS,）。,为保证参数估计量具有良好的性质，通常对模型提出若干基本假设。,实际这些假设与所采用的估计方法紧密相关。,35,一,、,简单线性回归的基本假定,1.,为什么要作基本假定？,模型中有随机扰动，估计的参数是随机变量，只有对随机扰动的分布作出假定，才能确定,所估计参数的分布性质，也才可能进行假设,检验和区间估计。,只有具备一定的假定条件，所作出的估计才,具有较好的统计性质。,36,（,1,）,对模型和变量的假定,如,假定解释变量是非随机的，在重复抽样中为固定值，或者虽然是随机的，但与扰动项,是不相关的,假定解释变量无测量误差,假定变量和模型无设定误差,2,、基本假定的内容,37,假定,1,：,零均值假定,在给定的条件下，的条件期望为零,假定,2,：,同方差假定,在给定的条件下，的条件方差为某个常数,（,2,）对随机扰动项,的假定,38,假定,3,：,无自相关假定,随机扰动项的逐次值互不相关,假定,4,：,随机扰动与解释变量不相关,39,假定,5,：,对随机扰动项分布的正态性假定,即假定服从均值为零、方差为的正态分布,（说明：正态性假定不影响对参数的点估计，但对确定所估计参数的分布性质是需要的。且根据中心极限定理，当样本容量趋于无穷大时，的分布会趋近于正态分布。所以正态性假定是合理的）,40,以上假设是德国数学家高斯最早提出，称为线性回归模型的,古典假定,或,高斯（,Gauss,）,假定,，满足以上假设的线性回归模型，也称为,古典线性回归模型,（,Classical Linear Regression Model,CLRM,）。,41,的分布性质,由于,的分布性质决定了的分布性质。,对的一些假定可以等价地表示为对的假定：,假定,6,：零均值假定,假定,7,：同方差假定,假定,8,：无自相关假定,假定,9,：正态性假定,42,OLS,的基本思想,不同的估计方法可得到不同的样本回归参数,和，所估计的也不同。,理想的估计方法应使与的差即剩余,越小越好,普通最小二乘法给出的判断标准是：残差平方和,最小。,因可正可负，所以可以取最小,即,二、普通最小二乘法,（,rdinary,Least Squares,）,43,根据微积分中求极值的原理，和应满足：,44,正规方程和估计式,用克莱姆法则求解得观测值形式的,OLS,估计式：,取偏导数为,0,，得正规方程,45,克莱姆,(Cramer),法则,二元,线性方程组：,解,为：,46,为表达得更简洁，或者用离差形式,OLS,估计式,：,注意其中：,用离差表现的,OLS,估计式,注意：,在计量经济学中，往往以小写字母表示某变量对其均值的离差。,47,48,49,例题：,对,计量经济学,教材需求,1,89,5,2,86,10,3,84,15,4,82,20,5,80,25,6,79,30,7,76,35,8,74,40,9,70,45,10,69,50,合计,50,求样本回归函数,求样本可决系数,r,2,总体方差,2,未知，,给定显著性水平,=0.05,，,对回归参数作区间估计,4.,进行假设检验,51,三、,OLS,回归线的性质,用普通最小二乘法拟合的,样本回归线有以下性质：,1),回归线通过样本均值,52,2,）估计值的均值等于实际观测值的均值,（其中）,53,3,）,剩余项的均值为零,54,4,）应变量估计值与剩余项不相关,55,5,）解释变量与剩余项不相关,56,残差和为零,自变量与残差不相关,平均数相等,拟合值与残差不相关,回归直线过,点,57,四、,参数估计式的统计性质,当模型参数估计出后，需考虑参数估计值的精度，即是否能代表总体参数的真值，或者说需考察参数估计量的统计性质。,一个用于考察总体的估计量，可从如下几个方面考察其优劣性：,（,1,）线性，即它是否是另一随机变量的线性函数；,（,2,）无偏性，即它的均值或期望值是否等于总体的真实值；,58,无偏性,(unbiased),如果,E,()=,成立，称为参数,的无偏估计，亦称具有无偏性。,如果,E,(),不等于,，称为,的有偏估计，其偏差,=,E,()-,无偏性的直观意义：,样本估计量的数值在真值周围摆动，即无系统误差。,59,（,3,）有效性，即它是否在所有线性无偏估计量中具有最小方差。,拥有这类性质的估计量称为最佳线性无偏估计量（,best liner unbiased estimator,，,BLUE,）。,高斯,马尔可夫定理,(Gauss-Markov theorem),在给定经典线性回归的假定下，最小二,乘估计量是具有最小方差的线性无偏估计量。,60,有效性（最小方差性）,设和,*,都是,的无偏估计量，若对任意的样本容量,n,，总有的方差小于,*,的方差，则称是比,*,有效的估计量。,如果在,的一切无偏估计量中，的方差达到最小，则称为,的有效估计量，亦称具有有效性。,无偏有效估计量的意义：一个无偏有效估计量的取值在可能范围内最密集于,附近。它以最大的概率保证估计量的取值在真值,附近摆动。,61,一致性,依概率收敛的定义,若存在常数,，,有,则称依概率收敛于。,一致性定义,若当,n,时，依概率收敛于,，,有,则称为参数,的一致估计量，具有一致性。,62,一致性意义,一个一致估计量比一个方差很大的无偏估计量优越得多。,一致性是从概率又是极限性质来定义的，因此只有样本容量较大时才起作用。,一致性作为评价估计量好坏的一个标准，计量经济学在无偏性和一致性之间更偏重选择一致性。,虽然一个一致估计量可能在平均意义上与真值不同，但是当样本容量加大时，它会变得与真值十分接近，即有偏的一致估计量具有大样本下的无偏性。根据大数定律，当增大时，方差会变得很小，即一致估计量具有大样本下的有效性。,63,1.,线性，即估计量、是的线性组合,证明：,64,证：,易知,故,:,同样地，容易得出,:,2.,无偏性，即估计量、的期望等于总体真值、。,65,（,1,）求、的方差,3.,有效性（最小方差性），即在所有线性无偏估计量,中，最小二乘估计量、具有最小方差。,66,67,（,2,）证明最小方差性,假设是其他估计方法得到的关于的线性无偏估计量,其中，,，,为不全为零的常数,则容易证明,普通最小二乘估计量,（,ordinary least Squares Estimators,）,称为,最佳线性无偏估计量,（,best linear unbiased estimator,BLUE,）,同理，可以证明的,OLS,估计具有最小方差。,68,证明最小方差性,69,证明最小方差性,70,随机误差项,的方差,2,的估计,在估计的参数和的方差表达式中，都含有随机扰动项的方差。又称总体方差。,由于实际上是未知的，因此和的方差实际上无法计算，这就需要对其进行估计。,71,由于随机项,不可观测，只能从,的估计,残差出发，对总体方差进行估计。,可以证明，,2,的最小二乘估计量为,它是关于,2,的无偏估计量。其中为自由度，所谓自由度是指统计量中可自由变化的样本观测值的个数，等于样本观测值个数减去对观测值的约束个数。,上式中样本观测值个数,约束条件有两个,:,所以自由度为。,72,在随机误差项的方差估计出后，参数,和的方差和标准差的估计量分别是：,73,OLS,估计式小结,由,OLS,估计式可以看出,由可观测的样本值和唯一表示。,因存在抽样波动，,OLS,估计是随机变量,OLS,估计式是点估计式,74,第三节,拟合优度的度量,本节基本内容,:,什么是拟合优度,总变差的分解,可决系数,75,一、什么是拟合优度,?,概念,：,样本回归线是对样本数据,的一种拟合，不同估计方,法可拟合出不同的回归线，,拟合的回归线与样本观测,值总有偏离。,样本回归线对样本观测数据拟合的优劣程度,拟合优度,拟合优度的度量建立在对总变差分解的基础上,76,二、总变差的分解,分析,Y,的观测值、估计值与平均值的关系,(,离差,),（被解释部分）（未被解释部分）,将上式两边平方加总，可证得,（,TSS,）（,ESS,）（,RSS,）,77,残差平方和（,Residual Sum of Squares,）,总离差平方和（,Total Sum of Squares,）,Y,的观测值围绕其均值的总离差,(total variation),可分解为两部分：一部分来自回归线,(ESS),，,另一部分则来自随机势力,(RSS),。,回归平方和（,Explained Sum of Squares,）,TSS=ESS+RSS,78,变差分解的图示,总离差：,来自残差,来自回归,0,79,三、可决系数,以,TSS,同除总变差等式两边：,或,定义：回归平方和（解释了的变差,ESS,）,在总变,差（,TSS,）,中所占的比重称为可决系数，用表示,:,或,80,作用：可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，,X,对,Y,的解释能力越强，模型拟合优度越好。反之可决系数小，说明模型对样本观测值的拟合程度越差。,特点：,可决系数取值范围：,随抽样波动，样本可决系数是随抽样而变动的随机变量，,对可决系数的统计可靠性也应进行检验,可决系数的作用和特点,81,可决系数与相关系数的关系,（,1,）联系,数值上，可决系数等于应变量与解释变量之间简单相关系数的平方,:,82,可决系数与相关系数的关系,可决系数,相关系数,就模型而言,就,两个变量而言,说明解释变量对应变量的解释程度,度量两个变量线性依存程度。,度量不对称的因果关系,度量不含因果关系的对称相关关系,取值：,0,1,取值：,1,1,（,2,）区别,83,运用可决系数时应注意,可决系数只是说明列入模型的所有解释变量对,因变量的联合的影响程度，不说明模型中每个,解释变量的影响程度（在多元中）,回归的主要目的如果是经济结构分析，不能只,追求高的可决系数，而是要得到总体回归系数,可信的估计量，可决系数高并不表示每个回归,系数都可信任,如果建模的目的只是为了预测因变量值，不是,为了正确估计回归系数，一般可考虑有较高的,可决系数,84,第四节回归系数的区间估计和假设检验,本节基本内容：,OLS,估计的分布性质,回归系数的区间估计,回归系数的假设检验,85,问题的提出,为什么要作区间估计？,OLS,估计只是通过样本得到的点估计，不一定等于,真实参数，还需要找到真实参数的可能范围，并,说明其可靠性,为什么要作假设检验？,OLS,估计只是用样本估计的结果，是否可靠？,是否抽样的偶然结果？还有待统计检验。,区间估计和假设检验都是建立在确定参数估计值,概率分布性质的基础上。,86,一、,OLS,估计的分布性质,基本思想,是随机变量，必须确定其分布性质才可能进行区间估计和假设检验,是服从正态分布的随机变量，决定了也是服从正态分布的随机变量，,是的线性函数，决定了也是服从正态分布的随机变量，只要确定的期望和方差，即可确定,的分布性质,87,的期望：,(,无偏估计）,的方差和标准误差,(,标准误差是方差的算术平方根,),注意：,以上各式中未知，其余均是样本观测值,的期望和方差,88,可以证明（见教材,P61,附录,2.2),的无偏估计为,(,n,-2,为自由度,即可自由变化的样本观测值个数,),对随机扰动项方差的估计,89,在已知时,将作标准化变换,90,（,1,）当样本为大样本时，用估计的参数标准误差对,作标准化变换，所得,Z,统计量仍可视为标准正,态变量（根据中心极限定理）,（,2,）当样本为小样本时，可用代替，去估,计参数的标准误差，用估计的参数标准误差对,作标准化变换，所得的,t,统计量不再服从正态分布,（这时分母也是随机变量），而是服从,t,分布：,当未知时,91,区间估计：,前面，我们讨论了参数的点估计，只要给定样本观察值，就能算出参数的估计值。但用点估计的方法得到的估计值不一定是参数的真值，总存在一些偏差，这就要求我们给出误差范围。由点估计得到的参数估计值没有给出它与真值之间的误差范围的大小以及估计的可靠程度，在实际应用中往往还需要知道参数的估计值落在其真值附近的一个范围。为此我们要求由样本构造一个以较大的概率包含真实参数的一个范围或区间，这种带有概率的区间称为置信区间，通过构造一个置信区间对未知参数进行估计的方法称为区间估计。,92,二、回归系数的区间估计,概念：,对参数作出的点估计是随机变量，虽然是无偏估,计，但还不能说明估计的可靠性和精确性，需要找,到包含真实参数的一个范围，并确定这个范围包含,参数真实值的可靠程度。,在确定参数估计式概率分布性质的基础上，可找到,两个正数,和,（），,使得区间,包含真实的概率为，即,这样的区间称为所估计参数的置信区间。,93,对回归系数,的置信区间估计，可归纳为三种情况,:,（,1,）总体方差已知，服从正态性分布,于是得到,:(1-,),的置信度下,的置信区间是,统计量，其中，可以确定。,常取,=0.05,，即,(1-,)=0.95,，查标准正态分布表,z,0.05/2,=1.96,。,所以，的,95%,置信区间为：,或表示为：,94,（,2,）总体方差未知，且样本容量充分大，,可用的无偏估计式,由于样本容量充分大，可认为,于是得到,:(1-,),的置信度下,的置信区间是,常取,=0.05,，即,(1-,)=0.95,，查标准正态分布表,z,0.05/2,=1.96,。,所以，的,95%,置信区间为：,或表示为：,95,一般情况下,，,总体方差未知，用无偏估计去代替，由于样本容量较小，统计量,t,不再服从正态分布，而服从,t,分布。可用,t,分布去建立参数估计的置信区间。,（,3,）总体方差未知，且样本容量较小时,96,选定,，,查,t,分布表得显著性水平为,，自,由度为,的临界值,，,则有,即,(1-,),的置信度下,的置信区间是,97,注：,在计量经济研究中，一般都是未知的，较常用的是第（,3,）种区间估计。,由于置信区间一定程度地给出了样本参数估计值与总体参数真值的,“,接近,”,程度，因此置信区间越小越好。,要缩小置信区间，需,（,1,）增大样本容量,n,，,因为在同样的置信水平下，,n,越大，,t,分布表中临界值越小；同时，增大样本容量，还可使样本参数估计量标准差减小；,（,2,）提高模型的拟合优度，因为样本参数估计量的标准差与残差平方和呈正比，模型拟合优度越高，残差平方和应越小。,98,三、回归系数的假设检验,(,显著性检验,),1.,假设检验的基本思想,为什么要作假设检验？,所估计的回归系数、和方差都是通过,样本估计的，都是随抽样而变动的随机变量，,它们是否可靠？是否抽样的偶然结果呢？还需,要加以检验。,回归分析,是要判断,解释变量,X,是否是,被解释变量,Y,的一个显著性的影响因素。,变量的显著性检验所应用的方法是数理统计学中的假设检验,。,99,对回归系数假设检验的方式,计量经济学中，主要是针对变量的参数真值是否为,零来进行显著性检验的。,目的：,对简单线性回归，判断解释变量是否是被,解释变量,的显著影响因素。在一元线性模型中，,就是要判断是否对具有显著的线性影响。这,就需要进行变量的显著性检验。,100,假设检验的基本思想：“小概率事件不易发生”原理，采用的逻辑推理方法是反证法。即在某种原假设成立的条件下，利用适当的统计量和给定的显著性水平，构造一个小概率事件，可以认为小概率事件在一次观测中基本不会发生，如果该事件竟然发生了，就认为原假设不真，从而拒绝原假设，接受备择假设。,101,检验步骤：,（,1,）对总体参数提出假设,H,0,：,2,=0,，,H,1,：,2,0,（,2,）以原假设构造,t,统计量，并由样本计算其值,（,3,）给定显著性水平,，查,t,分布表得临界值,t,/2,(n-2),2.,回归系数的检验方法,一般情况下，总体方差未知，,只能用去代替，可利用,t,分布作,t,检验,102,(4),比较，判断,如果或者则拒绝原假设,而接受备择假设,如果,则接受原假设,对于一元线性回归方程中的,1,，类似地，可构造,t,统计量进行显著性检验。,103,P,用,P,值判断参数的显著性,假设检验的,p,值：,p,值是基于,既定的样本数据,所计算的统计量，是拒绝,原假设的最低显著性水平。,统计分析软件中通常都给出了检验的,p,值,统计量,t,由样本计算的统计量为,:,相对于显著性水平的临界值,:,或,注意：,t,检验是比较和,P,值检验是比较和,p,与相对应,与,P,相对应,104,本节主要内容：,回归分析结果的报告,被解释变量平均值预测,被解释变量个别值预测,第五节回归模型预测,105,一、回归分析结果的报告,经过模型的估计、检验，得到一系列重要的数据，为了简明、清晰、规范地表述这些数据，计量经济学通常采用了以下规范化的方式：,例如：回归结果为,标准误差,SE,t,统计量,可决系数和自由度,106,对于一元线性回归模型,给定样本以外的解释变量的观测值,X,F,，,可以得到被解释变量的预测值,F,，,可以此作为其,条件均值,E(Y|X=X,F,),或,个别值,Y,F,的一个近似估计。,预测的先决条件,：对模型在预测期的适用性作出判断，在经济理论分析的基础上，判定研究的经济总体的经济结构在样本期和预测期无太大变化，即假定模型设定的,Y,与,X,的关系式保持不变。,分类,：对应变量的预测分为对应变量条件均值和个别值的点预测和区间预测。,预测,107,二、被解释变量平均值预测,1.,基本思想,运用计量经济模型作预测：指利用所估计的样本回归函数，用解释变量的已知值或预测值，对预测期或样本以外的被解释变量数值作出定量的估计。,计量经济预测是一种条件预测：,条件：,模型设定的关系式不变,所估计的参数不变,解释变量在预测期的取值已作出预测,对应变量的预测分为平均值预测和个别值预测,对应变量的预测又分为点预测和区间预测,108,预测值、平均值、个别值的相互关系,是,真实平均值的点估计,，,也是对个别值的点估计,个别值,真实平均值,点预测值,109,总体回归函数,样本回归函数,110,是条件均值,E(Y|X=X,F,),或个别值,Y,F,的一个无偏估计,对,总体回归函数,E(Y|X=X,i,)=,1,+,2,X,i,，,X=X,F,时,E(Y|X=X,F,)=,1,+,2,X,F,于是,可见，,是条件均值,E(Y|X=X,F,),的无偏估计。,（,1,）对应变量,Y,条件均值,E(Y|X=X,F,),的点预测,：,通过样本回归函数，求得拟合值为：,111,对,总体回归模型,，当,X=X,F,时,于是,（,2,）对应变量,Y,个别值,Y,F,的点预测,：,可看出，,Y,个别值的点预测和条件均值的点预测是一致的，均为。,而,通过样本回归函数，求得拟合值：,于是,可见，是个别值的无偏估计。,112,2.,Y,平均值的点预测,将解释变量预测值直接代入估计的方程,这样计算的是一个点估计值,113,3.,Y,平均值的区间预测,基本思想：,由于存在抽样波动，预测的平均值不一定等于真实平均值，还需要对作区间估计。,为对,Y,作区间预测，必须确定平均值预测值的抽样分布，,必须找出与和都有关的统计量,114,由于,于是,可以证明,115,因此,故,116,具体作法,（从的分布分析）,服从正态分布，将其标准化,，,当未知时，只得用其无偏估计量代替，这时可构造,t,统计量：,显然这样的,t,统计量与和都有关。,117,给定显著性水平,，查,t,分布表，得自由度,n,2,的临,界值则有,于是，在,1-,的置信水平下，预测,总体条件均值,E(Y|X,F,),的置信区间为,:,构建平均值的预测区间,118,三、应变量个别值预测,基本思想：,既是对,平均值的点预测，也是对,个别值的点预测,由于存在随机扰动的影响，,的平均值并不等于,的个别值,为了对,的个别值作区间预测，需要寻找与预测值和个别值有关的统计量，并要明确其概率分布,119,总体个别值的区间预测,由,Y,i,=,1,+,2,X,i,+,u,i,知,:,因为,120,具体作法：,已知剩余项是与预测值及个别值都有关的变量，并且已知服从正态分布，可证明,即：,用代替，对作标准化变换，,构造,t,统计量,121,构建个别值的预测区间,给定显著性水平,，,查,t,分布表得自由度为,的临界值，则有,从而在,1-,的置信度下，预测,个别值,的置信区间,为,122,SRF,各种预测值的关系,Y,的个别值的置信区间,Y,均值的置信区间,123,应变量,Y,区间预测的特点：,对于,Y,的总体均值,E(Y|X,F,),与个别值,Y,F,的预测区间（置信区间）的比较。,（,1,）,平均值的预测值与真实平均值有误差，主要是,受抽样波动影响,个别值的预测值与真实个别值的差异,不仅受抽,样波动影响，而且还受随机扰动项的影响,124,即对于,X,F,来说，对个别值预测的置信区间比对平均值预测的置信区间更宽。因为，由于抽样波动的影响，与总体真实平均值,E(Y,F,|X,F,),存在着误差；而对应变量个别值,Y,F,的预测，不仅存在抽样误差，还存在随机,扰,动误差。,125,（,2,）,预测区间上下限与样本容量有关,，,样本容量,n,越大，同时也越大，预测误差的方差越小，预测精度越高，反之预测精度越低；,当样本容量时，个别值的预测误差只决定于随机扰动的方差。,126,（,3,）,平均值和个别值预测区间都不是常数，,是随的变化而变化的。,当样本容量一定,时，置信带的宽度在均值处最小，其附近进行预测（插值预测）精度越大；,越远离其均值，置信带越宽，预测可信度下降。,127,提出问题：,改革开放以来随着中国经济的快速发展，居民的消费水平也不断增长。但全国各地区经济发展速度不同，居民消费水平也有明显差异。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素，并分析影响因素与消费水平的数量关系，可以建立相应的计量经济模型去研究。,研究范围：,全国各省市,2002,年城市居民家庭平均每人每年消费截面数据模型。,第六节案例分析,128,理论分析：,影响各地区城市居民人均消费支出的因素有多种，但从理论和经验分析，最主要的影响因素应是居民收入。从理论上说可支配收入越高，居民消费越多，但边际消费倾向大于,0,，小于,1,。,建立模型：,其中：,Y,城市居民家庭平均每人每年消费支出,(,元,),X,城市居民人均年可支配收入,(,元,),数据：,从,2002,年,中国统计年鉴,中得到,此例中的数据是截面数据（,cross-sectional data,）,129,估计参数,具体操作：使用,EViews,软件包。估计结果：,假定模型中随机扰动满足基本假定，可用,OLS,法。,130,被解释变量名,:Y,日期,:02/25/05,时间,:03:15,样本区间,:1 31,样本容量,:31,变量,回归系数,标准误差,t,统计量,概率,（,P,值）,C,282.2434,287.2649,0.982520,0.3340,X,0.758511,0.036928,20.54026,0.000,可决系数,0.935685,被解释变量平均值,5982.476,修正可决系数,0.933467,被解释变量标准差,1601.762,回归标准差,413.1593,赤池信息准则,14.94788,残差平方和,4950317,施瓦茨准则,15.04040,对数似然估计值,-229.6922,F-statistic,421.9023,D-W,统计量,1.481439,Prob(F,-statistic),0.000000,131,表示为,132,1.,可决系数：,模型整体上拟合好。,2.,系数显著性检验：,给定，查,t,分布表，,在自由度为,n,-2=29,时临界值为,因为,t,=20.44023,拒绝，,说明“城镇人均可支配收入”对“城镇人均消费支出”有显著,影响。,3.,用,P,值检验,p,=0.0000,模型检验,133,4.,经济意义检验：,估计的解释变量的系数为,0758511,，,边际消费倾向在,0,与,1,之间，,说明城镇居民人均可支配收入每增加,1,元，人均年消费支出平均将增加,0758511,元。这符合经济理论对边际消费倾向的界定。,134,点预测：,西部地区的城市居民人均年可支配收入第一步争取达到,1000,美元,(,按现有汇率即人民币,8270,元,),，,代入估计的模型得,第二步再争取达到,1500,美元,(,即人民币,12405,元,),，利用所估计的模型可预测这时城市居民可能达到的人均年消费支出水平,经济预测,135,X,Y,平均值,7515.026,5982.476,中值,6788.520,5459.640,最大值,13249.80,10464.00,最小值,5234.350,4462.080,标准差,2042.682,1601.762,观测值数量,31,31,表,2.7,样本方差：,样本标准差：,136,平均值区间预测上下限,：,区间预测,137,即是说,：,平均值置信度,95%,的预测区间为（,6393.03,，,6717.23,）元,。,平均值置信度,95%,的预测区间为（,9292.33,，,10090.83,）元,。,个别值区间预测（略）,138,第二章小结,1,、变量间的关系：,函数关系,相关关系,相关系数,对变量间线性相关程度的度量,2,、现代意义的回归：,一个被解释变量对若干个,解释变量依存关系的研究,实质：,由固定的解释变量去估计被解释变量的平均值,139,3,、总体回归函数（,PRF,）：,将总体被解释变量,Y,的条件均值表现为解释变量,X,的某种函数,样本回归函数（,SRF,）：,将被解释变量,Y,的样本条件均值表示为解释变量,X,的某种函数。,总体回归函数与样本回归函数的区别与联系,4,、随机扰动项：,

展开阅读全文