一元线性回归模型.ppt_咨信网zixin.com.cn

资源描述

Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Econometrics,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,最新版整理ppt,第三章一元线性回归模型,（教材第二、三章）,最新版整理ppt,第三章一元线性回归模型,3.1,回归的涵义,3.2,随机扰动项的来源,3.3,参数的最小二乘估计,3.4,参数估计的性质,3.5,显著性检验,3.6,拟合优度,3.7,预测,学习要点,回归模型的涵义，参数的,OLS,估计,及其性质，显著性检验,3.1,回归的涵义,回归分析（,regression analysis,）,用于研究一个变量（称为,被解释变量,或,应变量,）与另一个或多个变量（称为,解释变量,或,自变量,）之间的关系。,Y,代表被解释变量，,X,代表解释变量；解释变量有多个时，用,X,1,，,X,2,，,X,3,等表示。,例：商品的需求量与该商品价格、消费者收入以及其他竞争性商品价格之间的关系。,总体回归函数（,population regression function,，,PRF,）,例：学生的家庭收入与数学分数有怎样的关系？,3.1,回归的涵义,3.1,回归的涵义,总体回归函数（,population regression function,，,PRF,）,根据上面数据做散点图,3.1,回归的涵义,总体回归函数（,population regression function,，,PRF,）,上图中，圆圈点称为条件均值；条件均值的连线称为总体回归线。,总体回归线表明了,Y,的均值,与每个,X,的变动关系。,上图近似线性的总体回归线可以表示成：,表示给定的,X,值所对应的,Y,的均值；、称为参数（,parameters,），也称回归系数（,regression coefficients,）；称为截距（,intercept,），称为斜率（,slope,）。,斜率系数度量了,X,每变动一单位，,Y,（条件）均值的变化率。举例：，含义？,3.1,回归的涵义,样本回归函数（,sample regression function,SRF,）,实际中往往无法获得整个总体的数据，怎么估计总体回归函数？即如何求参数,B,1,、,B,2,？,通常，我们仅仅有来自总体的一个样本。,我们的任务就是根据样本信息估计总体回归函数。,怎么实现？,3.1,回归的涵义,样本回归函数（,sample regression function,SRF,）,表,2-2,、,2-3,的数据都是从表,2-1,中随机抽取得到的。,3.1,回归的涵义,样本回归函数（,sample regression function,SRF,）,通过散点得到两条“拟合”样本数据的样本回归线。,3.1,回归的涵义,样本回归函数（,sample regression function,SRF,）,可用样本回归函数（,SRF,）表示样本回归线：,其中，总体条件均值的估计量；,并非所有样本数据都准确地落在样本回归线上，因此建立随机样本回归函数：,其中，是的估计量，称为残差（,residual,）。,表示了,Y,的实际值与样本回归估计值的差。,3.1,回归的涵义,样本回归函数（,sample regression function,SRF,）,回归分析：根据样本回归函数估计总体回归函数。,3.1,回归的涵义,“线性”回归的特殊含义,对“线性”有两种解释：变量线性和参数线性。,变量线性：例如前面的总体（或样本）回归函数；下面的函数,不是,变量线性的：,参数线性：参数,B,1,、,B,2,仅以一次方的形式出现。下面的模型是参数,非线性,的：,本书主要关注参数线性模型。从现在起，,线性回归（,linear regression,）是指参数线性的回归,，而解释变量并不一定是线性的。,3.2,随机扰动项的来源,总体回归函数说明在给定的家庭收入下，美国学生,平均的,数学分数。,但对于某一个学生，他的数学分数可能与该平均水平有偏差。,可以解释为，个人数学分数等于这一组的平均值加上或减去某个值。用数学公式表示为：,其中，表示随机扰动项，简称扰动项。扰动项是一个随机变量，通常用概率分布来描述。,3.2,随机扰动项的来源,对于回归模型,称为,被解释变量,（,explained variable,）,也称,应变量,或,因变量,（,dependent variable,）,称为,解释变量,（,explanatory variable,）,也称,自变量,（,independent variable,）,称为,参数（,parameter,）,称为,随机扰动项（,random error term,）,3.2,随机扰动项的来源,上式如何解释？,可以认为，在给定家庭收入水平上，第,i,个学生的数学分数可以表达为两部分之和：,一是，即，是该收入水平上的平均数学分数。这一部分称为系统或确定性部分。,二是，称为非系统或随机成本，由收入以外的因素决定。,此时，称为随机总体回归函数（,stochastic PRF,）。,3.2,随机扰动项的来源,3.2,随机扰动项的来源,性质,1,：扰动项代表了未纳入模型变量的影响。例如个人健康状况、居住区域等等。,性质,2,：反映了人类行为的内在随机性。即使模型中包括了决定数学分数的所有变量，其内在随机性也不可避免，这是做任何努力都无法解释的。,性质,3,：还代表了度量误差，例如收入的数据可能不等于真实值。,性质,4,：“奥卡姆剃刀原则”,即描述应该尽可能简单，只要不遗漏重要的信息，此时可以把影响,Y,的次要因素归入随机扰动项。,3.3,参数的最小二乘估计,参数估计：普通最小二乘法（,OLS,）,根据样本回归函数估计总体回归函数，要回答两个问题：,如何估计,PRF,？,如何验证估计的,PRF,是真实的,PRF,的一个“好”的估计值？,这里先回答第一个问题。,回归分析中使用最广泛的是普通最小二乘法（,method of ordinary least squares,OLS,）,3.3,参数的最小二乘估计,参数估计：普通最小二乘法（,OLS,）,最小二乘原理：由于不能直接观察,PRF,：,所以用,SRF,来估计它，因而,最好的估计方法是，选择使得残差尽可能小。,3.3,参数的最小二乘估计,参数估计：普通最小二乘法（,OLS,）,普通最小二乘法就是要选择参数，使得,残差平方和,（,residual sum of squares,RSS,）最小。,即,3.3,参数的最小二乘估计,参数估计：普通最小二乘法（,OLS,）,如何确定的值？,根据微积分，当,对的一阶偏导数为,0,时，,Q,达到最小。即,3.3,参数的最小二乘估计,参数估计：普通最小二乘法（,OLS,）,以上联立方程组称为正规方程组（,normal equations,）。,求解，得,注意：，即小写字母代表了变量与其均值的离差。,上面给出的估计量称为,OLS,估计量（,OLS estimator,）。,3.3,参数的最小二乘估计,参数估计：普通最小二乘法（,OLS,）,OLS,估计量的一些重要性质,用,OLS,法得出的样本回归线经过样本均值点，即,残差的均值总为,0,。,对残差和解释变量的积求和，其值为零，即,对残差与（估计的）的积求和，其值为零，即,3.3,参数的最小二乘估计,例子：数学,S.A.T,分数,3.3,参数的最小二乘估计,例子：数学,S.A.T,分数,根据公式可以得到回归结果：,3.3,参数的最小二乘估计,例子：数学,S.A.T,分数,根据公式可以得到回归结果：,对估计结果的解释：,斜率系数,0.0013,表示在其他条件保持不变的情况下，家庭年收入每增加,1,美元，数学,S.A.T.,分数平均提高,0.0013,分,截距,432.4138,表示，当家庭年收入为,0,时，数学平均分大约为,432.4138,。（这样的解释没有什么经济意义）,对截距最好的解释是，它代表了回归模型中所有省略变量对,Y,的平均影响。,3.3,参数的最小二乘估计,例子：受教育年限与平均小时工资,预期平均工资随受教育年限的增加而增加,回归结果：,3.3,参数的最小二乘估计,例子：股票价格与利率,经济理论表明，股票价格和利率之间存在反向关系。,3.3,参数的最小二乘估计,例子：股票价格与利率,看起来两个变量之间的关系不是线性的（即不是直线），因此，假设实际关系如下：,回归结果为：,作为比较，线性回归结果为：,引发的一个重要问题：哪一个模型更好？如何进行判断？在模型选择中使用那些检验？后面将逐一回答。,3.4,参数估计的性质,古典线性回归模型（,CLRM,）的假定,前面我们回答了“如何估计,PRF,”,的问题,OLS,。,下面我们要回答“怎样判别它是真实,PRF,的一个好的估计”的问题。,只有假定了随机扰动项,u,的生成过程，才能判定,SRF,对,PRF,拟合得是好是坏。,OLS,估计量的推导与随机扰动项的生成过程无关；,但根据,SRF,进行假设检验时，就必须对随机扰动项的生成做一些特殊的假定，否则无法进行假设检验。,下面仍然沿用一元线性回归模型来讨论。,3.4,参数估计的性质,古典线性回归模型（,CLRM,）的假定,假定,1.,回归模型是参数线性的，但不一定是变量线性的。回归模型形式如下（可扩展到多个解释变量）：,假定,2.,解释变量与随机扰动项不相关。,如果,X,是非随机的，该假定自动满足；,即使,X,是随机的，如果样本容量足够大，也不会对分析产生严重影响。,3.4,参数估计的性质,古典线性回归模型（,CLRM,）的假定,假定,3.,给定，扰动项的均值为零。即,3.4,参数估计的性质,古典线性回归模型（,CLRM,）的假定,假定,4.,同方差（,homoscedastic,），,即,3.4,参数估计的性质,古典线性回归模型（,CLRM,）的假定,假定,5.,无自相关（,no autocorrelation,），,即两个扰动项之间不相关：,3.4,参数估计的性质,古典线性回归模型（,CLRM,）的假定,假定,6.,回归模型是正确设定的，即模型不存在设定偏差或设定误差。,为什么需要以上,6,个假定？这些假定现实吗？如果不满足这些假定，情况又会怎样？如何得知是否满足所有这些假定？,这些重要的问题暂时没有答案，事实上，教材“第二部分”都是围绕“如果假定不满足时会怎样”而展开的。,3.4,参数估计的性质,OLS,估计量的方差与标准差,有了上述假定后可以计算出估计量的方差和标准差。,OLS,估计量是随机变量，因为其值随样本的不同而变化，这些估计量的抽样变异性通常由估计量的方差或其标准差来度量。,OLS,估计量的方差（,variance,）及标准差（,standard error,）：,怎么估计？,3.4,参数估计的性质,OLS,估计量的方差与标准差,根据下式估计：,（,n-2,）称为自由度。在一元线性回归模型中有两个参数，在计算这两个未知参数时，失去了两个自由度。因此，虽然有,n,个观察值，但自由度仅为（,n-2,）。,顺便指出，称为回归标准差（,standard error of the regression,，,SER,）。,3.4,参数估计的性质,OLS,估计量的方差与标准差：数学,S.A.T,一例（,教材有误,）,3.4,参数估计的性质,估计结果的报告,估计的数学,SAT,函数如下（括号内数字为标准差）：,OLS,估计量的性质,可以概括为高斯,-,马尔柯夫定理,(,Gauss-Markov theorem,),：,如果满足古典线性回归模型的基本假定，则在所有线性估计两种，,OLS,估计量具有最小方差性，即,OLS,估计是最优线性无偏估计量（,BLUE,）。,具体见教材,PP46,。,3.5,显著性检验,OLS,估计量的抽样分布或概率分布,知道如何计算,OLS,估计量及其标准差仍然不够，必须求出其抽样分布才能进行假设检验。,为了推导抽样分布，再增加一条假定。,假定,7.,在总体回归函数中，扰动项服从均值为,0,，方差为的正态分布。即,为什么可以作这样一个假定？,3.5,显著性检验,OLS,估计量的抽样分布或概率分布,可以证明，是的线性函数，根据“正态变量的线性函数仍服从正态分布”，得知服从正态分布。,中心极限定理：,随着样本量的增加，独立同分布随机变量构造的统计量近似服从正态分布。,3.5,显著性检验,OLS,估计量的抽样分布或概率分布,3.5,显著性检验,假设检验,假定：家庭年收入对学生的数学成绩没有影响,数值结果表明：。因此，零假设不成立？,不能仅看数值结果，抽样波动性会导致数值结果因样本变化而不同需要进行假设检验。怎么进行？,前面指出：,当我们知道估计量的抽样分布后，假设检验将不成问题。讨论以下两种方法：,（,1,）置信区间法,（,2,）显著性检验法,3.5,显著性检验,假设检验,能否使用上式进行假设检验？问题在哪里？,问题在于真实的是未知的！,可以用来估计它，则有：,3.5,显著性检验,假设检验：置信区间法,在数学,S.A.T,一例中，共有,10,个观察值，因此自由度为（,10-2,）,=8,。,假定，显著性水平或犯第一类错误（弃真）的概率为,5%,，于是有,即,3.5,显著性检验,假设检验：置信区间法,整理,或,上式给出了的一个,95%,的置信区间：重复上述过程，,100,个这样的区间中将有,95,个包括真实的。,代入，得,区间不包括,0,，所以拒绝零假设：家庭年收入对数学,S.A.T,没有影响。,3.5,显著性检验,假设检验：置信区间法,图形,（教材有误）,0.00074 0.00187,3.5,显著性检验,假设检验：置信区间法,按照上述过程，同样可得截距,95%,的置信区间：,如果，则显然拒绝零假设，因为上述,95%,的置信区间不包括,0,。,如果，则不能拒绝该假设，因为,95%,的置信区间包括了这个值。,3.5,显著性检验,假设检验：显著性检验法,核心思想是根据从样本数据求得的检验统计量的值决定接受或拒绝零假设。,前面曾介绍,如果令，其中，是的某个给定数值（例如，），则根据样本数据很容易求得,可用计算出的,t,值作为检验统计量，它服从自由度为,（,n-2,）,的,t,分布。相应的检验过程称为,t,检验,。,3.5,显著性检验,假设检验：显著性检验法,在具体进行,t,检验时,（,1,）对于一元线性回归模型（双变量模型），自由度为（,n-2,）。,（,2,）常用的显著水平有,1%,、,5%,或,10%,。为了避免选择显著水平的随意性，通常求出,p,值（精确的显著水平），如果计算的,p,值充分小，则拒绝零假设。,（,3,）可用单边或双边检验。,3.5,显著性检验,假设检验：显著性检验法,先看双边检验（,two-tailed test,）,假设，有,自由度为,8,时，,t,的（双边）临界值,如果计算得到的超过临界值，则拒绝零假设,。,显著水平,临界值,t,0.01,3.355,0.05,2.306,0.10,1.860,3.5,显著性检验,假设检验：显著性检验法,本例,t,=5.4354,，拒绝零假设。相伴概率,p,约为,0.0006,，说明如果拒绝零假设，犯错的概率只有万分之六。,3.5,显著性检验,假设检验：显著性检验法,再看单边检验（,one-tailed test,）,由于预期家庭收入对数学成绩的影响是正向的，因此假设（备择假设是单边的）。,此时犯第一类错误的概率不是均等分布在,t,分布的两侧，而是集中于一侧。左侧还是右侧？,自由度为,8,时，临界,t,值（,右侧,）为：,结论：拒绝零假设！,显著水平,临界值,t,0.01,2.896,0.05,1.860,0.10,1.397,3.5,显著性检验,假设检验：显著性检验法,单边,t,检验：,3.6,拟合优度,拟合回归直线的优度：判定系数,r,2,t,检验表明样本回归函数很好地拟合了样本数据。,但并非每一个,Y,值都准确地落在了估计的,PRF,上。,能否建立一个“拟合优度”的判定规则，从而辨别估计的回归线拟合真实的,Y,值的优劣程度？,判定系数,r,2,（,coefficient of determination,）,前面讲到，作恒等变化，得,由,X,变异所解释的部分,未解释部分或残差的变异,Y,i,的变异,3.6,拟合优度,拟合回归直线的优度：判定系数,r,2,小写字母表示与均值的离差，得,或写为,两边同时平方再求和，得,由,X,变异所解释的部分,未解释部分或残差的变异,Y,i,的变异,3.6,拟合优度,拟合回归直线的优度：判定系数,r,2,上式出现的各种平方和定义如下：,（,total sum of squares,TSS,）,真实,Y,值围绕其均值的总变异。,（,explained sum of squares,ESS,）,估计的,Y,值围绕其均值的变异，也称回归平方和（由解释变量解释的部分）。,（,residual sum of squares,RSS,）,即,Y,变异未被解释的部分。,于是上式可以简化为：,3.6,拟合优度,拟合回归直线的优度：判定系数,r,2,表明,Y,与其均值的总离差可分解为两部分：一部分归于回归线，另一部分归于随机因素。,3.6,拟合优度,拟合回归直线的优度：判定系数,r,2,对于，一般的情形是：,ESS,和,RSS,均不为零，如果,ESS,远大于,RSS,，则,SRF,在很大程度上解释了,Y,的变异；如果,RSS,远大于,ESS,，则,SRF,只能部分解释,Y,的变异。,如何量化“拟合优度”？,两边同时除以,TSS,，得：,定义，称为判定系数。,度量回归线的拟合优度，或者说度量了回归模型对,Y,变异的解释比例。,3.6,拟合优度,拟合回归直线的优度：判定系数,r,2,计算公式：,数学,S.A.T,一例：,该值已经相当大了，收入变量,X,解释数学,S.A.T,分数,79%,的变异。,3.6,拟合优度,拟合回归直线的优度：判定系数,r,2,的两个重要性质,：（,1,）非负性；（,2,）,趋于,1,表示拟合得好，反之表示拟合得不好。,引起较低的若干原因：,引入的,X,不合适，其解释能力较差；,数据中被解释变量个别观测值具有较大的变差，使总平方和,TSS,变大。,实际使用中，不可一味追求趋于,1,。,3.6,拟合优度,拟合回归直线的优度：判定系数,r,2,样本相关系数，度量了两个变量,X,与,Y,之间的线性相关程度，公式为,相关系数能够通过判定系数得到,数学,S.A.T,一例中，可见数学分数与家庭年收入高度正相关。,3.6,拟合优度,回归分析结果的报告,学术论文的一般报告模式：,习惯性地规定零假设为：总体参数为零。,以上存在什么关系？,如果拒绝零假设，则表示真实的总体参数值不为零。,3.7,预测,预测,回归分析的目的之一是根据解释变量的值预测被解释变量的均值。,例如：假定美元，那么,根据估计结果，有,虽然计量经济理论表明在,CLRM,的假定下，是真实均值的无偏估计量，但对任一给定样本，不可能等于真实均值。两者之差称为预测误差（,prediction error,）。,为了估计预测误差，需要求出的抽样分布。,3.7,预测,预测,可以证明，服从正态分布,其中，,X,的样本均值；,与离差平方和；,的方差；,样本容量,由于实践中是未知的，如果用其无偏估计量代替，则,3.7,预测,预测,因此，对于给定的，,Y,的真实均值的置信区间：,对于数学,SAT,一例，首先,然后，自由度为,8,显著水平为,5%,时，,t,临界值为,2.306,。,最后，给定年收入为,78000,时，,95%,的置信区间为,3.7,预测,预测,对每个,X,都建立,95%,的置信区间，可得如下置信带。特点：当时，置信带的宽度最小。,

展开阅读全文