医学回归分析回归诊断专题.ppt

资源描述

单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,回归分析回归诊断,通过简单回归和多元回归模型可以有了计算结果,。,这些结果能做推断，需要建立在一些概述性统计量的基础之上，这些统计量由数据来计算。而只有当标准的回归假定满足时，所做的推断才有可能是合理的，有意义的。而对假定的核定，可以用图形的方法，也可以用严格的数值去检查。,数据也需要考虑,还有模型的设定,标准的回归假定：,1，,关于模型设定的假定,2，,关于误差的假定,3，,关于预测变量的假定,非随机的,其取值是误差取得的，但几乎不可能。测量误差将影响到误差方差，相关系数，复相关系数及回归系数的估计，其影响程度的大小取决于多个因素。,是线性无关的,4，,关于观测的假定,所有观测是同样可靠性,数据的诊断,异常值,强影响点,假定是否满足模型的诊断,6,线性回归模型中的异常点分析,异常点的识别与处理，是统计诊断中很重要的一项内容。,异常点的出现会影响分析结果的可信度。,异常点的存在往往蕴涵着重要的信息。,在有些情况下,，异常点的出现是因为有新事物出现或者新情况发生，比如经济模型中某种经济政策的出台等，都能表现出异常，这通常是我们的研究兴趣所在。,在,另外一些情况,下，异常点的出现是由于人为差错或者仪器的故障所引起的。,在我们需要根据样本对模型进行参数估计或者根据模型对将来进行预测与控制的时候，异常点的出现会对我们的工作产生很强的影响，这样的结果是令人怀疑的。,因此，异常点的研究受到了广大研究者的重视，自,Bernoulli,首次提出了异常点的概念，接下来对异常点的概念、类型以及处理问题的讨论一直没有停止过。,异常点的成因与处理,为什么会出现异常点？对这个问题的回答大致可以归结为以下三种情况：整体模型变化、局部模型变化和自然变异。,在前两种情况下,，异常点出现的多而且连续，往往蕴涵着机制的变化、新事物的出现或者新局面的形成，大量而且连续的异常点可以用新的模型来拟合。对于整个数据集，实质上已经成为一个混合模型。,而,第三种成因更为常见,，偶尔的人为差错或者仪器的故障都可以引起异常。,对于由不同的原因引起的异常点，它们的处理方法是不同的。在进行统计诊断时，,判断异常点的成因,是很重要的，是对异常点进行正确处理的先决条件。,通常对异常值的处理方法有两种。,一种是把异常点作为工作重点，,目标就是发现异常点并确定是否要作进一步的研究，这样的,异常点往往含有很重要的信息。这时不仅要判断出异常点的存在与否，还要确定异常点出现的位置以及影响大小,。这是统计诊断中一个重要内容，围绕此类问题出现了大量的统计量检验方法及影响分析研究。,对于由第三种成因引起的异常点，发现之后可以进行删除，以免影响参数估计等以后的工作效果。,另外一种方法就是对于异常点采取容忍的态度,，把整个数据集作为研究的基础，对于一定比例的坏数据或者远离数据中心的数据采取一定的容忍或适应政策,回归系数一般采用“最小二乘估计”（,least squares estimator,LS estimator,）求解，但是在应用中容易忽视的问题是,LS,估计只有在数据满足相应条件的情况下才会具有统计描述和推断的优良性质，如要求误差服从正态分布、总体方差相同且相互独立等。,当实际数据没有近似满足这些假定时，就会出现一些异常点（,outliers,）、杠杆点（,leverage point,）及影响点,(influential observations),使分析结果变得不可靠,，不能发现数据中的真实结构，从专业上难以解释结果，甚至得到完全错误的结论。尤其是随着统计软件的日渐普及，我们倾向于简单地将数据交给软件来分析，而不注意具体方法的应用条件，尽管采用了,SAS,、,SPSS,这些国际标准软件，但是输出结果有时却与专业解释相悖。,异常点在统计诊断中的地位,异常点（,outlier,）是统计诊断中很重要的一个概念。,统计诊断（,Statistical Diagnostics,）就是对从实际问题中收集起来的数据、提炼出来的模型以及由此出发所作的推断方法的合理性进行深入而细致的分析，并通过一些诊断统计量来检查数据、模型及推断方法中可能存在的毛病，进而提出治疗方案，进行模型或者推断方法的改进,。,统计诊断主要包括异常点识别、残差分析、影响分析和数据变换等内容，,异常点的识别是处理统计诊断的重要内容之一，它进行的好坏通常影响到整个过程的诊断,。,异常值有时一个，有时多个,在回归模型中，异常点是指对既定模型偏离很大的数据点。但究竟偏离达到何促程度才算是异常，这就必须对模型误差项的分布有一定的假设（通常假定为正态分布）。目前对异常点有以下两种较为流行的看法：,异常点,把异常点看成是那些与数据集的主体明显不协调，使得研究者大感惊讶的数据点。这时，,异常点可解释为所假定的分布中的极端点，即落在分布的单侧或双侧,分位点以外的点，,而,通常取很小的值（如：,0.005,），致使观察者对数据中出现如此极端的点感到意外。,把异常点视为,杂质点,。它与数据集的主体不是来自同一分布，是在绝大多数来自某一共同分布的数据点中掺入的来自另一分布的少量“杂质”,残差,在回归分析中，,异常数据,的发现或,模型的检测、标准假设的检测,的一个简单而有效的方法是研究残差图。,残差图能够指明哪个或哪些标准假定不成立。,更重要的是，残差分析可能引导我们发现数据中的结构，也可能指出那些蕴涵在数据中的、在只用一些概述性统计量分析时容易被疏漏的信息,。这些启发或线索可能帮助我们更好地理解所研究的问题，或者找到更好的模型。,对残差进行图形分析往往是回归分析中最重要的一部分工作。,残差,普通最小二乘法的残差,：,学生化残差,:,强影响点,强影响点和异常点是两个不同的概念，它们之间既有联系也有区别。强影响点可能同时又是异常点也可能不是；反之，异常点可能同时又是强影响点也可能不是。,已知,20,条河流流域的有关测量数据,.,研究者感兴趣的是,河流周边地区土地的利用程度对水污染,(,平均氮浓度,),有何影响,河流,农田覆盖率,森林覆盖率,住宅地占土地总面积百分比,工业及商业用地占总面积百分比,春夏秋冬各季度采集到的样本的平均氮浓度,mg/,升,River,Agr,Forest,Rsdntial,ComIndl,Nitrogen,Olean,26,63,1.2,0.29,1.1,Cassadaga,29,57,0.7,0.09,1.01,Oatka,54,26,1.8,0.58,1.9,Neversink,2,84,1.9,1.98,1,Hackensack,3,27,29.4,3.11,1.99,Wappinger,19,61,3.4,0.56,1.42,Fishkill,16,60,5.6,1.11,2.04,Honeoye,40,43,1.3,0.24,1.65,Susquehanna,28,62,1.1,0.15,1.01,Chenango,26,60,0.9,0.23,1.21,East Canada,6,84,0.5,0.12,0.73,Saranac,3,81,0.8,0.35,0.8,Ausable,2,89,0.7,0.35,0.76,Black,6,82,0.5,0.15,0.87,Schoharie,22,70,0.9,0.22,0.8,Raquette,4,75,0.4,0.18,0.87,Oswegatchie,21,56,0.5,0.13,0.66,Cohocton,40,49,1.1,0.13,1.25,利用三个数据集合获得的回归系数和其,T,检验统计量相差很大,1.,用全部数据,2.,剔除,NEVERSINK,数据,(4),3.,提出,HACKENSACK,数据,(5),回归统计,Multiple R,0.842257,R Square,0.709398,Adjusted R Square,0.631904,标准误差,0.264919,观测值,20,方差分析,df,SS,MS,F,Significance F,回归分析,4,2.569846,0.642462,9.154231,0.000596,残差,15,1.052729,0.070182,总计,19,3.622575,Coefficients,标准误差,t Stat,P-value,Lower 95%,Upper 95%,Intercept,1.722214,1.234082,1.395543,0.183169,-0.90817,4.352596,X 1,0.005809,0.015034,0.3864,0.704626,-0.02624,0.037853,X 2,-0.01297,0.013931,-0.93083,0.36668,-0.04266,0.016726,X 3,-0.00723,0.03383,-0.21362,0.83372,-0.07933,0.06488,X 4,0.305028,0.163817,1.862007,0.08231,-0.04414,0.654195,回归统计,Multiple R,0.925064,R Square,0.855744,Adjusted R Square,0.814528,标准误差,0.192504,观测值,19,方差分析,df,SS,MS,F,回归分析,4,3.077652,0.769413,20.76242,残差,14,0.518811,0.037058,总计,18,3.596463,Coefficients,标准误差,t Stat,P-value,Intercept,1.099471,0.911636,1.206042,0.247788,X Variable 1,0.010137,0.010984,0.922873,0.371705,X Variable 2,-0.00759,0.010222,-0.74244,0.470098,X Variable 3,-0.12379,0.039337,-3.14698,0.007134,X Variable 4,1.528956,0.343719,4.448273,0.000551,尽管三个数据集只差一观测数据，但回归结果有巨大差异,比如，看,X3,回归系数的,T,检验值，使用全部数据时该检验是不显著的，剔除掉数据,4,后，显著为正；可见，仅一个观测就能导致根本不同的结论,数据（,4,）（,5,）称为强影响观测，因为他们对回归的影响远强于其他观测。,看数据，一眼就能发现数据（,5,）其,X3,的值突出的高。,然后再分析其背景,数据集中的强影响点是指那些对统计量的取值有非常大的影响力的点。在考虑强影响点时，有几个基本问题需要考虑：,首先必须明确“是对哪个统计量的影响？”例如，对线性回归模型所考虑的是对回归系数的估计量的影响；不是对误差方差的估计影响；或是对拟合优度统计量的影响等等。分析目标不同，所考虑的影响亦有所不同。,强影响点,其次，必须确定“度量影响的尺度是什么？”为了定量地刻划影响的大小，迄今为止已提出多种尺度，基于置信域的尺度，基于似然函数的尺度等等。,在每一种类型中又可能有不同的统计量。每一种度量都是着眼于某一方面的影响，并在某种具体场合下较为有效。这一方面反映了度量影响问题的复杂性，另一方面也说明了影响分析的研究在统计诊断中是一个甚为活跃的议程。,强影响点通常是数据集中更为重要的数据点，它往往能提供比一般数据点更多的信息，因此需引起特别注意。,有影响的观测值,(,图示,),有影响的观测值,(,图示,),有影响的观测值,(,图示,),有影响的观测值,(,图示,),有影响的观测值,存在影响值的趋势,有影响的观测值,(,图示,),不存在影响值的趋势,有影响的观测值,存在影响值的趋势,强影响观测或者其影响变量取值异常，或者其预测变量取值异常。,响应变量取值异常,标准化残差大的观测其响应变量的取值异常，因为在,Y,方向上他们远离拟合的回归方程。由于各标准化残差近似服从标准正态分布，那么标准化的残差之绝对值大于,2,或,3,的点称为异常点。,预测变量取值异常,异常点也可能出现在预测变量中，他们同样也会影响回归结果，杠杆值可用于度量观测在预测变量中的异常程度。,伪装与淹没的问题,光看残差是不够的，需要其他的度量指标,看这个图形，（,5,）（,4,）是强影响点,但看标准化残差看不出来,残差图也看不出来,杠杆值的序列图可以看出来了,我们还需要相关的度量指标,影响的各种度量,影响的各种度量,如果有些数据的,C,比其余点突出,那么该对此点打上标记,影响点,通过图显示强影响点,图形方法,图形方法在数据分析中起着重要的作用,在对数据拟合线性模型时,图形方法尤其重要,.,没有哪种统计工具能象一张精选出来的图形一样有威力,.,图形方法可以被视为探索性的工具,同时也是验证分析或统计推断不可缺少的一部分,.,图形方法的作用,1.,发现数据中的错误,(,如印刷错误,),2.,辨别数据中的模式,(,如密集群,异常点,明显的差距等,),3.,探索变量间的关系,4.,发现新现象,5.,确认或否认各项假定,6.,评价拟合的模型是否充分,7.,建议修正措施,(,例如数据变换,收集更多的数据等,),图形,1.,一维图（看变量的分布）,2.,二维图,3.,旋转图,4.,动态图,一维图,直方图,茎叶图,点图,箱线图,二维图,我们希望图中的各散点图看上去是怎么样的呢,?,对于简单回归,我们预期,Y,与,X,之间呈现某种直线模式,但对于多元回归,Y,与各自变量之间的散点图可能呈直线状,.,在线性模式较为肯定的场合,这些散点图的非线性状态并不说明线性模型不正确,.,应同时依赖于各个预测变量而不是单个,从上面的二维图看到,Y,与,X1,之间,Y,与,X2,之间都不存在线性关系,然而作,Y,关于,X1,和,X2,两个变量的回归时,拟合程度几近完美,.,我们假定预测变量之间是线性无关的,所以预测变量对散点图不应该呈直线状,更理想地,我们希望从中看不出任何可辩识的模式,.,无论是线性的还是非线性的,.,但是上面例中,该假定是不成立,.,因为,X1,和,X2,有明显的线性关系,.,当然这些散点图不呈直线状还不能说明全部变量间的线性无关的,因为线性关系可能存在与多个预测变量之间,.,旋转图,如何处理异常点,?,异常点和强影响观测值不应该机械被删除或自动降低权重,因为他们不一定是坏的观测。相反，如果它们是准确的，它们就可能是数据中含信息最多的点。比如，他们可能指出数据并非来自正态总体，或者模型不是线性的，我们看下例中的数据看异常点及强影响点可能是数据中含信息量最多的点。,图中是,XY,两个变量的散点图，数据主体显示了,X,与,Y,之间的某种线性关系。但右上角的,22,和,23,两个点是异常值。如果这两个点是正确的，那么它们则是数据集中仅有的、显示着这批数据可能服从某种非线性模型的观测。,我们把这想象为一个细菌的群体，它在异端时间内最后的非常缓慢，但过了某个时间的临界点之后，迅速增长。,一旦鉴别出了异常点和强影响观测后，如何处理呢？,因为异常点和强影响观测可能是数据集中信息最丰富的观测，因而不应该不加说明、自动地抛弃它们。相反，应当通过考察，判断它们为何是异常的或强影响点。,根据这些考察才可能采取合适、正确的措施,正确的措施包括：改正数据中的错误、删除异常点或降低他们的权重、变换数据、考虑不同的模型、重新收集或补充更多的数据。,模型的误设及其后果,1.,包含不相干的解释变量,：,则,估计量是一致、无偏的，但不是最佳线性无偏估计量,。假设检验是有效的。,此外，如果包含的不相干的变量与其它解释变量相关，则引起的主要后果是解释变量之间的多重共线性,.,设,Y=,0,+,1,X,1,+v,(*),为正确模型，但却估计了,Y=,0,+,1,X,1,+,2,X,2,+,(*),如果,2,=0,，,则,(*),与,(*),相同，因此，可将,(,*),式视为以,2,=0,为约束的,(,*,),式的特殊形式。,包含无关变量偏误,由于所有的经典假设都满足，因此对,Y=,0,+,1,X,1,+,2,X,2,+,(*),式进行,OLS,估计，可得到,无偏,且,一致,的估计量。,但是，,OLS,估计量却不具有最小方差性。,Y=,0,+,1,X,1,+v,中,X,1,的方差,:,Y=,0,+,1,X,1,+,2,X,2,+,中,X,1,的方差,:,当,X,1,与,X,2,完全线性无关时,:,否则：,注意：,则扰动项的性质完全起了变化。,模型的估计会由于自相关而引起误差，估计量将不会是最佳线性无偏估计。假设检验将是无效的,.,2.,遗漏解释变量,例如,，如果,“,正确,”,的模型为,而我们将模型设定为,即设定模型时漏掉了一个相关的解释变量。,动态设定偏误,:,遗漏相关变量表现为对,Y,或,X,滞后项的遗漏。,采用遗漏相关变量的模型进行估计而带来的偏误称为,遗漏相关变量偏误,。,设正确的模型为,Y=,0,+,1,X,1,+,2,X,2,+,却对,Y=,0,+,1,X,1,+v,进行回归，得,遗漏相关变量偏误,将正确模型,Y=,0,+,1,X,1,+,2,X,2,+,的离差形式,代入,得,(1),如果漏掉的,X,2,与,X,1,相关，则式中的第二项在小样本下求期望与大样本下求概率极限都不会为零，从而使得,OLS,估计量在小样本下有偏，在大样本下非一致,。,(2),如果,X,2,与,X,1,不相关，则,1,的估计满足无偏性与一致性；但这时,0,的估计却是有偏的。,由,Y=,0,+,1,X,1,+v,得,由,Y=,0,+,1,X,1,+,2,X,2,+,得,模型的估计会由于自相关而引起误差，估计量将不会是最佳线性无偏估计。假设检验将是无效的,.,例如，如果,“,真实,”,的回归函数为,但却将模型设定为,显然，,两者的参数具有完全不同的经济含义，且估计结果一般也是不相同的。,3.,模型形式的误设,4.,如果在设定的模型里用错误的解释变量代替正确的解释变量,，则可看成出现,1,和,2,两种情形误设的复合，即遗漏解释变量的同时加入不相干的变量。,分析四种模型误设的情形，后果最严重的是哪一种情况,.,可用,t,检验与,F,检验完成。,检验的基本思想,:,如果模型中误选了无关变量，则其系数的真值应为零。因此，只须对无关变量系数的显著性进行检验。,t,检验,：检验某,1,个变量是否应包括在模型中；,F,检验,：检验若干个变量是否应同时包括在模型中,模型设定偏误的检验,1,、检验是否含有无关变量,（,1,）残差图示法,2,、检验是否有相关变量的遗漏或函数形式设定偏误,残差序列变化图,趋势变化,：,模型设定时可能遗漏了一随着时间的推移而持续上升的变量,循环变化：,模型设定时可能遗漏了一随着时间的推移而呈现循环变化的变量,模型函数形式设定偏误时残差序列呈现正负交替变化,（,2,）一般性设定偏误检验,但更准确更常用的判定方法是拉姆齐,(Ramsey),于,1969,年提出的所谓,RESET,检验,基本思想：,如果事先知道遗漏了哪个变量，只需将此变量引入模型，估计并检验其参数是否显著不为零即可；,问题是不知道遗漏了哪个变量，需寻找一个替代变量,Z,，来进行上述检验。,RESET,检验中，采用所设定模型中被解释变量,Y,的估计值,的若干次幂来充当该,“,替代,”,变量。,3,、检验是否有相关变量的遗漏或函数形式设定偏误,例如,，先估计,Y=,0,+,1,X,1,+v,得,然后再利用,F,检验,来判断是否增加这些,“,替代,”,变量。,若仅增加一个,“,替代,”,变量，也可通过,t,检验,来判断。,例如，,在一元回归中，假设真实的函数形式是非线性的，用泰勒定理将其近似地表示为多项式：,因此，如果设定了线性模型，就意味着遗漏了相关变量,X,1,2,、,X,1,3,，等等。,因此，在一元回归中，可通过检验各高次幂参数的显著性来判断是否将非线性模型误设成了线性模型。,（*,),RESET,检验也可用来检验函数形式设定偏误的问题。,对多元回归，非线性函数可能是关于若干个或全部解释变量的非线性，这时可按遗漏变量的程序进行检验。,例如，估计,Y=,0,+,1,X,1,+,2,X,2,+,但却怀疑真实的函数形式是非线性的,。,这时，只需以估计出的,的若干次幂为,“,替代,”,变量，进行类似于如下模型的估计,再判断各,“,替代,”,变量的参数是否显著地不为零即可。,例,:,建立了中国商品进口,M,与,GDP,的一元线性关系,:,并发现具有强烈的一阶自相关性。,序列相关性的主要原因之一可能就是建模时遗漏了重要的相关变量造成的。,下面进行,RESET,检验。,R,2,=0.9484,（,-0.085,）（,8.274,）（,-6.457,）（,6.692,）,R,2,=0.9842,在,=5%,下，查得临界值,F,0.05,(2,20)=3.49,判断：,拒绝原模型与引入新变量的模型可决系数无显著差异的假设，表明,原模型确实存在遗漏相关变量的设定偏误,。,（,3,）同期相关性的豪斯蔓（,Hausman,）检验,由于在遗漏相关变量的情况下，往往导致解释变量与随机扰动项出现同期相关性，从而使得,OLS,估计量有偏且非一致。,因此，对模型遗漏相关变量的检验可以用模型是否出现解释变量与随机扰动项同期相关性的检验来替代。这就是,豪斯蔓检验的主要思想,。,当解释变量与随机扰动项同期相关时，通过工具变量法可得到参数的一致估计量。,而当解释变量与随机扰动项同期无关时，,OLS,估计量就可得到参数的一致估计量。,因此，,只须检验,IV,估计量与,OLS,估计量是否有显著差异来检验解释变量与随机扰动项是否同期无关。,对一元线性回归模型,Y=,0,+,1,X+,所检验的假设是,H,0,：,X,与,无同期相关。,设一元样本回归模型为,以,Z,为工具变量，则,IV,估计量为：,(*),(*),式表明，,IV,估计量与,OLS,估计量无差异当且仅当,z,i,e,i,=0,，即工具变量与,OLS,估计的残差项无关。,检验时，求,Y,关于,X,与,Z,的,OLS,回归式：,在实际检验中，豪斯蔓检验主要针对多元回归进行，而且也不是直接对工具变量回归，而是对以各工具变量为自变量、分别以各解释变量为因变量进行回归。,如对二元回归模型,通过,增加解释变量的,F,检验,，检验联合假设：,H,0,：,1,=,2,=0,。,拒绝原假设，就意味着（,*,）式中的解释变量与随机扰动项相关。,(*),模型设定的方法,之,”,从一般到简单,”,作为,建模起点的总体模型,必须能够包容所有经过约化得到的,“,简洁,”,的模型。,它应该包含所有对被解释变量产生影响的变量，尽管其中的某些变量会因为显著性不高或者不满足正交性条件等原因在后来的约化过程中被排除。,回归分析是一种经验实证的方法，它是建立在证伪和证实不对称性的逻辑学基础之上的。,一旦总体模型被设定，利用样本数据进行的经验检验只能发现已经包含其中的哪些变量是不显著的，而不能发现没有包含其中的显著变量；只能发现已经被采用的函数关系是不恰当的，而不能发现没有被采用的正确的函数关系。,为什么？,逻辑学回答,作业,:,1.,模拟,2.,经典回归模型的应用,-,约束条件检验的应用,.,3.,结合实际问题,进行影响因素的分析,(,重点在于自变量的选取,),4.,建立回归模型,对回归模型的诊断,关于假设条件,检查线性和正态性的假定,2.,标准化残差关于每个预测变量的散点图,表示残差的图形,关于,x,的残差图,关于,y,的残差图,标准化残差图,用于判断误差,的假定是否成立,检测有影响的观测值,一般残差图均要求,n,个点的散布是无规则的。当残差图中的点呈现某种规律或趋向时，就可以对模型的假设提出怀疑。利用残差图上点的散布规律作诊断的方法是回归分析中对模型的诊断的最有效的方法之一。,残差图,标准化残差：,学生化残差：,在残差分析中，一般认为超过,3,个标准差的残差成为异常值，考虑到普通残差,e,i,的方差不等，用,e,i,作判断和比较会带来一定的麻烦，人们引入标准化残差和学生化残差的概念，改变普通残差的性质。,改进的残差,标准化残差：,学生化残差：,标准化残差,使残差具有可比性，标准化残差,3,的相应观测值即判定为异常值，这简化了判定工作。但是没有解决方差不等的问题。,学生化残差,则进一步解决了方差不等的问题，因而在寻找异常值时，用学生化残差优于用普通残差，认为学生化残差,3,的相应观测值即为异常值,残差图,(,形态及判别,),残差图,(,例题分析,),-4,-2,0,2,4,6,8,0,100,200,300,400,x,残差,T,X,残差,表示男生,表示女生,

展开阅读全文