1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四讲:双变量回归模型:推断问题,主要内容:,正态假定下的线性回归模型,置信区间估计,假设检验,回归分析的应用:预测,4.1,正态假定下的线性回归模型,新的假定,对估计量精度的再次度量,4.1.1,新的假定,假定,6,:各个干扰项之间无自相关性,给定任意的 ,和 之间的相关性为零。,即,图 正序列相关,图 负序列相关,图 零相关,假定,7,:和 的协方差为零,即 和 不相关。,该假定可由假定,1,和假定,2,推出,,干扰项的 概率分布假定,正态线性回归假定 都是正态分布,,假定,2,:均值,假定,5,:方差
2、假定,6,:协方差,即,更进一步,有,正态且独立分布,采用正态假定的基础,中心极限定理,如果存在大量独立同分布的随机变量,那么,除了少数例外情形,随着这些变量的个数无限的增大,它们的总和将趋于正态分布。,即使变量不是严格独立和同分布,只要样本容量足够大,也将趋于正态分布。,,是正态分布的,标准化,(,4-1,),(,4-2,),4.1.2,对估计量精度的再次度量,?为什么要对估计量精度进行再次度量,由于随机干扰项 未知,我们只能从误差的估计量,残差出发,对总体方差进行估计,的无偏估计,可以证明,,,2,的,最小二乘估计量,为,它是关于,2,的无偏估计量。,即有,(是自由度),在正态性假定,我
3、们可以得到,在随机误差 的方差 估计出来后,参数的方差和标准差的估计量为,的样本方差:,的样本标准差:,的样本方差:,的样本标准差:,其中:,将式(,4-1,)、(,4-2,)中的分母用样本标准差估计量替换后,(,4-3,),(,4-4,),4.2,置信区间估计,虽然在重复抽样中估计值的均值可能会等于真值,但由于抽样波动,单一估计值很可能不同于真值。在更多情况下,我们希望能够围绕着点估计量构造区间,使这些区间从长远来看包含真值的概率为 。,在统计学中,一个点估计量的可靠性由它的标准误来度量。,对回归系数,,我们试着求出两个正数 ,使得随机区间 包含,的概率为,这个区间就称为置信区间;,称置信水
4、平;称显著性水平,置信下限;置信上限,(,4-5,),对(,4-5,)变形得到,由于,(,4-6,),(,4-7,),(自由度:),(,4-8,),简练的说,,的 置信区间为:,?如何解释置信区间,例,1,:如果在消费,-,收入例子中,抽取一个样本后,求得 ,;在给定 的置信水平下,由于 ,可求出其置信区间,即,对这个置信区间的解释是:在给定置信水平为,,,从长远看,在类似于 的每,100,个区间中,将有,95,个包含着真实的 值。,能否说:包含真实的 值的概率是 ;或者,说 以 的概率落在区间 上。,的置信区间,解释:给定置信水平为 ,从长远来看,在类似,的,100,个置信区间中,将有,95
5、个包含着真实的 值。,4.3,假设检验,4.3.1,显著性检验,4.3.2,假设检验中的一些实际操作问题,4.3.1,显著性检验,所谓,假设检验,,,就是事先对总体参数或总体分布形式作出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定是否接受或拒绝原假设,。,:原假设,:备择假设,是否有足够的统计证据,使我们推断出原假设的可接受性,显著性检验,回归分析,是要判断,解释变量,X,是否是,被解释变量,Y,的一个显著性的影响因素。,计量经济学中,主要是针对变量的参数真值是否为零来进行显著性检验的。,在前面,我们已经求出,因此,通过构造出 统计量,来完成
6、我们的显著性检验,检验步骤:,(,1,)对总体参数提出假设,(,2,)以原假设 构造,t,统计量,并由样本计算其值,(,3,)给定显著性水平,,查,t,分布表,得临界值,t,/2,(n-2),(4),比较,判断,若,|t|,t,/2,(n-2),,,则拒绝,H,0,,,接受,H,1,;(显著),若,|t|,t,/2,(n-2),,,则拒绝,H,1,,,接受,H,0,;(不显著),显著,显著,不显著,4.3.2,假设检验中的一些实际操作问题,“接受”或“拒绝,”,原假设的含义,接受 :根据样本证据,我们还没有理由去拒,绝 ,而不是说原假设是真的,正如一个法庭要宣告某一判决为“无罪,”,而非“清白
7、一样,统计检验的结论也应为“不拒绝,”,而不是“接受”,建立虚拟假设和对立假设,根据我们所研究的现象去确定虚拟假设,研究者要在进行经验研究之前建立这些假,设,不要为维护经验结果而建立某种假设。,显著性水平的选择,犯第一类错误的概率(拒绝了真值的概率),犯第二类错误的概率(接受了错误假设的概率),减少犯第一类错误的概率 犯第二类错误的概率增加,我们需要去考察犯这两类错误的代价,困难在于我们往往并不能合理确定出这些代价,因此,应用计量经济学家一般都跟随大多数,把显著性水平 定在,1%,,,5%,甚至,10%,的水平上。,精确的显著性水平:值,当我们对给定的样本算出一个检验统计量的值时,为什么
8、不去查一下统计表,看看得到从样本得到的检验统计量的确切概率呢?,这个概率叫 值,也叫精确显著性水平,更专业的说:值被定义为一个虚拟假设可被拒绝的最低显著性水平。,把 固定在某一水平上,并在 时,拒绝原假设。,4.4,回归分析的应用:预测,4.4.1,均值预测,4.4.2,个值预测,4.4.1,均值预测,根据,给定 我们可以得到一个点预测量 ,并且它会是一个最优线形无偏估计量。,我们通过 总体均值 (均值预测),构造 统计量,于是,在,1-,的置信度下,,总体均值,E(Y|X,0,),的置信区间为,4.4.2,个值预测,我们通过 观测值(真实值)(个值预测),个值预测 点预测,构造 统计量,于是,在,1-,的置信度下,,总体均值 的置信区间为,的均值预测,的个值预测,对于,Y,的总体均值,E(Y|X),与个体值的预测区间(置信区间),:,(,1,),样本容量,n,越大,预测精度越高,反之预测精度越低;,(,2,),样本容量一定时,置信带的宽度当在,X,均值处最小,其附近进行预测(插值预测)精度越大;,X,越远离其均值,置信带越宽,预测可信度下降。,