收藏 分销(赏)

第四讲线性回归-PPT.pptx

上传人:1587****927 文档编号:1666442 上传时间:2024-05-07 格式:PPTX 页数:63 大小:719.42KB
下载 相关 举报
第四讲线性回归-PPT.pptx_第1页
第1页 / 共63页
第四讲线性回归-PPT.pptx_第2页
第2页 / 共63页
第四讲线性回归-PPT.pptx_第3页
第3页 / 共63页
第四讲线性回归-PPT.pptx_第4页
第4页 / 共63页
第四讲线性回归-PPT.pptx_第5页
第5页 / 共63页
点击查看更多>>
资源描述

1、第四讲线性回归导论统计分析:根据统计数据提供得资料,揭示变量之间得关系,并由此推演为事物之间内在联系得规律性为什么学习回归分析u回归分析探讨客观事物之间得联系,表现为变量之间得统计关系u建立在对客观事物进行大量实验与观察得基础上,用来寻找隐藏在瞧起来不确定得现象中得统计规律得统计方法u因因变量衡量方式得不同,回归分析可分为线性回归与非线性回归u线性回归适用于因变量为连续衡量得场合u非线性回归多适用于因变量为虚拟变量、多分类变量、计数变量等场合u即便在这两大类中,分析方法又可区分为许多不同得类型u根据处理得变量多少来瞧,回归分析又分为:u简单相关与一元回归:研究得就是两个变量之间得关系u多元相关

2、或多元回归:研究得就是多个变量之间得关系本章主要内容9、1、变量间得相关关系(correlation)9、2、线性回归概述9、3、一元线性回归9、4、多元线性回归9、1、变量间得相关关系(correlation)1、函数关系u回归分析前,首先必须掌握变量之间就是否相关;只有变量之间存在关系,才有必要进行回归分析u假若x增加时,y得取值发生相应变化,则x与y之间就是相关得u假若x增加时,y得取值没有确定得变化,x则y与之间就是不相关得,或就是没有相关关系得u变量之间得相关关系归纳起来可以分为两种:函数关系函数关系与统计统计关系关系2 2、统计相关、统计相关u现实事物之间得联系不像函数关系那样容易

3、确定u现象之间存在关联;但无法确定具体关系,不能像函数关系那样,用一个公式将它们得关系准确地描述出来;当一个变量取一定得值时,另一个变量可能有多个取值u当一个变量得值不能由另一个变量得值唯一确定时当一个变量得值不能由另一个变量得值唯一确定时,这种这种关系称为统计关系关系称为统计关系u统计关系不如函数关系直接与明确;但通过对大量数据得观察与研究,就会发现许多变量之间确实存在着某种关联,强弱各不相同3、相关关系得特点u双向变化关系;u一个变量得取值不能由另一个变量得取值唯一确定;当x取一定得值时,y可能有多个取值,因为还受到其她因素得影响;u不确定关系难以用函数关系来衡量与描述,但这并不表示x与y

4、之间无规律可循;u类似定性描述u相关分为线性相关与非线性相关。4、相关分析u对两对两(多多)个变量之间得关系进行描述个变量之间得关系进行描述,分析它们分析它们u就是否相关就是否相关u关系就是否密切关系就是否密切u关系得性质就是什么关系得性质就是什么(就是正相关还就是负相关就是正相关还就是负相关)u随着随着x x得变化得变化,y y值得变化程度就确定二者就是否相关与相关得值得变化程度就确定二者就是否相关与相关得强度强度u当当x x增加增加(减少减少)时时,y y得取值也随之增加得取值也随之增加(减少减少),),则则x x与与y y之间呈正之间呈正相关关系相关关系;相反相反,当当x x增加增加(减

5、少减少)时时,y y得取值却随之减少得取值却随之减少(增加增加),),则与之间呈负相关关系则与之间呈负相关关系u相关分析得方法包括散点图与相关系数相关分析得方法包括散点图与相关系数相关散点图(scatter plot)相关系数相关系数u图形虽然直观,但不够精确;对散点图得视觉分析带有很大得主观性;需要更精确与更客观得度量;u相关系数可准确地描述变量之间得线性相关程度;u线性相关系数相关系数就是衡量变量之间相关程度得统计量,就是描述两变量线性关系强度及方向得数值;u若相关系数就是根据总体数据计算得,称为总体相关系数,记为;若就是根据样本计算出来得,则称为样本相关系数,记为r;u在统计学中,一般用

6、样本相关系数来推断总体相关系数。12大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流大家有疑问的,可以询问和交流相关系数:性质与方向相关系数:程度根据经验,可以将相关程度分为几等:但这种解释必须建立在对相关系数进行显著性检验得基础之上。相关系数:其它特征相关系数得计算u、correlate 变量名变量名 u u u:、correlate也可写为corr,就是生成变量之间相关系数矩阵、协相关矩阵、回归系数相关矩阵得基本命令;u:需要生成相关关系得变量名称u如如:corr age edu weight heightu若要给出相关系数若

7、要给出相关系数(每个变量得上行每个变量得上行)及其假定检验得及其假定检验得P指指,使用命令使用命令:u pwcorr 变量名变量名,sig 9 9、2 2、线性回归概述、线性回归概述“回归回归”一词来自英国学者、优生学得创始人一词来自英国学者、优生学得创始人S S、F F、Galton Galton(1822-19111822-1911)。GaltonGalton在对遗传现象进在对遗传现象进行研究后发现行研究后发现,当高个得夫妻或矮个得夫妻有了孩当高个得夫妻或矮个得夫妻有了孩子时子时,这些孩子得身高趋于回归到更典型得、同一这些孩子得身高趋于回归到更典型得、同一性别得人得平均身高。性别得人得平均

8、身高。1 1、回归分析、回归分析u通过找出代表变量之间关系得直线图形或直线方程来描述变量之间得数学关系u这条直线称为回归直线;u该直线方程称为回归方程。u一元线性回归就是回归分析中最简单、最基本得回归分析,描述两个变量之间得关系。u它就是根据统计资料,寻求一个变量与另一个变量关系得恰当数学表达式得经验方程,来近似地表示变量间得平均变化关系得一种统计分析方法:u其中一个变量作为DV或被解释变量,通常用y表示;u另一个变量IV(预测变量或解释变量)通常用x表示。2 2、相关分析与回归分析之别、相关分析与回归分析之别u依存关系与平等关系依存关系与平等关系。回归反映两个变量得依存关系,一个变量得改变引

9、起另一个变量得变化,就是一种单向得关系;其y变量称为因变量,被解释变量;在相关分析中,变量与变量处于平等地位:双向关系u关系程度与影响大小关系程度与影响大小。相关分析主要就是刻画两类变量间线形相关得密切程度;而回归分析不仅要揭示自变量对因变量得影响大小,还可以由回归方程进行预测与控制。因此,回归就是对两(多)个变量作定量描述,研究变量之间得数量关系,从已知得一个变量得取值预测另一个变量得取值,得到定量结果。3 3、回归分析得目得、回归分析得目得u从一组样本数据出发从一组样本数据出发,确定解释变量确定解释变量(IV IV)与被解释变量与被解释变量(DVDV)之之间得数学关系式间得数学关系式;回归

10、方程就就是要找出一条最好地描述两个变回归方程就就是要找出一条最好地描述两个变量之间关系得直线方程。量之间关系得直线方程。u对该关系式得可信程度进行各种统计检验对该关系式得可信程度进行各种统计检验;从影响从影响DVDV得一组得一组IVIV中中找出哪些变量得影响就是显著得找出哪些变量得影响就是显著得,那些就是不显著得。那些就是不显著得。u利用直线方程利用直线方程(即所求得关系即所求得关系),),根据一个或几个变量得取值来估根据一个或几个变量得取值来估计或预测计或预测DVDV得取值得取值,并给出这种估计或预测得置信度。并给出这种估计或预测得置信度。u预测就是有规律得。如预测就是有规律得。如,u利用汽

11、车得速度来预测它刹车所需要得距离利用汽车得速度来预测它刹车所需要得距离u利用学生得中学成绩来预测考上大学得成功率利用学生得中学成绩来预测考上大学得成功率u精确得精确得y y值就是不可预测得值就是不可预测得,靠近实际值。靠近实际值。4、回归分析得用途u用于研究一个用于研究一个IVIV对一个数值型对一个数值型DVDV在数量上得影响程度。设在数量上得影响程度。设有两个变量有两个变量,x x,y y,其中其中,y y得取值随得取值随x x取值得变化而变化取值得变化而变化,故故y y就是就是DVDV,x x就是就是IVIV。u对于这两个变量,通过观察或试验得到若干组数据,记为1,2,n)。若x以代表年龄

12、,以y代表教育,则从散点图中,可以清楚地确认x与y存在线性关系线性回归模型:回归直线儿童得年龄与教育之间存在很强得正向相关关系线条就就是回归直线回归直线(regression line)如何将变量之间得相关关系用数学关系得代数表达式表达出来线性回归得理论模型u等式(9、1)称为一元线性回归模型,描述因变量y如何依赖于自变量x与误差项e而异。在该模型中,y就是x得线性函数(0+1x 部分)加上误差项e。其中,u0与1就是模型得未知参数,前者称为回归常数项(或截距,intercept);后者称为回归系数(coefficient);0+1x反映了由于x得变化而引起得y得变化,也称为边际变化化(当当变

13、量量x变化化一一个个单位位时,变量量y改改变得数量得数量)ue就是被称为误差项得随机变量,代表因主观与客观原因而不可观测得随机误差,反映了除x与y之间得线性关系之外得随机因素对y得影响,就是不能由x与y得线性关系所揭示得变异性。(9、1)线性回归模型得基本假定(1)零均值,即 。误差项就是一个期望值=0 得随机变量在自变量取一定值得条件下,其总体各误差项得条件平均值为0。这意味着,在等式(9、1)中,由于0与1都就是常数或系数,故有因此,对于一个给定得x值,y得期望值为(2)等方差,即对于所有得x值,e得方差2都相同(3)误差项服从正态分布,且相互独立,即(9、2)总体回归方程(equatio

14、n)(I)根据回归模型得假定,误差项得期望值为0;因此,y得期望值等于一元总体回归方程总体回归方程:(9、4)(9、3)总体回归方程(II)(预测得)回归方程回归分析得三种检验F检验用于检验回归方程得显著性R2用于测度回归直线对观测数据得拟合程度;也称判定系数、可决系数(coefficient of determination)t检验用于检验自变量回归系数得显著性reg edu ageu上部分分为左右两个区域上部分分为左右两个区域u左边就是方差分析。方差部分给出回归平方与(Model)、残差平方与(Residual),总平方与(Total),自由度(df),回归与残差得均方(MS)u右边就是回

15、归统计量。包括检验统计量(F),F检验得显著水平(ProbF),R2(R-square)(判定系数),Adj R-squared(调整后得R2),观测值得个数(即样本量),估计标准误差(Root MSE)u下部分就是参数估计得内容下部分就是参数估计得内容。包括回归方程截距(_cons)与斜率(Coef)得参数估计、标准误、t 统计量,P值(P|t|),置信区间(95%Conf、Interval)(1)判定系数R2:概念与计算对估计得回归方程拟合优度得度量,也就就是要检验样本数据聚集在样本回归直线周围得密集程度,从而判定回归方程对样本数据得代表程度;该指标就是建立在对总离差(deviation)

16、平方与进行分解得基础之上。显然,各样本观测点(散点)与样本回归直线靠得越紧,SSR/SST则越大,直线拟合得越好。将该比例定义为判定系数或可决系数,记为R2(1)判定系数R2:意义u若所有观测值都落在回归直线上,则 R2=1,拟合就是完全得,模型具有完全解释能力;如果回归直线没有解释任何离差,则y得总离差全部归于残差平方与,即SST=SSE,R2=0,表示自变量x对因变量y得变异缺乏解释能力u通常观测值都就是部分地落在回归线上,即0 R2 1uR2 越接近1,表明回归直线得拟合优度越好;反之,R2 越接近于0,则回归直线得拟合程度就越差。u就上面得例子而言,判定系数得实际意义就是,在教育水平取

17、值得离差中,有将近86%可以由年龄与教育之间得线性关系来解释;即86%得差异就是由孩子得年龄决定得孩子年龄可以解释教育差异得86%。(2)F检验:概念u对总体回归方程得显著性检验,就是对因变量与所有自变量之间得线性关系就是否显著得一种假设检验;u回归分析得主要目得就是,根据所建立得估计方程用自变量x来估计、预测因变量y得取值;u当我们建立了估计方程后,还不能马上进行估计或预测,因为该估计方程就是根据样本数据得出得,它就是否真实地反映了变量x与y之间得关系,需要通过检验后才能证实;u该检验利用方差分析得方法进行。F统计量定义为:平均得回归平方与与平均得残差平方与(均方误差)之比。(2)F检验:计

18、算方法uMSR(mean square regression)即回归均方,等于回归平方与除以它得自由度;uMSE(mean square error)即残差均方,等于残差平方与除以它得自由度;u统计量F服从第一自由度为1,第二自由度为n-2得F分布。(2)F检验步骤u利用F统计量进行回归方程显著性检验得步骤如下:u(1)提出假设:uH0:1=0(两个变量之间得线性关系不明显)uH1:1 0(两个变量之间存在显著得线性关系)u若原假设成立,说明回归总体缺乏显著线性关系,反之表明回归总体存在显著得线性关系,即自变量x对y有显著得线性作用,解释变量总体系数不为零。u(2)计算回归方程得F统计量值u(

19、3)根据给定得显著水平确定临界值F(1,n-2),或计算F值对应得P值u(4)做出判断。若F值大于临界值F(1,n-2)或p F=0、0000,有充分得理由拒绝原假设,教育与孩子年龄之间得线性关系就是显著得(3 3)T T检验检验定义定义u对回归系数显著性得检验,检验自变量对因变量得影响就检验自变量对因变量得影响就是否显著是否显著,也即就是检验各解释变量得回归系数就是否等也即就是检验各解释变量得回归系数就是否等于于0;u之所以对回归系数进行显著性检验,就是因为回归方程得显著性检验只能检验所有回归系数就是否同时与0有显著差别,它不提供回归方程中得各自变量回归系数与因变量关系得显著性;u在一元线性

20、回归模型中,如果回归系数 1=0,则回归线就是一条水平线,表明因变量得取值不因自变量而异,即两个变量之间没有线性关系;u如果回归系数1 0,也不能得出两个变量之间存在线性关系得结论。该结论依赖于这种关系就是否具有统计意义上得显著性。(3)T检验检验步骤(a)首先提出原假设与备择假设:H0:1=0H1:1 0(b)计算回归系数t 得统计量值(c)根据给定得显著水平确定临界值,或计算t值所对应得P值(d)作出判断。若t值大于临界值或p|t|Beta-+-yrsch|-、5025551 、0705833 -7、12 0、000 -、0942719 ine|-、0011525 、0000518 -22

21、、25 0、000 -、294639 _cons|29、46081 、5690665 51、77 、-回归方程为:标准回归系数、regress hhwktot yrsch ine,beta-hhwktot|Coef、Std、Err、t P|t|Beta-+-yrsch|-、5025551 、0705833 -7、12 0、000 -、0942719 ine|-、0011525 、0000518 -22、25 0、000 -、294639 _cons|29、46081 、5690665 51、77 、-输出结果不同:置信区间换成了标准回归系数常数项得标准偏回归系数总就是0,故没有输出结果;其余内

22、容不变从标准回归系数判断,ine得作用显然远远超过yrsch得作用逐步回归(Stepwise regression)后退法后退法(backward):事先给定从方程中剔出自变量得临界值pr。模型开始包括所有变量,其后,每个回合去掉一个p值最大得自变量;直到所有自变量得p值都等于或低于指定得临界值前进法前进法(forward):事先挑选自变量进入方程得临界值pe。开始时方程中没有自变量,然后,按照自变量对因变量贡献得大小依次挑选进入方程,每选入一个变量,都要对已在模型中得变量进行检验,剔除p值大于临界值得变量,直到方程外变量得p值均大于指定得临界值、再没有自变量可引入方程为止。这样保证最后所得得

23、变量子集中得所有变量都就是有统计学意义得、sw sw regress hhwktot age girl hanzu chuzhong gaozh dazue ine urban,prpr(0、05)begin with full modelp=0、9464=0、0500 removing hanzu p=0、4427=0、0500 removing gaozhongp=0、5929=0、0500 removing dazue p=0、3556=0、0500 removing chuzhong Source|SS df MS Number of obs=1219-+-F(4,1214)=169、

24、01 Model|115091、899 4 28772、9746 Prob F =0、0000 Residual|206678、564 1214 170、245934 R-squared =0、3577-+-Adj R-squared=0、3556 Total|321770、463 1218 264、179362 Root MSE =13、048-hhwktot|Coef、Std、Err、t P|t|95%Conf、Interval-+-age|、2317112 、0955109 2、43 0、015 、0443264 、419096 girl|15、90959 、770415 20、65 0

25、、000 14、3981 17、42108 urban|-4、693933 、8519099 -5、51 0、000 -6、365312 -3、022554 ine|-、0007623 、0001057 -7、21 0、000 -、0009697 -、0005548 _cons|9、226292 3、255478 2、83 0、005 2、839304 15、61328-、sw sw regress hhwktot age girl hanzu chuzhong gaozh dazue ine urban,pepe(0、05)begin with empty modelp=0、0000 0、0

26、500 adding girlp=0、0000 0、0500 adding inep=0、0000 0、0500 adding urbanp=0、0154 F =0、0000 Residual|206678、564 1214 170、245934 R-squared =0、3577-+-Adj R-squared=0、3556 Total|321770、463 1218 264、179362 Root MSE =13、048-hhwktot|Coef、Std、Err、t P|t|95%Conf、Interval-+-girl|15、90959 、770415 20、65 0、000 14、39

27、81 17、42108 ine|-、0007623 、0001057 -7、21 0、000 -、0009697 -、0005548 urban|-4、693933 、8519099 -5、51 0、000 -6、365312 -3、022554 age|、2317112 、0955109 2、43 0、015 、0443264 、419096 _cons|9、226292 3、255478 2、83 0、005 2、839304 15、61328-多重共线性然而,在实际问题中,一些基本假定往往不能满足,使OLS方法失去BLUE性质一般情况下,随机扰动项均值等于0得假设条件基本能够得到满足;即

28、便不满足也不会影响解释变量得系数,只会影响截距项同样,随机扰动项正态分布得假设通常也能够成立。即便不成立,在大样本得情况下也会近似成立截面数据时,可能出现异方差,从而使分析结果产生偏差自变量之间不高度相关得假定有时得不到满足,造成多重共线性现象纵向数据中,随机扰动项可能自相关,造成由于序列自相关而引起得多重共线性多重共线性得定义及后果一些自变量或全部自变量高度相关(相关系数在0、80以上),即自变量之间有近似线性关系不仅出现于线性回归分析中,也适用于非线性多元回归完全多重共线性与不完全多重共线性后果:严重多重共线性时,参数估计得符号与其预期意义相反,使分析结果难以解释,得出完全错误得结论完全得

29、多重共线性:导致(1)参数估计值不确定(2)方差无限扩大多重共线性得后果不完全得多重共线性。可能导致以下现象:(1)虽然参数估计仍就是无偏估计,但不稳定(2)参数估计得方差随共线性程度得增强而增大(3)t检验失效,区间估计失去意义。这就是因为,存在多重共线性时,参数估计值得方差与标准差变大,t统计量得拒绝域变小(临界值增大),使通过样本计算得t值小于临界值,从而使我们错误地作出参数为0得推断若自变量内在相关程度太大,一个因素对因变量得影响可能取代另一个因素得影响,或相互抵消各自对因变量得作用,使原本具有显著性得解释因素变得无显著性意义,从而将重要得解释变量排除在模型之外多重共线性得判别方法 简单相关系数矩阵法简单相关系数矩阵法(辅助手段辅助手段):):这就是一个简单得方法。一般情况下,当系数在0、8以上时,即可初步判定两个变量之间存在线性相关但就是,相关系数受到其它因素得影响,不一定反映变量之间真实得相关程度;需采用其它方法再检验变量显著性与方程显著性综合判断法变量显著性与方程显著性综合判断法:若判定系数大,F值显著大于临界值,但t值不显著,则可认为存在多重共线性 辅助回归法辅助回归法 逐步回归法逐步回归法 多重共线性得判别方法:辅助回归法

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服