资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,线性回归,线性回归的基本概念,线性回归分析是描述一个因变量Y,(响应变量或应变量,dependent variable),与一个或多个自变量X,(independent variable),线性依从关系。根据自变量数目的不同可分为一元线性回归和多元线性回归。,一元线性回归:,仅有一个自变量,多元线性回归:,有两个或两个以上的自变量,。,第一节 一元线性回归,一,.,概念,根据若干观察数据(x,i,y,i,,i=1,2,n)找出描述两个变量x,y 之间关系的直线回归方程。,通用的表达式为:,式中,:,:由自变量 X 推算应变量 Y 的估计值,,a:回归直线在Y 轴上的截距,即X=0时的Y值,a 0,a 0,a=0,b:样本的回归系数,即回归直线的斜,率,表示当X变动一个单位时,Y平,均变动 b 个单位。,b 0,b 0,b 与 r 符号一致。,二.回归方程的计算,计算公式:,待产妇尿中雌三醇含量与产儿体重的关系,三一元线性回归方程的假设检验,1.,回归系数的假设检验,(1),对斜率的检验:,假设总体回归系数,为,0,即Ho:,=0 H,1,:,检验公式:,如果 tt,那么 P,故不拒绝H,1,,不能认为回归系数为零。如果 t,故不拒绝H,0,,不能认为回归系数不为零。,同一数据对相关系数的检验和对回归系数的检验其结果相同。即 t,r,=t,b,本例 t=4.14 (因为t,b,=t,r,=4.14)查表得 t,0.01(29),=2.756,所以 t t,0.01(29),故 p0.01在,=0.05的水平上,因为,p0.01,所以,拒绝检验假设Ho,认为待产妇24小时尿中雌三醇含量与产儿体重之间存在直线回归关系。,(2)对截距的检验:,假设总体方程截距为,0,2.R,2,(R Square),:判定系数或确定系数,判定系数R,2,:在 y 的总变异中,由 x 变量组建立的线性回归方程所能解释的比例。即,R,2,=SS,回归,/SS,总,例如,R,2,=0.775,则说明变量 y 变异中有77.5%,是由变量 x 引起的。,R,2,=1时,所有的观察点全部落在回归直线,上,说明变量 y的 变异完全可以由,变量 x 解释。,R,2,=0时,表示自变量与因变量无线性关系,。,判定系数是反映一个线性回归模型拟合好坏的一个重要指标。,SPSS操作步骤:,Analyze-Regression-Linear,把因变量,产儿体重(y),选入,dependent 框,把自变量,尿雌三醇(x),选入,independent 框,method:可选择 enter,forward,backward,stepwise,点击statistics:出现若干统计选项可供选择,Continue,OK,结果,对回归方程的检验-方差分析,尿中雌三醇推算产儿体重的回归分析及对截距和回归系数的显著性检验,回归方程为:,绘制回归直线图,SPSS 操作步骤:,graphs-scatter,选择 simple 单击 define,把,产儿体重(y),变量选入,Y axis,框,把,尿雌三醇(x),变量选入,X axis,框,OK,光标放在散点图中双击鼠标左键,然后单击,A,出现scatterplot option 对话框,选择fit line中的,total,单击fit option,选择,linear regression,continue-OK,待产妇尿雌三醇含量与产儿出生体重回归直线图,第二节 多元线性回归,1.多元线性回归的概念,根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析。,多元回归分析的模型为:,或总体多元回归分析的模型为:,(,读epsilon):,残差,式中:是根据所有自变量 x 算出的 y 的,估计值。,b,0,:为常数项,b,1、,b,2、,b,3 ,b,n,:y 对应于x,1、,x,2、,x,3 ,x,n,的偏回归系数。,:,它是 y 的变化中不能为自变量所解释的部分,服从 。,偏回归系数:表示在其它自变量固定不变的情况下,自变量 x,i,每改变一个单位,单独引起因变量 y 的平均改变量。,2.多元线性回归对数据的要求和应用,(1)对数据要求,Y 为正态分布的连续的随机变量,X 为数值型变量,(2)应用,一组容易测量的自变量对因变量进行预测。,找出对因变量 y 的影响因素,并比较这些因素的作用大小。,3.多元回归分析中的参数,(1)复相关系数R,(multiple correlation coefficient):,表示回归模型中所有的自变量 x 与因变量 y 线性相关的密切程度的指标。实际上是y,i,与其估计值 的简单线性相关系数,即pearson相关系数,R,的取值范围:,0 1 即 0=,R,=1,其值越接近1,表示其线性关系越强,,越接近0,表示其线性关系越差。,(2)R,2,(R Square):判定系数或确定系数,调整判定系数(Adjusted R Square),判定系数R,2,:在 y 的总变异中,由 x 变量组建立的线性回归方程所能解释的比例。即,R,2,=SS,回归,/,SS,总,调整判定系数:,判定系数的大小是随着进入回归方程的自变量个数的增加而增大,为了消除自变量个数对判定系数的影响,所以对判定系数进行了修正。,Adjusted R Square =SS,回归,(n-k-1),/,SS,总,(n-1),式中,n,为样本例数,,k,为模型中自变量的个数。当模型中增加的自变量没有统计学意义时,调整判定系数会减少。调整判定系数越大,模型拟合越好。,(3),零阶相关系数、部分相关与偏相关系数,零阶相关系数(Zero-Order):自变量与因变量之间的简单相关系数。,部分相关(Part Correlation):当一个自变量xi进入回归方程模型后,复相关系数的平方R,2,(判定系数)的增加量。即 R,2,xi 进入后,-R,2,xi 进入前,偏相关系数(Partial Correlation):在排除了其它自变量对y的影响后,自变量x,i,与因变量y 之间的相关性,。,4.多元线性回归分析的检验,(1)方差分析:对整个回归方程的显著性检验,检验假设:总体回归系数均为0,备择假设:总体回归系数不全为0或全不为0,F=MS,回归,/,MS,残差,若 p,,变量组 x 对 y 的影响具有统计学意义。,(2)偏回归系数与常数项的检验,t=b,i,/,SE,b,i,即:,t=偏回归系数,/,偏回归系数的标准误,常数项的检验同理。,(3)对回归方程的方差分析 与偏回归系数检验的关系,在多元分析中,方差分析是对整个回归方程的显著性检验,它与单独对每一个偏回归系数的显著性检验不一定等效,就是说,方差分析得出的回归方程有统计学意义,不一定该方程中每一个偏回归系数均有统计学意义,但至少有一个偏回归系数有显著性。,(4)对自变量的检验-偏回归平方和,其中:SS,回归,为回归平方和,,SS,残差,为残差平方和。,偏回归平方和:,指将某自变量X,i,从回归方程中剔除后所引起的回归平方和的减少量,。,偏回归平方和的大小也间接反映自变量对因变量的贡献大小。,(4)对自变量的检验-偏回归平方和,X,2,的偏回归平方和=,SS,回归,SS,回归-X,2,X,2,的偏回归平方和越大,说明X,2,对Y的影响也越大。,SS,回归,剔除X,2,后的SS,回归-X,2,其中:n 为样本例数,,p 为回归方程中自变量个数。,如果 F(x,i,),那么,该变量x,i,对因变量 y 的影响没有统计学意义。,(4)对自变量的检验-偏回归平方和2,对偏回归平方和显著性检验为:,5.选择不同的多元线性回归的分析方法,强行进入法(,Enter,),:,为默认选择项,定义的全部自变量均引入方程。,向后剔除法(,Backward,),:,先建立一个包含全部自变量的回归方程,然后每次剔除一个偏回归平方和最小且无统计学意义的自变量,直到不能剔除为止。,5.选择不同的多元线性回归的分析方法2,(3)向前引入法(Forward),:回归方程由一个自变量开始,每次引入一个偏回归平方和最大,且具有统计学意义的自变量,由少到多,直到无统计学意义的自变量将要被引入为止。,(4)逐步筛选法(Stepwise),:它是向前引入法和向后剔除法的结合。,6.回归方程的评价,(1),R,2,判定系数,判定系数是反映一个线性回归模型拟合好坏的一个重要指标。一般来说能达到70%说明线性回归模型拟合较好。,(2)分析回归方程的残差分布来评价回归方程的拟合效果,残差:,观察值,Y,i,与估计值 之差,即,在正常情况下残差服从均数为,0,,方差为,的正态分布。,学生氏残差(Studentized residual),经过数学转换得到,在SPSS分析中用 与 作图,若,无特殊的分布趋势,:理想的残差分布;,曲线趋势,:提示回归方程对资料的信息概括的尚不充分,需要增加新的非线形回归项。,2,1,0,-1,-2,e,x,i,残差的独立性,回归模型的假设是残差的独立性,Durbin-Watson 检验,其参数称为D或Dw。D的取值范围是,0D4,D,2 独立;,D 2 负相关。,(3)共线形问题,共线性(collinearity),:在回归分析中,如果自变量间存在很高的线性相关性,则回归变量间存在共线性。如果有共线性存在,评价自变量的贡献率就非常困难。,共线性诊断常用的参数:,容忍度,方差膨胀因子,条件参数,容忍度(,Tolerance),变量Xi 与其它自变量x之间的复相关系数的平方 。它的值越接近于1,说明自变量Xi与其它自变量之间共线性越大。,容忍度的取值为01,容忍度越小自变量间共线性越大,。,方差膨胀因子(,VIF,),方差膨胀因子是容忍度的倒数,方差膨胀因子的值越大自变量间共线性的可能性越大。,VIF5 或 10 说明存在严重的共线性。,条件参数(,Condition Index,),条件参数的值越大说明自变量间共线性的可能性越大。,0条件参数10 认为没有共线性;,10条件参数30 认为严重共线性;,三、举例,29 例儿童的血液中血红蛋白(Y)、与钙(x1)、镁(x2)、铁(x3)、猛(x4)及铜(x5)含量见数据文件“回归.sav”对此数据进行回归分析。,SPSS操作步骤:,Analyze-Regression-Linear,dependent:因变量,independent:自变量,method:可选择,enter,forward,backward,stepwise,点击statistics:出现若干统计选项可供选择,Continue,OK,举例SPSS 操作步骤1,SPSS,操作步骤2,SPSS 多元回归结果,结果解释,注:E-02=10,-2,correlation,Variable enter/removed,Model summary,Excluded Variables,Coefficients,锰,铜,镁,回归方程为:,Excluded variables,
展开阅读全文