1、第五讲第五讲 回归分析、线性回归和曲线估计回归分析、线性回归和曲线估计n第一部分第一部分 回归分析回归分析n第二部分第二部分 线性回归线性回归n第三部分第三部分 曲线估计曲线估计1第一部分第一部分 第十讲回顾第十讲回顾 在对其他变量的影响进行控制在对其他变量的影响进行控制的条件下,衡量多个变量中某两个的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标称变量之间的线性相关程度的指标称为为偏相关系数偏相关系数。2偏相关分析的公式表达3什么是回归分析?什么是回归分析?1、重重点点考考察察一一个个特特定定的的变变量量(因因变变量量),而而把把其其他他变变量量(自自变变量量)看看作作是是影影响响
2、这这一一变变量量的的因因素素,并并通通过过适适当当的的数数学学模模型型将将变变量间的关系表达出来量间的关系表达出来2、利用样本数据利用样本数据建立模型建立模型的估计方程的估计方程3、对模型进行、对模型进行显著性检验显著性检验4、进进而而通通过过一一个个或或几几个个自自变变量量的的取取值值来来估估计计或或预测预测因变量的取值因变量的取值第一部分第一部分 回归分析回归分析4回归分析的模型回归分析的模型 一、分类一、分类按是否线性分:按是否线性分:线性回归模型线性回归模型和和非线性回归模型非线性回归模型按自变量个数分:按自变量个数分:简单的一元回归简单的一元回归和和多元回归多元回归 二、基本的步骤二
3、、基本的步骤 利用利用SPSSSPSS得到模型关系式,是否是我们所要的?得到模型关系式,是否是我们所要的?要看要看回归方程回归方程的显著性检验的显著性检验(F F检验)检验)回归系数回归系数b的显著性检验的显著性检验(T(T检验检验)拟合程度拟合程度R R2 2 (注:注:相关系数的平方相关系数的平方,一元回归用,一元回归用R SquareR Square,多元回归,多元回归用用Adjusted R SquareAdjusted R Square)5回归分析的回归分析的过程过程 在回归过程中包括:在回归过程中包括:nLinerLiner:线性回归:线性回归nCurve EstimationCu
4、rve Estimation:曲线估计:曲线估计 Binary LogisticBinary Logistic:二分变量逻辑回归二分变量逻辑回归 Multinomial LogisticMultinomial Logistic:多分变量逻辑回归;:多分变量逻辑回归;Ordinal Ordinal 序回归;序回归;ProbitProbit:概率单位回归;:概率单位回归;NonlinearNonlinear:非线性回归;:非线性回归;Weight EstimationWeight Estimation:加权估计;:加权估计;2-Stage Least squares2-Stage Least sq
5、uares:二段最小平方法;:二段最小平方法;Optimal Scaling Optimal Scaling 最优编码回归最优编码回归n我们只讲前面我们只讲前面2 2个简单的(一般教科书的讲法)个简单的(一般教科书的讲法)6第二部分第二部分 线性回归线性回归 线性回归分为线性回归分为一元线性回归一元线性回归和和多元线性回归多元线性回归。一、一元线性回归:一、一元线性回归:1 1、涉及一个自变量的回归、涉及一个自变量的回归2 2、因变量、因变量y y与自变量与自变量x x之间为线性关系之间为线性关系n被被预预测测或或被被解解释释的的变变量量称称为为因因变变量量(dependent(depende
6、nt variable)variable),用,用y y表示表示n用用来来预预测测或或用用来来解解释释因因变变量量的的一一个个或或多多个个变变量量称称为为自自变变量量(independent variable)(independent variable),用,用x x表示表示 3 3、因变量与自变量之间的关系用一个线性方程来表示、因变量与自变量之间的关系用一个线性方程来表示7线性回归的过程线性回归的过程 一元线性回归模型确定过程一元线性回归模型确定过程 一、做散点图一、做散点图(Graphs-Scatter-Simple)目的是为了以便进行简单地观测(如:目的是为了以便进行简单地观测(如:Sa
7、lary与与Salbegin的关系的关系)。二、建立方程二、建立方程 若散点图的趋势大概呈线性关系,可以建立线性方若散点图的趋势大概呈线性关系,可以建立线性方程,若不呈线性分布,可建立其它方程模型,并比较程,若不呈线性分布,可建立其它方程模型,并比较R2(-1)来确定一种最佳方程式(曲线估计)。来确定一种最佳方程式(曲线估计)。多元线性回归一般采用逐步回归方法多元线性回归一般采用逐步回归方法-Stepwise。8(一一)一元线性回归模型一元线性回归模型(linear regression model)(linear regression model)1、描描述述因因变变量量 y 如如何何依依赖
8、赖于于自自变变量量 x 和和误误差差项项 的方程称为的方程称为回归模型回归模型2、一元线性一元线性回归模型可表示为回归模型可表示为 y=0 0+1 1 x +注注:线线性性部部分分反反映映了了由由于于x x的的变变化化而而引引起起的的y y的的变变化化;误误差差项项 反反映映了了除除x x和和y y之之间间的的线线性性关关系系之之外外的的随随机机因因素素对对y y的的影影响响,它它是是不不能能由由x x和和y y之之间的线性关系所解释的变异性。间的线性关系所解释的变异性。Y Y是是x x 的线性函数的线性函数(部分部分)加上误差项加上误差项 0 0 和和 1 1 称为模称为模型的参数型的参数误
9、差项误差项 是随机是随机变量变量9一元线性回归模型(基本假定)一元线性回归模型(基本假定)1、因变量、因变量x与自变量与自变量y之间具有之间具有线性线性关系关系2、在重复抽样中,自变量、在重复抽样中,自变量x的取值是的取值是固定的,即固定的,即假定假定x是非随机的是非随机的3、误差项、误差项 满足条件满足条件10误差项误差项 满足条件满足条件l正态性正态性。是是一个服从正态分布的随机变量,一个服从正态分布的随机变量,且期望值为且期望值为0,即,即 N(0,2)。对于一个给定的。对于一个给定的 x 值,值,y 的期望值为的期望值为E(y)=0+1xl方差齐性方差齐性。对于所有的。对于所有的 x
10、值,值,的方差一个特的方差一个特定的值,的方差也都等于定的值,的方差也都等于 2 都相同。同样,一个特都相同。同样,一个特定的定的x 值,值,y 的方差也都等于的方差也都等于 2l独立性独立性。独立性意味着对于一个特定的。独立性意味着对于一个特定的 x 值,值,它所对应的它所对应的与其他与其他 x 值所对应的值所对应的不相关;对于一不相关;对于一个特定的个特定的 x 值,它所对应的值,它所对应的 y 值与其他值与其他 x 所对应的所对应的 y 值也不相关值也不相关11估计的回归方程估计的回归方程(estimated regression equation)1.总总体体回回归归参参数数0和和1是
11、是未未知知的的,必必须须利利用用样样本本数数据去估计据去估计2.用用样样本本统统计计量量 和和 代代替替回回归归方方程程中中的的未未知知参参数数0和和1,就得到了,就得到了估计的回归方程估计的回归方程3.一元线性回归中估计的回归方程为一元线性回归中估计的回归方程为其其中中:是是估估计计的的回回归归直直线线在在 y 轴轴上上的的截截距距,是是直直线线的的斜斜率率,它它表表示示对对于于一一个个给给定定的的 x 的的值值,是是 y 的的估估计计值值,也表示也表示 x 每变动一个单位时,每变动一个单位时,y 的平均变动值的平均变动值 xy 1b0b+=0by 1b1b0b12(二)(二)参数的最小二乘
12、估计参数的最小二乘估计n德国科学家德国科学家Karl Gauss(17771855)提出用最提出用最小化图中垂直方向的误差平方和来估计参数小化图中垂直方向的误差平方和来估计参数 n使因变量的观察值与估计值之间的误差平方和使因变量的观察值与估计值之间的误差平方和达到最小来求得达到最小来求得 和和 的方法。即的方法。即0b1b最小=-=-=niiiniixyyy121012)()(bb注:用最小二乘法拟合的直线来代表注:用最小二乘法拟合的直线来代表x与与y之间的关之间的关系与实际数据的误差比其他任何直线都小。系与实际数据的误差比其他任何直线都小。13Karl Gauss的最小化图的最小化图 (x(
13、x2 2,y,y2 2)(x(x1 1,y,y1 1)(x(xi i,y,yi i)e ei i=y=yi i-y-yi i (x(xn n,y,yn n)y yx x14参数的最小二乘估计参数的最小二乘估计(和 的计算公式)根据最小二乘法,可得求解 和 的公式如下:0b1b0b1b15(三)(三)回归直线的拟合优度回归直线的拟合优度一、变差一、变差1、因因变变量量 y 的的取取值值是是不不同同的的,y 取取值值的的这这种种波波动动称称为为变变差差。变差来源于两个方面。变差来源于两个方面n由于自变量由于自变量 x 的取值不同造成的的取值不同造成的n除除 x 以以外外的的其其他他因因素素(如如x
14、对对y的的非非线线性性影影响响、测测量量误误差差等等)的影响的影响2、对对一一个个具具体体的的观观测测值值来来说说,变变差差的的大大小小可可以以通通过过该该实实际观测值与其均值之差际观测值与其均值之差 来表示来表示yy-16误差分解图误差分解图x xy yy y17误差平方和的分解误差平方和的分解 (误差平方和的关系误差平方和的关系)SST=SSR+SSE总平方和总平方和总平方和总平方和(SSTSST)回归平方和回归平方和回归平方和回归平方和(SSRSSR)残差平方和残差平方和残差平方和残差平方和(SSESSE)18误差平方和的分解误差平方和的分解 (三个平方和的意义三个平方和的意义)1、总平
15、方和总平方和(SSTtotal sum of squares)n反映因变量的反映因变量的 n 个观察值与其均值的总误差个观察值与其均值的总误差2、回回 归归 平平 方方 和和(SSRsum of squares of regression)n反反映映自自变变量量 x 的的变变化化对对因因变变量量 y 取取值值变变化化的的影影响响,或或者者说说,是是由由于于 x 与与 y 之之间间的的线线性性关关系系引引起起的的 y 的取值变化,也称为可解释的平方和的取值变化,也称为可解释的平方和3、残差平方和、残差平方和(SSEsum of squares of error)n反反映映除除 x 以以外外的的其
16、其他他因因素素对对 y 取取值值的的影影响响,也也称称为不可解释的平方和或剩余平方和为不可解释的平方和或剩余平方和19判定系数判定系数R2 (coefficient of determination)回归平方和占总误差平方和的比例回归平方和占总误差平方和的比例()()=-=niiniiyyyySSTSSRR121221、反映回归直线的拟合程度2、取值范围在 0,1 之间3、R2 1,说明回归方程拟合的越好;R2 0,说明回归方程拟合的越差4、决定系数平方根等于相关系数20估计标准误差估计标准误差(standard error of estimate)1、实际观察值与回归估计值误差平方和的均方根
17、、实际观察值与回归估计值误差平方和的均方根2、反映实际观察值在回归直线周围的分散状况、反映实际观察值在回归直线周围的分散状况3、对对误误差差项项 的的标标准准差差 的的估估计计,是是在在排排除除了了x对对y的的线性影响后,线性影响后,y随机波动大小的一个估计量随机波动大小的一个估计量4、反映用估计的回归方程预测、反映用估计的回归方程预测y时预测误差的大小时预测误差的大小 5、计算公式为(、计算公式为(k为自变量个数)为自变量个数)()MSEknSSEknyysniiie=-=-=111221(四)(四)显著性检验显著性检验线性关系的检验线性关系的检验1、检验自变量与因变量之间的线性关系是否显著
18、;、检验自变量与因变量之间的线性关系是否显著;2、将将回回归归均均方方(MSR)同同残残差差均均方方(MSE)加加以以比比较较,应用应用F检验来分析二者之间的差别是否显著检验来分析二者之间的差别是否显著回回归归均均方方(MSR):回回归归平平方方和和SSR除除以以相相应应的的自由度自由度(自变量的个数自变量的个数k)残残差差均均方方(MSE):残残差差平平方方和和SSE除除以以相相应应的的自由度自由度(n-k-1)22线性关系的检验线性关系的检验(检验的步骤检验的步骤)1.提出假设提出假设nH0:1=0 线性关系不显著线性关系不显著2 2.计算检验统计量计算检验统计量F)1,1()1(1-=-
19、=knFMSEMSRknSSESSRF3.确定显著性水平确定显著性水平,并根据分子自由度,并根据分子自由度1和分母自和分母自由度由度n-2求统计量的求统计量的P值(一元)值(一元)4.作出决策:若作出决策:若P,拒绝拒绝H0。表明两个变量之间表明两个变量之间的线性关系显著的线性关系显著23回归系数的检验和推断回归系数的检验和推断1.检检验验 x 与与 y 之之间间是是否否具具有有线线性性关关系系,或或者者说说,检验自变量检验自变量 x 对因变量对因变量 y 的影响是否显著的影响是否显著2.理论基础是回归系数理论基础是回归系数 的抽样分布的抽样分布1b3.在在一一元元线线性性回回归归中中,等等价
20、价于于线线性性关关系系的的显显著著性性检验检验4.采用采用t检验检验24回归系数的检验和推断回归系数的检验和推断(样本统计量样本统计量 的分布的分布)1.1.是是是是根根根根据据据据最最最最小小小小二二二二乘乘乘乘法法法法求求求求出出出出的的的的样样样样本本本本统统统统计计计计量量量量,它它它它有有有有自自自自己己己己的分布的分布的分布的分布2.2.的分布具有如下性质的分布具有如下性质的分布具有如下性质的分布具有如下性质 分布形式:正态分布分布形式:正态分布分布形式:正态分布分布形式:正态分布 数学期望:数学期望:数学期望:数学期望:标准差:标准差:标准差:标准差:由由由由于于于于 未未未未知
21、知知知,需需需需用用用用其其其其估估估估计计计计量量量量s se e来来来来代代代代替替替替得得得得到到到到 的的的的估估估估计计计计的的的的标标标标准差准差准差准差1b1b11)(bb=E()-=21xxissb()-=21xxssieb1b25回归系数的检验和推断回归系数的检验和推断(检验步骤检验步骤)1.提出假设提出假设nH0:b1=0(没有线性关系没有线性关系)nH1:b1 0(有线性关系有线性关系)2.计算检验的统计量计算检验的统计量3.确确定定显显著著性性水水平平,计计算算出出统统计计量量的的P值值,并并做做出决策出决策Pliner 打开线性回归分析对话框;打开线性回归分析对话框;
22、n步骤二:选择被解释变量和解释变量。其中因步骤二:选择被解释变量和解释变量。其中因变量列表框中为被解释变量,自变量为回归分变量列表框中为被解释变量,自变量为回归分析解释变量。析解释变量。n注:要对不同的自变量采用不同引入方法时,注:要对不同的自变量采用不同引入方法时,选选NEXT按钮把自变量归入不同自变量块中。按钮把自变量归入不同自变量块中。39n第三步:选择个案标签。在变量列表中选择变第三步:选择个案标签。在变量列表中选择变量至个案标签中,而被选择的变量的标签用于量至个案标签中,而被选择的变量的标签用于在图形中标注点的值。在图形中标注点的值。n第四步:选择加权二乘法(第四步:选择加权二乘法(
23、WLS)。在变量列)。在变量列表框中选择变量至表框中选择变量至WLS中。但是该选项仅在被中。但是该选项仅在被选变量为权变量时选择。选变量为权变量时选择。n第五步:如果点击第五步:如果点击OK,可以执行线性回归分析,可以执行线性回归分析操作。操作。40Method选项Enter:强迫引入法,默认选项。全部被选变量一次性进:强迫引入法,默认选项。全部被选变量一次性进入回归模型。入回归模型。Stepwise:强迫剔除法。每一次引入变量时,概率:强迫剔除法。每一次引入变量时,概率F最小最小值的变量将引入回归方程,如果已引入回归方程的变量值的变量将引入回归方程,如果已引入回归方程的变量的的F大于设定值,
24、将被剔除回归方程。当无变量被引入大于设定值,将被剔除回归方程。当无变量被引入或剔除,时终止回归方程或剔除,时终止回归方程Remove:剔除变量。不进入方程模型的被选变量剔除。:剔除变量。不进入方程模型的被选变量剔除。Backward:向后消去:向后消去Forward:向前引入:向前引入41Rule选项n选择一个用于指定分析个案的选择规则的变量。选择一个用于指定分析个案的选择规则的变量。选择规则包括:选择规则包括:等于、不等于、大于、小于、大于或等于、小于等于、不等于、大于、小于、大于或等于、小于或等于。或等于。Value中输入相应变量的设定规则的临界值中输入相应变量的设定规则的临界值。42St
25、atistics 选项回归系数框回归系数框估计值:显示回估计值:显示回归系数的估计值归系数的估计值、回归系数的、回归系数的标准差、标准化标准差、标准化回归系数、回归回归系数、回归系数的系数的的的t t估估计值和双尾显著计值和双尾显著性水平。性水平。置信区间置信区间协方差矩阵协方差矩阵模型拟合:复相关模型拟合:复相关系数、判定系数、系数、判定系数、调整调整R R2 2、估计值的标估计值的标准误及方差分析准误及方差分析R R2 2改变量:增加或删改变量:增加或删除一个自变量产生除一个自变量产生的改变量的改变量描述性统计量:变描述性统计量:变量的均数、标准差、量的均数、标准差、相关系数矩阵、单相关系
26、数矩阵、单尾检验尾检验部分及偏相关系数:部分及偏相关系数:显示零阶相关、偏显示零阶相关、偏相关、部分相关系相关、部分相关系数数共线性诊断:显示共线性诊断:显示变量容差、方差膨变量容差、方差膨胀因子和共线性的胀因子和共线性的诊断表诊断表残差统计量残差统计量D-WD-W检验统计量:显示残差相关的检验统计量:显示残差相关的D-WD-W检验和残差与预测值的综述统计。检验和残差与预测值的综述统计。个案诊断:个案诊断:1 1、超过、超过n n倍标准差以上的个案为奇异值;倍标准差以上的个案为奇异值;2 2、显示所有变量的标准化、显示所有变量的标准化残差、观测值和预测值、残差残差、观测值和预测值、残差43Pl
27、ots选项选项该对话框可以分析资料的正态性、线性和方差齐性,还该对话框可以分析资料的正态性、线性和方差齐性,还可以检测奇异值或异常值等。可以检测奇异值或异常值等。1 1、因变量、因变量2 2、标准化预测值、标准化预测值3 3、标准化残差、标准化残差4 4、删除残差、删除残差5 5、调整预测值、调整预测值6 6、StudentStudent残差残差7 7、StudentStudent删除残差删除残差HistogramHistogram:标准化残差的直方图,并给出正态曲线。:标准化残差的直方图,并给出正态曲线。Normal probality plotNormal probality plot:标
28、准化残差的正态概率图:标准化残差的正态概率图Produce all partial plotsProduce all partial plots:产生所有偏残差图,生成每个自变量残差与因变:产生所有偏残差图,生成每个自变量残差与因变量残差的散点图。量残差的散点图。44Save对话框预测值预测值包括非标准化的预测值、包括非标准化的预测值、标准化的预测值、调整标准化的预测值、调整预测值、预测值均数标预测值、预测值均数标准误准误距离距离包括自变量个案值与所包括自变量个案值与所有个案平均值距离、一有个案平均值距离、一个个案参与计算回归线个个案参与计算回归线系数时,所有个案残差系数时,所有个案残差变化的
29、大小。变化的大小。杠杆值杠杆值残差残差非标准化残差非标准化残差标准化残差标准化残差StudentStudent残差残差删除残差删除残差StudentStudent删除残差删除残差影响统计量影响统计量DFBetaDFBeta值,删除一个个值,删除一个个案后回归系数改变的大案后回归系数改变的大小。小。标准化标准化DfBetaDfBetaDfFitDfFit值,拟合值之差值,拟合值之差标准化标准化DfFit协方差矩阵的比率协方差矩阵的比率预测区间预测区间平均预测区间平均预测区间个体预测区间个体预测区间45Options选项逐步回归方法准则逐步回归方法准则使用使用F F显著水平值显著水平值EntryE
30、ntry:当候选变量中最大:当候选变量中最大F F值概值概率小于等于引入值时,引入相应率小于等于引入值时,引入相应变量。变量。Removal:Removal:剔除相应变量剔除相应变量46实例分析例:某单位对8名女工进行体检,体检项目包括体重和肺活量,数据如下:利用回归分析描述其关系。体重4242464646505050肺活量2.552.22.752.42.82.813.413.14748结果分析结果分析n描述性统计量49相关系数相关系数n表中表中Pearson相关系数为相关系数为0.613,单尾显著性检验,单尾显著性检验的概率的概率p值为值为0.000,小于,小于0.05.所以体重和肺活所以体
31、重和肺活量之间具有量之间具有较强的相关性较强的相关性50引入或剔除变量表引入或剔除变量表n表中显示回归分析的方法以及变量被剔除或引表中显示回归分析的方法以及变量被剔除或引入的信息。入的信息。Method项为项为Enter,表明显示回归,表明显示回归方法用得是强迫引入法引入变量。这里自变量方法用得是强迫引入法引入变量。这里自变量只有一个,所以此表意义不大。只有一个,所以此表意义不大。512024/1/30 周二52模型摘要模型摘要n两变量相关系数为两变量相关系数为0.6130.613,判定系数为,判定系数为0.3750.375,调整判定系数为调整判定系数为0.3520.352,估计值的标准误差为
32、,估计值的标准误差为360.997360.99753方差分析表方差分析表n该表为回归分析的方差分析表。可以看出回归的均方为该表为回归分析的方差分析表。可以看出回归的均方为2115016.2032115016.203,剩余的均方为,剩余的均方为130318.685130318.685,F F检验统计量检验统计量的观察值为的观察值为16.23016.230,p p值为值为0.0000.000小于小于0.050.05,可以认为体,可以认为体重和肺活量之间存在线性关系。重和肺活量之间存在线性关系。54回归系数n下表给出了回归方程中的参数和常数项的估计下表给出了回归方程中的参数和常数项的估计值。其中常数
33、项系数为值。其中常数项系数为405.819,回归系数为,回归系数为47.835,线性回归参数的标准误差为,线性回归参数的标准误差为11.874,标准化回归系数为标准化回归系数为0.613,回归系数,回归系数t检验的检验的t统统计量观察值为计量观察值为4.029,t检验的检验的p值为值为0.00,小于,小于0.05可以认为回归系数有显著意义可以认为回归系数有显著意义55回归诊断回归诊断n下表对全部的观察单位进行回归诊断,结果表明,下表对全部的观察单位进行回归诊断,结果表明,每一例的标准化残差、因变量观测值和预测值以每一例的标准化残差、因变量观测值和预测值以及残差及残差56残差统计量残差统计量n表
34、中显示了预测值、标准化预测值、残差、标准表中显示了预测值、标准化预测值、残差、标准化残差等统计量的最小值、最大值、均数、标准化残差等统计量的最小值、最大值、均数、标准差差57回归标准化残差的直方图回归标准化残差的直方图n在回归标准化在回归标准化残差的直方图残差的直方图中,正态曲线中,正态曲线也被显示,用也被显示,用来判断标准化来判断标准化残差是否呈正残差是否呈正态分布态分布58回归标准化的正态回归标准化的正态P-P图图n图中给出了观图中给出了观察值的残差分察值的残差分布与假设的正布与假设的正态分布比较,态分布比较,如果标准化残如果标准化残差呈正态分布,差呈正态分布,则标准化残差则标准化残差点应
35、该分布在点应该分布在直线上或靠近直线上或靠近直线直线59因变量与回归标准化预因变量与回归标准化预测值的散点图测值的散点图n其中横坐标其中横坐标变量为标准变量为标准化预测值化预测值60数据编辑窗口新增变量数据编辑窗口新增变量n从表中可以看到非标准化预测值,非标准化残从表中可以看到非标准化预测值,非标准化残差,预测值均数的标准误差,均值的预测区间、差,预测值均数的标准误差,均值的预测区间、个体预测区间。个体预测区间。61n在十九世纪四、五十年代,苏格兰物理学家在十九世纪四、五十年代,苏格兰物理学家James D.ForbesJames D.Forbes,试图通过水的沸点来估计海拔高度。由于可以通过
36、气压来估计试图通过水的沸点来估计海拔高度。由于可以通过气压来估计海拔,他在阿尔卑斯山以及苏格兰收集了沸点及海拔的数据如海拔,他在阿尔卑斯山以及苏格兰收集了沸点及海拔的数据如表所示。现在通过线形回归拟合气压与沸点的关系。表所示。现在通过线形回归拟合气压与沸点的关系。62散点图散点图63n执行【Analyze】/【Regression】/【Linear】命令,弹出【Linear】对话框 64程序程序65n结果解读结果解读n模型拟合度检验66n方差分析表67n回归分析结果68对残差统计量的分析对残差统计量的分析n数据中无离群值,且数据的标准差比较小,数据中无离群值,且数据的标准差比较小,可以认为模型
37、是健康的。可以认为模型是健康的。69n残差统计量检验70多元线性回归的例子多元线性回归的例子n某大型金融机构中做了一项关于雇员对其主管满意度的调查,某大型金融机构中做了一项关于雇员对其主管满意度的调查,其中一个问题设计为对主管的工作业绩的综合评价,另外若其中一个问题设计为对主管的工作业绩的综合评价,另外若干个问题涉及主管与其雇员间相互关系的具体方面。该研究干个问题涉及主管与其雇员间相互关系的具体方面。该研究试图解释主管性格与雇员对其整体满意度之间的关系。试图解释主管性格与雇员对其整体满意度之间的关系。71n雇员对其主管满意度的调查7273模型拟合度检验模型拟合度检验74方差分析方差分析75回归
38、分析结果回归分析结果n拟合结果为:Y=A*X1+B*X2+C*X3+D?76n结果解读 剔除变量列表77n共线性检验指标78n共线性检验结果79第四部分第四部分 曲线估计曲线估计n基本原理基本原理 两变量之间的关系并不总是以线性形式表两变量之间的关系并不总是以线性形式表现出来的,更多的时候呈现出非线性关系,利现出来的,更多的时候呈现出非线性关系,利用图形可表示为曲线。用图形可表示为曲线。对非线性关系无法直接通过建立线性回归对非线性关系无法直接通过建立线性回归模型解决。虽然如此。但仍然存在一些非线性模型解决。虽然如此。但仍然存在一些非线性关系可以通过变量变换化成线性关系,并最终关系可以通过变量变
39、换化成线性关系,并最终形成变换后的线性模型。形成变换后的线性模型。80SPSS过程n第一步:录入数据,选择分析菜单中的第一步:录入数据,选择分析菜单中的Regression=liner 打开线性曲线估计对话框。打开线性曲线估计对话框。n第二步:选择被解释变量和解释变量第二步:选择被解释变量和解释变量81n第三步:选择曲线估计模型第三步:选择曲线估计模型Linear:拟合直线方程,实际上与Linear过程的二元直线回归相同;Quadratic:拟合二次方程Y=b0+b1t+b2t2;Compound:拟合复合曲线模型Y=b0X(b1)t;Growth:拟合等比级数曲线模型Y=exp(b0+b1t
40、);Logarithmic:拟合对数方程Y=b0+b1lnt;82Cubic:拟合三次方程Y=b0+b1t+b2t2+b3t3;S:拟合S形曲线Y=exp(b0+b1/t);Exponential:拟合指数方程Y=b0 exp(b1t);Inverse:数据按Y=b0+b1/t进行变换;Power:拟合乘幂曲线模型Y=b0Xb1;Logistic:拟合Logistic曲线模型Y=1/(1/u+b0(b1)t),如选择该线型则要求输入上界。83Save选项预测个案,预测个案,用于设定值用于设定值变量为时间变量为时间序列时的预序列时的预测值测值保存变量保存变量84实例实例n在不同温度下,对金属强度
41、进行了8次测试,数据如下利用曲线参数估计方法分析温度和强度的关系温度50100150200250300400500强度0.977 0.566 0.284 0.172 0.128 0.072 0.029 0.0148586结果分析线性模型的主要结果线性模型的主要结果n模型摘要模型摘要n该表显示模型的拟合情况。其中判定系数为该表显示模型的拟合情况。其中判定系数为0.67375,调,调整系数为整系数为0.61938,估计值的标准误差为,估计值的标准误差为93.90987方差分析表方差分析表n从表中可以看出,回归的均方为从表中可以看出,回归的均方为109273.91,剩,剩余的均方为余的均方为8818
42、.93,F检验统计量的观察值为检验统计量的观察值为12.391,p值为值为0.12588回归系数回归系数n常数项系数为常数项系数为348.69,回归系数为,回归系数为-374.43,线,线性回归参数的标准误差为性回归参数的标准误差为106.37,标准化回归,标准化回归系数为系数为-0.82189三次函数模型的主要结果三次函数模型的主要结果n模型摘要模型摘要判定系数是多少?校正系数是多少?判定系数是多少?校正系数是多少?标准误差?标准误差?90方差分析表方差分析表n回归均方?剩余均方?回归均方?剩余均方?F F统计量的观察值?统计量的观察值?91回归系数回归系数nCubic:拟合三次方程Y=b0
43、+b1t+b2t2+b3t3常数项回归系数?标准化回归系数?参数的标准常数项回归系数?标准化回归系数?参数的标准误差?误差?92指数模型的主要结果指数模型的主要结果n模型摘要模型摘要判定系数是多少?校正系数是多少?判定系数是多少?校正系数是多少?标准误差?标准误差?93方差分析表方差分析表n回归均方?剩余均方?回归均方?剩余均方?F F统计量的观察值?统计量的观察值?94回归系数回归系数nExponential:拟合指数方程Y=b0 exp(b1t)常数项回归系数?标准化回归系数?参数的标准常数项回归系数?标准化回归系数?参数的标准误差?误差?953类模型对比n综上述综上述3 3类表格,得到解
44、释量最高的是三次曲线类表格,得到解释量最高的是三次曲线模型,为模型,为0.9670.967;最低的为线性模型,为;最低的为线性模型,为0.674.0.674.但是三次曲线的但是三次曲线的F F统计量概率统计量概率p p确大于指数模型确大于指数模型p p值。值。96拟合曲线拟合曲线97n已知有某次泥石流的各阵观测数据保存在如图所示的数据文件“nishiliu.sav”中,试拟合各阵泥石流泥面宽与泥深之间的关系。98 执行【Analyze】/【Regression】/【Curve Estimation】命令,弹出【Curve Estimation】对话框 99n结果解读n模型拟合度以及方差分析表同线性回归类似n二次模型拟合系数如下100n三类模型的拟合曲线101 每个人都有一定的理想,每个人都有一定的理想,这这种理想种理想决定着他的努力和判断的方向。在决定着他的努力和判断的方向。在这这个个意意义义上,我从来不把安逸和快上,我从来不把安逸和快乐乐看作是看作是生活目的本身生活目的本身这这种种伦伦理基理基础础,我叫,我叫它猪它猪栏栏式的理想。照亮我的道路,并且式的理想。照亮我的道路,并且不断地不断地给给我新的勇气去愉快地正我新的勇气去愉快地正视视生活生活的理想,是善、美和真。的理想,是善、美和真。爱爱因斯坦因斯坦1022024/1/30 周二103