1、08 回归分析返回1q统计学上采用回归分析(regression)研究呈因果关系的相关变量间的关系。表示原因的变量称为自变量(Independent),表示结果的变量称为因变量(应变量,Dependent)。q回归分析的任务是揭示出呈因果关系的相关变量间的联系形式(线形/曲线?),建立回归方程,由自变量(原因)来预测、控制因变量(结果)。2q研究“一因一果”,即一个自变量与一个依变量的回归分析称为一元回归分析;q研究“多因一果”,即多个自变量与一个依变量的回归分析称为多元回归分析。q一元回归分析又分为直线回归分析与曲线回归分析两种;q元回归分析又分为多元线性回归分析与多元非线性回归分析两种。3
2、一、线性回归 (一)基本原理 由于因变量y的实际观测值总是带有随机误差,因而因变量y的实际观测值yi i可用自变量x的实际观测值xi i表示为:(i i=1,2,=1,2,n n)4一、线性回归 (一)基本原理 在x、y直角坐标平面上可以作出无数 条直线,我们把所有直线中最接近散点图中全部散点的直线用来表示x与 y的直线关系,这条直线称为回归直线。设回归直线的方程为设回归直线的方程为:其中,其中,a a是是 的估计值,的估计值,b b是是 的估计值。的估计值。a a、b b应使回归估计值应使回归估计值 与实际观测值与实际观测值y y的偏差平方的偏差平方和最小。和最小。5一、线性回归 (一)基本
3、原理 若x和y变量间并不存在直线关系,但由n对观测值(xi,yi)也可以根据上面介绍的方法求得一个回归方程y=a+bx。显然,这样的回归方程所反应的两个变量间 的直线关系是不真实的。如何判断直线回归方程所反应的两个变量间的直线关系的真实性呢?这取决于变量x与y间是否存在直线关系。我们先探讨因变量y的变异,然后再作出统计推断。6一、线性回归 (一)基本原理 回归方程的显著性检验:1、相关系数检验;2、F检验:拒绝H0(=0)表明回归效果显著 3、T检验:拒绝H0(=0)表明回归效果显著7一、线性回归 (一)基本原理 线性回归模型的几个基本假设:1、残差的正态性检验;2、残差的方差齐性检验;3、残
4、差的独立性检验;4、多重共线性检验;8一、线性回归 (二)数据描述 通过对某些汽车的销售量及这些汽车的一些特征数据拟合多元线性回归模型,分析汽车特征与销售量之间的关系,并利用回归结果给出改进汽车设计方案的建议,从而促进销售量的提高。数据见“汽车销售数据.sav”9一、线性回归 (三)SPSS操作过程 依次单击菜单“分析-回归-线性”1、变量设置 将“销售量”变量选入右侧“因变量”列表;将“车型”至“燃料效率”10个变量选入右侧自变量列表;将“价格”变量选入右侧“个案标签”;单击“方法”下拉列表,选中“逐步”选项102024/3/12 周二11一、线性回归 多元逐步回归要求回归方程中包含所有对因
5、变量作用显著的自变量,而不包含作用不显著的自变量,从而建立最优回归方程。1、强行进入法(Enter):预先选定的自变量全部进入回归模型,这是系统默认方式。2、消去法(Remove):根据设定的条件剔除部分自变量。3、向前引入法(Forward):自变量由少到多一个一个引入回归方程,将与因变量的相关系数最大的第一个自变量选入方程并进行检验4、向后剔除法(Backward):自变量由多到少一个一个从回归方程中剔除,首先,对预先选定自变量全部进行回归,然后把对因变量影响不显著的自变量从方程中剔除并进行检验5、逐步引入剔除法(Stepwise):先规定两个阀值F引入(如F0.05)和F剔除(如F0.1
6、0),当候选变量中最大F值F引入时,引入相应变量;已进入方程的变量最小FF剔除时,剔除相应变量。如此交替进行直到无引入和无剔除为止。12一、线性回归 (三)SPSS操作过程 2、“Statistics”(统计量)设置 点击“Statistics”按钮,勾选“估计”、“协方差矩阵”、“模型拟合度”、“共线性诊断”、“个案诊断”,单击“继续”注:“估计”:输出回归系数、回归系数标准误、标准化回归系数、回归系数的T检验值及sig值;“协方差矩阵”:输出回归系数的方差、协方差矩阵,同时输出相关系数矩阵;“模型拟合度”:拟合优度统计量、估计值的标准误及ANOVA方差分析表;“共线性诊断”:输出特征根和方
7、差膨胀因子(VIF)“个案诊断”:离群值表示残差超过n倍标准差的观测才被当做是异常值,n是后面输入框中指定数字,默认为3.13一、线性回归 (三)SPSS操作过程 3、图形设置 点击“绘图”按钮。(1)变量列表中选中“SDRESID”选入右侧Y轴变量,选中“ZPRED”选入右侧X轴变量;(2)单击“下一页”按钮,选中“ZRESID”选入右侧Y轴变量,选中“ZPRED”选入右侧X轴变量,单击“继续”返回主界面14一、线性回归 (三)SPSS操作过程 3、图形设置 注:DEPENDNT(因变量)*ZPRED(标准化预测值)*ZRESID(标准化残差)*DRESID(剔除残差)*ADIPRED(修正
8、后预测值)*SRESID(学生化残差)*SDRESID(学生化剔除残差)15一、线性回归 (三)SPSS操作过程 4、保存设置 点击“保存”按钮。依次勾选“Cook距离”、“杠杆值”、“均值”、“单值”。注:“Cook距离”:表示把一个个案从计算回归系数的样本中去除时,所引起残差变化的大小。Cook距离越大,表明该个案对回归系数影响越大;“杠杆值”:测量单个观测对拟合效果的影响程度。16一、线性回归 (三)SPSS操作过程 5、结果分析 “系数”表、“系数相关矩阵”表 回归残差直方图、回归残差散点图17二、二元Logistic回归二元Logistic回归是指因变量为二分类变量时的回归分析。例如医学研究中,经常会遇到二元变量的情况,在分析死亡与否的概率与病人生理状况、疾病严重程度之间的关系。常规的回归模型已经不太合适。18二、二元Logistic回归 (一)数据描述 本研究是关于银行客户的贷款拖欠问题。通过分析银行掌握的一些客户资料和交易信息,推断指定客户的预期信誉。数据见“银行贷款数据.sav”19谢谢!返回202024/3/12 周二21