1、第四章第四章 样本样本数据的统计分数据的统计分析析回归分析回归分析3-2多元回归分析中的变量筛选多元回归分析中的变量筛选 在多元线性回归分析中,模型中应在多元线性回归分析中,模型中应引入多少解释变量时需要重点研究的。如果引入多少解释变量时需要重点研究的。如果引入的变量较少,回归方程将无法很好地解引入的变量较少,回归方程将无法很好地解释说明被解释变量的变化释说明被解释变量的变化。但并非引入的变。但并非引入的变量越多越好。因为变量间可能存在量越多越好。因为变量间可能存在多重共线多重共线性的问题性的问题。多元回归分析中的变量筛选多元回归分析中的变量筛选 在多元回归分析中,需要采取在多元回归分析中,需
2、要采取一些策略对变量引入回归方程加以控制一些策略对变量引入回归方程加以控制和筛选。主要有和筛选。主要有三种策略三种策略:u 向前筛选策略向前筛选策略(Forward)u 向后筛选策略向后筛选策略(Backward)u 逐步筛选策略逐步筛选策略(Stepwise)多元回归分析中的变量筛选多元回归分析中的变量筛选向前筛选策略向前筛选策略(Forward)解释变量不断进入回归方程的过程。解释变量不断进入回归方程的过程。首先首先选择与被解释变量具有最高线性相关系数选择与被解释变量具有最高线性相关系数的变量进入方程的变量进入方程,并进行回归方程的各种检验。,并进行回归方程的各种检验。然后,然后,在剩余的
3、变量中寻找与解释变量偏相关在剩余的变量中寻找与解释变量偏相关系数最高且通过检验的变量进入方程系数最高且通过检验的变量进入方程,并对新,并对新建立的回归方程进行各种检验;该过程一直重建立的回归方程进行各种检验;该过程一直重复,直至没有可进入方程的变量为止。复,直至没有可进入方程的变量为止。多元回归分析中的变量筛选多元回归分析中的变量筛选向后筛选策略向后筛选策略(Backward)向后筛选策略是向后筛选策略是变量不断剔除出回归方变量不断剔除出回归方程程的过程。首先,所有变量全部进入方程,的过程。首先,所有变量全部进入方程,并进行各种检验。然后,并进行各种检验。然后,在回归系数显著性在回归系数显著性
4、检验检验不不显著的一个或多个变量中,剔除显著的一个或多个变量中,剔除t检验检验值最小的变量,重建模型进行各项检验,直值最小的变量,重建模型进行各项检验,直至所有变量的回归系数检验都显著。至所有变量的回归系数检验都显著。多元回归分析中的变量筛选多元回归分析中的变量筛选逐步筛选策略逐步筛选策略(Stepwise)向前筛选和向后筛选的综合向前筛选和向后筛选的综合。向前筛选。向前筛选策略是变量不断进入回归方程的过程。随着策略是变量不断进入回归方程的过程。随着变量的引入,由于解释变量之间存在一定程变量的引入,由于解释变量之间存在一定程度的度的多重共线性多重共线性,使某些已经进入方程的解,使某些已经进入方
5、程的解释变量的回归系数不再显著。释变量的回归系数不再显著。逐步筛选法在逐步筛选法在向前策略的基础上,结合向后筛选策略,在向前策略的基础上,结合向后筛选策略,在引入变量的每个阶段都提供了再剔除不显著引入变量的每个阶段都提供了再剔除不显著变量的机会。变量的机会。多元回归分析中的变量筛选多元回归分析中的变量筛选多元回归多元回归分析分析(逐步回归法逐步回归法)*基本思想基本思想:在考虑在考虑Y对已知的一群变量对已知的一群变量(x1,x2,xk)回归时,从变量回归时,从变量xi(i=1k)中中选选出对已解释变差出对已解释变差(回归项回归项)的贡献最大的贡献最大的变的变量,进入回归方程。量,进入回归方程。
6、多元回归分析中的变量筛选多元回归分析中的变量筛选 对已解释变差的贡献大小的判别对已解释变差的贡献大小的判别依据,就是包含了依据,就是包含了偏偏解释变差的解释变差的F统计量统计量fj.按照统计量按照统计量Fj的值的值fj的的大小顺序依次进大小顺序依次进入方程入方程;但所有进入方程的自变量的;但所有进入方程的自变量的F统统计量计量fj对应的显著性概率对应的显著性概率都都应满足应满足p (即即要求其要求其对应系数对应系数bj显著异于显著异于0)多元回归分析中的变量筛选多元回归分析中的变量筛选多元回归分析中的变量筛选多元回归分析中的变量筛选Ex3 研究某城市散户股民在研究某城市散户股民在“证券市场证券
7、市场的投资总额的投资总额”是否可以用是否可以用“证券市场外证券市场外的收入的收入”,“受教育程度受教育程度”,“入市年入市年份份”和和“股民年龄股民年龄”来说明。来说明。多元回归分析中的变量筛选多元回归分析中的变量筛选数据:数据:CH6CH9CH10证券投资额与依据证券投资额与依据Step-1:AnalyzeregressionlinearStep-2:“证券市场的投资总额证券市场的投资总额”Dependent“证券市场外的收入证券市场外的收入”“”“受教育程度受教育程度”“入市年份入市年份”“”“股民年龄股民年龄”Independent多元回归分析中的变量筛选多元回归分析中的变量筛选Step
8、3:选择变量进入的方法选择变量进入的方法MethodEnter:所有变量全部强行进入模型所有变量全部强行进入模型Forward:逐步增加变量逐步增加变量Backward:先把所有的自变量全部放入方先把所有的自变量全部放入方程,然后逐步减少自变量。程,然后逐步减少自变量。多元回归分析中的变量筛选多元回归分析中的变量筛选Stepwise:Forward和和Backward方法结合方法结合的方法,即的方法,即“一边进,一边出一边进,一边出”方法。方法。Remove:在已有回归在已有回归方程的基础上,根据方程的基础上,根据设定的条件,删除变设定的条件,删除变量量多元回归分析中的变量筛选多元回归分析中
9、的变量筛选Step-4:Option选项,选选项,选默认默认进入模型的变量进入模型的变量的的F统计量的概率统计量的概率为为5%,选默认从回归,选默认从回归方程中方程中剔除变量的系剔除变量的系数的数的F统计量的概率统计量的概率为为10%多元回归分析中的变量筛选多元回归分析中的变量筛选Step-5:Linear Regression Statistics的输出设定的输出设定Estimates:系统的系统的缺省设置,系统输缺省设置,系统输出出回归系数回归系数b,b的的标准差标准差,标准回归标准回归系数系数Beta,b的的t值值及及双尾检验的双尾检验的p值值。多元回归分析中的变量筛选多元回归分析中的变
10、量筛选Step-5:Linear Regression Statistics的输出设定的输出设定Model fit:系统的系统的缺省设置,系统输缺省设置,系统输出出(在逐步回归的过在逐步回归的过程中程中)引入模型的变引入模型的变量,从模型中删除量,从模型中删除的变量,复相关系的变量,复相关系数数R,判定系数,判定系数R2,校正的校正的R2,估计的标估计的标准误差,准误差,ANOVA方方差分析表。差分析表。多元回归分析中的变量筛选多元回归分析中的变量筛选Step-6:结果及分析报告结果及分析报告 引入引入/剔除变量剔除变量表表显示变量的引入和剔除显示变量的引入和剔除并显示引入和剔除的标准。并显示
11、引入和剔除的标准。该表反映出变量的引入顺该表反映出变量的引入顺序为序为“证券市场以外年收证券市场以外年收入入”,“入市年份入市年份”“”“年年龄龄”“”“受教育程度受教育程度”。没没有变量被剔除。有变量被剔除。多元回归分析中的变量筛选多元回归分析中的变量筛选回归方程的拟合优度检验回归方程的拟合优度检验 该表显该表显示各模型的拟合示各模型的拟合情况。反映了每情况。反映了每个模型的个模型的复相关复相关系数系数,判定系数判定系数,调整判定系数调整判定系数和和估计值的标准误估计值的标准误差。差。多元回归分析中的变量筛选多元回归分析中的变量筛选回归方程的显著性检验回归方程的显著性检验随着逐步随着逐步归回
12、的回的过程,程,Sum of Squares 的的值不断增大,不断增大,由由334.4-498.04,表明随着逐表明随着逐步回步回归中模型的改中模型的改进,已解,已解释变差越来越大。差越来越大。反映反映总体回体回归效果的效果的F统计值对应的概率的概率值 均小于均小于0.01,说明每个模型的明每个模型的总体体回回归效果都是效果都是显著的。著的。多元回归分析中的变量筛选多元回归分析中的变量筛选回归系数和显著性检验表回归系数和显著性检验表从每个模型的解从每个模型的解释变量量的的t检验情况来看,几情况来看,几乎所有的乎所有的变量的系数都量的系数都在在1%的水平之上,的水平之上,说明明对应系数系数显著异
13、于著异于0.模型模型4的的“受教育程度受教育程度”的的显著性概率著性概率1%,但,但仍小于仍小于2%,表明在,表明在0.02的的显著性水平下,其著性水平下,其对应系数系数b显著异于著异于0.所有所有这些些变量都可以作量都可以作为解解释变量存在与模型量存在与模型中,解中,解释投投资总额的的变化。化。多元回归分析中的变量筛选多元回归分析中的变量筛选令令 Y-投入投入证券市券市场总资金金 X1-证券市券市场以外收入以外收入X2-入市年份入市年份 X3-年年龄 X4-受教育程度受教育程度模型模型1:Y=3.494+0.377 X1模型模型2:Y=4.493+0.374 X1-0.198 X2模型模型3
14、Y=3.331+0.383 X1-0.166X2+0.291X3模型模型4:Y=2.493+0.371 X1-0.18X2+0.325X3+0.273X4变量的多重共线性问题变量的多重共线性问题 多重共线性指多重共线性指解释变量之间存解释变量之间存在线性相关的现象在线性相关的现象。解释变量间高度的。解释变量间高度的多重共线性会给回归方程带来许多影响。多重共线性会给回归方程带来许多影响。u 偏回归系数估计困难偏回归系数估计困难u偏回归系数的估计方差随解释变量相偏回归系数的估计方差随解释变量相关性的增大而增大关性的增大而增大u偏回归系数估计值不稳定性增强偏回归系数估计值不稳定性增强u变量的多重共
15、线性问题变量的多重共线性问题测度解释变量间多重共线性的方法测度解释变量间多重共线性的方法u 容忍度容忍度 Tolerance 当当Xi与其他所有自变量与其他所有自变量Xt,Xs的相关系数的相关系数Ri 接近接近1,自变量具有明显的,自变量具有明显的多重共线性。定义多重共线性。定义容容忍忍度:度:Toli=1-Ri2.Toli越小,共线性越强。越小,共线性越强。变量的多重共线性问题变量的多重共线性问题u方差膨胀因子方差膨胀因子 VIF VIF=1/ToliVIF大于等于大于等于1。解释变量间的多重共线解释变量间的多重共线性越弱,性越弱,VIF越接近越接近1。反之,共线性越。反之,共线性越强,强,
16、VIF越大。越大。变量的多重共线性问题变量的多重共线性问题u特征根特征根Eigenvalue和方差比和方差比Variance Proportions 从解释变量的相关系数矩阵出发,从解释变量的相关系数矩阵出发,计算相关系数矩阵的特征根。计算相关系数矩阵的特征根。解释变量解释变量标准化后的方差为标准化后的方差为1.如果每个特征根都如果每个特征根都能够刻画该变量方差的一部分,那么所能够刻画该变量方差的一部分,那么所有特征根将刻画该变量方差的全部。有特征根将刻画该变量方差的全部。变量的多重共线性问题变量的多重共线性问题 如果如果某个特征根既能够刻画某解某个特征根既能够刻画某解释变量方差的较大部分比例
17、释变量方差的较大部分比例(0.7以上以上),同时同时又可以刻画另一个解释变量变差的又可以刻画另一个解释变量变差的较大部分比例较大部分比例,则表明这两个解释变量,则表明这两个解释变量间存在较强的线性相关关系。间存在较强的线性相关关系。变量的多重共线性问题变量的多重共线性问题变量的多重共线性问题变量的多重共线性问题u利用软件输出的相关统计量利用软件输出的相关统计量 如果输出的如果输出的F统计量统计量很大,很大,R趋于趋于1,但同时,许多,但同时,许多偏回归系数对应的偏回归系数对应的t统计统计值小值小(其其显著性概率大于显著性概率大于),估计系数的标估计系数的标准差大,则表明存在多重共线性。准差大,
18、则表明存在多重共线性。变量的多重共线性问题变量的多重共线性问题多重共线性问题的处理多重共线性问题的处理u 逐步删除不重要的逐步删除不重要的(t相对小相对小)解释变量解释变量,可直接用可直接用逐步回归法完成逐步回归法完成。u改变模型结构改变模型结构u恰当处理滞后变量恰当处理滞后变量u增大样本容量增大样本容量u变量的多重共线性问题变量的多重共线性问题Ex:用用SPSS处理多重共线性处理多重共线性 被解释变量是某国的被解释变量是某国的服装消服装消费费。备选的解释变量有:该。备选的解释变量有:该国可支配收国可支配收入入,该国居民的,该国居民的金融资产金融资产,该国的,该国的服装服装价格指数价格指数,该
19、国的,该国的一般价格指数一般价格指数。用多。用多元回归分析服装消费与支配收入,金融元回归分析服装消费与支配收入,金融资产及服装价格指数及资产及服装价格指数及一般价格指数一般价格指数的的线性关系。线性关系。变量的多重共线性问题变量的多重共线性问题Data:“CH10共线反向逐步服装需求共线反向逐步服装需求”Command:AnalyzeRegressionLinear选择反向逐步回归方法选择反向逐步回归方法变量的多重共线性问题变量的多重共线性问题结果分析:结果分析:上表为逐步回归模型的总体效果参上表为逐步回归模型的总体效果参数。逐步回归进行了数。逐步回归进行了2次,每个模型的次,每个模型的R及及
20、R2,都很大,都很大,总体回归效果是相当好的总体回归效果是相当好的。变量的多重共线性问题变量的多重共线性问题 逐步回归系数表逐步回归系数表u第一次回归计算,所有变量进入模型。四个自变量对应第一次回归计算,所有变量进入模型。四个自变量对应的的t统计值的概率值分别为统计值的概率值分别为0.015,0.772.0.078,0.072.u除了除了“可支配收入可支配收入”的的t统计量的对应统计量的对应p0.05,本问本问题题采用标准化回归系数采用标准化回归系数Standardized Coefficients线性回归的残差分析线性回归的残差分析线性回归的残差分析线性回归的残差分析 基于这一点,残差分析的
21、内容包基于这一点,残差分析的内容包括括u残差是否服从残差是否服从均值为均值为0的正态分布的正态分布u残差是否为残差是否为等方差的正态分布等方差的正态分布u 残差序列是否独立残差序列是否独立 数值方法和图形直观分析方法数值方法和图形直观分析方法都是分析过程有效的分析工具都是分析过程有效的分析工具线性回归的残差分析线性回归的残差分析残差均值为残差均值为0的正态性分析的正态性分析 当解释变量当解释变量x取某个特定的值时,取某个特定的值时,对应残差必然有正有负,但总体上应对应残差必然有正有负,但总体上应服从以服从以0为均值的正态分布。为均值的正态分布。可利用残差图进行分析。可利用残差图进行分析。0ex
22、 残差图是一种散残差图是一种散点图。若残差的均值为点图。若残差的均值为0 0,残差图中的点应在纵坐标残差图中的点应在纵坐标为为0 0的中心的带状区域内随的中心的带状区域内随机散落机散落。正态性分析可通正态性分析可通过绘制标准化残差的累计过绘制标准化残差的累计概率图概率图进行分析。进行分析。线性回归的残差分析线性回归的残差分析残差的独立性分析残差的独立性分析 残差序列的独立性是回归模型残差序列的独立性是回归模型要求的。要求的。残差序列残差序列与与残差序列的前期和后残差序列的前期和后期数值之间不存在相关关系,即不存在自期数值之间不存在相关关系,即不存在自相关。相关。自相关会带来很多问题,自相关会带
23、来很多问题,如如普通的最小二乘估计不是最优普通的最小二乘估计不是最优,回归系回归系数显著性检验的数显著性检验的t值偏高,从而值偏高,从而容易容易拒绝拒绝H0,使某些不该保留在方程中的变量保留了,使某些不该保留在方程中的变量保留了下来下来,而使得模型的预测偏差较大。,而使得模型的预测偏差较大。线性回归的残差分析线性回归的残差分析残差的独立性分析的三种方式残差的独立性分析的三种方式1)绘制残差序列的序列图绘制残差序列的序列图0et0et 残差序列图以样本期残差序列图以样本期(或时间或时间)为横坐标,残差为为横坐标,残差为纵坐标。帮助观察发现纵坐标。帮助观察发现自相关性自相关性,右图残差随时间的推移
24、右图残差随时间的推移呈现由规律的变化,表明残差序列存在一定的正或负自相呈现由规律的变化,表明残差序列存在一定的正或负自相关。关。线性回归的残差分析线性回归的残差分析线性回归的残差分析线性回归的残差分析3)Durbin-Watson检验检验 DW检验检验推断小样本序列是否存在自相推断小样本序列是否存在自相关关的统计检验方法。统计量为的统计检验方法。统计量为DW(公式略公式略)DW取值在取值在0 4之间。之间。即即 DW=0时时,完全正自相关完全正自相关DW=(0,2),残差,残差序列存在正自相关序列存在正自相关DW=2 时,残差序列独立,没有自相关时,残差序列独立,没有自相关DW=(2,4),
25、残差序列存在负自残差序列存在负自相关相关DW=4 时,完全负相关时,完全负相关线性回归的残差分析线性回归的残差分析 如果残差序列如果残差序列存在自相关存在自相关,说明说明回归方程没能充分说明被解释变回归方程没能充分说明被解释变量的变化规律量的变化规律,还留有一些规律性没,还留有一些规律性没有被解释,也就是认为有被解释,也就是认为方程中遗漏了方程中遗漏了一些较为重要的解释变量一些较为重要的解释变量;或者;或者回归回归模型选择不合适模型选择不合适,不应选用线性模型,不应选用线性模型等等原因。等等原因。线性回归的残差分析线性回归的残差分析异方差分析异方差分析 回归分析要求,残差的方差应相等。若回归分
26、析要求,残差的方差应相等。若随着解释变量或被解释变量取值的变化而变随着解释变量或被解释变量取值的变化而变化,则为出现了化,则为出现了异方差现象。异方差现象。出现出现异方差将异方差将导致最小二乘估计不再是最小方差的无偏估导致最小二乘估计不再是最小方差的无偏估计计,回归系数显著性检验的回归系数显著性检验的t值偏高值偏高,进而容,进而容易拒绝易拒绝H0假设,使不该留在方程中的变量保假设,使不该留在方程中的变量保留下来,并最终使模型的预测偏差较大。因留下来,并最终使模型的预测偏差较大。因此,有必要进行此,有必要进行异方差分析异方差分析。线性回归的残差分析线性回归的残差分析异方差问题是否存在的判断异方差
27、问题是否存在的判断1)绘制残差的散点图绘制残差的散点图Xe 残差的方残差的方差随着解释变量值差随着解释变量值的增加的增加呈增加的趋呈增加的趋势势,出现了,出现了异方差异方差。线性回归的残差分析线性回归的残差分析2)等级相关分析等级相关分析 得到残差序列后首先对其取绝对值,得到残差序列后首先对其取绝对值,然后分别计算出然后分别计算出残差和解释变量的秩残差和解释变量的秩,计算计算Spearman等级相关系数,进行等级相关分析。等级相关系数,进行等级相关分析。拒绝等级相关分析的拒绝等级相关分析的H0假设则认为解释假设则认为解释变量与残差之间存在相关关系,出现的异方变量与残差之间存在相关关系,出现的异
28、方差。差。线性回归的残差分析线性回归的残差分析出现了异方差如何处理?出现了异方差如何处理?对被解释变量实施方差稳定变换后对被解释变量实施方差稳定变换后再进行回归方程参数的估计。一般采取的方再进行回归方程参数的估计。一般采取的方法:法:n 残差与残差与预测值的平方根预测值的平方根成比例变化,成比例变化,对被对被解释变量做开方处理。解释变量做开方处理。n残差与残差与预测值预测值成比例变化,对解释变量成比例变化,对解释变量取对取对数数。n残差与残差与预测值的平方预测值的平方成比例变化,对解释变成比例变化,对解释变量量求倒数。求倒数。线性回归的残差分析线性回归的残差分析n 利用利用加权最小二乘法加权最
29、小二乘法实施回归方程的实施回归方程的参数估计。参数估计。在模型中加入恰当的权值,在模型中加入恰当的权值,调整方差的差异带来的影响调整方差的差异带来的影响。方差较小。方差较小的项赋予较大权数,方差较大项给予较的项赋予较大权数,方差较大项给予较小的权数,并在其最小原则下进行参数小的权数,并在其最小原则下进行参数的估计。的估计。线性回归的残差分析线性回归的残差分析Ex:用:用SPSS处理异方差问题处理异方差问题Data:CH10异方差异方差SI原原Command:Analyze Regression Linear线性回归的残差分析线性回归的残差分析Command:Save 保存保存“未标准化残差未标
30、准化残差”线性回归的残差分析线性回归的残差分析Report1残差有逐渐增大残差有逐渐增大趋势,可以趋势,可以初步初步判定存在异方差判定存在异方差性性。Step-1:观察异方差性观察异方差性线性回归的残差分析线性回归的残差分析Step-2:检验异方差是否存在检验异方差是否存在Command-1:TransformCompute产生新变量产生新变量|e|即即|未标准化残差未标准化残差|新变量命名为新变量命名为RES_2线性回归的残差分析线性回归的残差分析等级相关判定等级相关判定Command:AnalyzeCorrelate Bivariate线性回归的残差分析线性回归的残差分析Report2:“
31、居民收入居民收入”与与RES_2的的Spearman相关系数相关系数为为0.671,与,与0有显著差异,说明有显著差异,说明存在异存在异方差性。方差性。线性回归的残差分析线性回归的残差分析Step-3:用用加权最小二乘法加权最小二乘法估计回归方程的系估计回归方程的系数,数,以以“1/收入收入”为权重,作如下回归为权重,作如下回归储蓄储蓄/收入收入 =a/收入收入 +b+v,其中其中 v=/收入收入Command:TransformComputer产生新变量产生新变量 “储蓄收入比储蓄收入比”“”“收入倒数收入倒数”线性回归的残差分析线性回归的残差分析线性回归的残差分析线性回归的残差分析Comm
32、and:AnalyzeRegression Linearu选标准化预测值为选标准化预测值为X轴轴,标准化残差为标准化残差为Y轴轴,从,从散点图观察异方差的变散点图观察异方差的变化。化。uSave命令保存命令保存“未标准未标准户残差户残差”RES_3线性回归的残差分析线性回归的残差分析Graph:标准化后残差项散点图标准化后残差项散点图 图图形表明,异方形表明,异方差性已经得到差性已经得到较大改善。较大改善。线性回归的残差分析线性回归的残差分析整体回归效果检验整体回归效果检验拟合优度拟合优度和和F统统计量计量,整体回归,整体回归效果良好。效果良好。线性回归的残差分析线性回归的残差分析加权最小二乘
33、法估计回归方程的系数加权最小二乘法估计回归方程的系数储蓄储蓄/收入收入 =a/收入收入 +b即即 储蓄储蓄/收入收入 =-722.475/收入收入+0.088因此模型为因此模型为 储蓄储蓄 =-722.475+0.088 收入收入线性回归的残差分析线性回归的残差分析异方差改善的检验异方差改善的检验Command:TransformComputer生成新变量生成新变量Res_4=|Res_3|线性回归的残差分析线性回归的残差分析Command:AnalyzeCorrelate Bivariate计算计算加权模型的加权模型的残差绝对值残差绝对值与与“收入收入”的等级相的等级相关关线性回归的残差分析
34、线性回归的残差分析加权模型的残差绝对值加权模型的残差绝对值与与“收入收入”的等的等级级相关系数检验相关系数检验 相关系数与相关系数与0无显著差异,无显著差异,说明异方差性已经得到了矫正。说明异方差性已经得到了矫正。高校社会科学研究中的立项问题高校社会科学研究中的立项问题问题:问题:为研究高等院校人文社会科学研究中立为研究高等院校人文社会科学研究中立项课题数受哪些因素的影响项课题数受哪些因素的影响,收集,收集1999年年31个省市部分高校有关社科研究方面的数据,个省市部分高校有关社科研究方面的数据,利用线性回归分析方法予以分析。利用线性回归分析方法予以分析。Data:“相关相关回归分析(高校科研
35、研究)回归分析(高校科研研究)”高校社会科学研究中的立项问题高校社会科学研究中的立项问题分析分析:Step-1:定义解释变量与被解释变量:定义解释变量与被解释变量被解释变量被解释变量(因变量因变量):立项课题数:立项课题数X5解释变量解释变量(自变量自变量):投入人年数投入人年数X2,投入高级职称的人年数投入高级职称的人年数X3,投入科研事业费投入科研事业费X4,专著数专著数X6,论文数,论文数X7,获奖数,获奖数X8高校社会科学研究中的立项问题高校社会科学研究中的立项问题Command:AnalyzeRegressionLinearuEstimates:SPSS 默认输出项,默认输出项,输出
36、与回归系数相关的统计输出与回归系数相关的统计量。量。uModel fit:SPSS默认输出项,默认输出项,输出输出R,R2,调整的,调整的R2,回归,回归方程的标准误差,及方差分方程的标准误差,及方差分析表析表ANOVA。uCollinearity Diagnostics:多重多重共线性分析。共线性分析。高校社会科学研究中的立项问题高校社会科学研究中的立项问题Step-2:先采用先采用Enter策略,并进行多重共线策略,并进行多重共线性检测分析。性检测分析。报告报告-1 立项课题数多元线性回归分析结果立项课题数多元线性回归分析结果(Enter策略策略)依据该表进行拟合优度检验依据该表进行拟合优
37、度检验。多个解释变量应参考。多个解释变量应参考Adjusted R Square(0.924)接近接近1,可认为拟合优度较高,可认为拟合优度较高,即被解释变量可以被模型解释,即被解释变量可以被模型解释的部分较多,未被解释的部分较少。的部分较多,未被解释的部分较少。高校社会科学研究中的立项问题高校社会科学研究中的立项问题报告报告-2:ANOVA分析分析 (Enter策略策略)F统计量统计量的观测值为的观测值为61.532,对应的,对应的概率概率p值近值近似似0。依据该表。依据该表进行回归方程的显著性检验。进行回归方程的显著性检验。可见可见p 0.05,拒绝拒绝H0假设,认为假设,认为各回归系数不
38、同时为各回归系数不同时为0,被因变量与全体自变量存在显著线性关系,可建立被因变量与全体自变量存在显著线性关系,可建立线性模型。线性模型。高校社会科学研究中的立项问题高校社会科学研究中的立项问题报告报告-3 回归系数回归系数coefficients(Enter策略策略)观察回归系数显著性观察回归系数显著性t检验的观测值及对应概率值检验的观测值及对应概率值p.除了除了“投入人年数投入人年数”0.003 0.05,说明说明残差序列与残差序列与正态分布不存在正态分布不存在显著差异显著差异,残差,残差满足了线性模型满足了线性模型的前提要求的前提要求。高校社会科学研究中的立项问题高校社会科学研究中的立项问
39、题异方差分析异方差分析 :观察标准化残差随标准化预测观察标准化残差随标准化预测值的变化的值的变化的散点图散点图X轴为标准化的预轴为标准化的预测值测值Y轴为标准化的残轴为标准化的残差值差值高校社会科学研究中的立项问题高校社会科学研究中的立项问题 图中可图中可见,随着标准化见,随着标准化预测值的变化,预测值的变化,残差点在残差点在0线周围线周围随机分布随机分布,但残,但残差的差的等方差性并等方差性并不完全满足,方不完全满足,方差似乎有增大的差似乎有增大的趋势。趋势。高校社会科学研究中的立项问题高校社会科学研究中的立项问题 进一步检验进一步检验方差与预测值之间的方差与预测值之间的线性相关性。采用线性
40、相关性。采用Spearman等级相关系数等级相关系数。保存标准化的预测值保存标准化的预测值Standardized Predicted Value.Command:AnalyzeCorrelateBivariate高校社会科学研究中的立项问题高校社会科学研究中的立项问题Correlations 残差与预测值的残差与预测值的Spearman等级等级相相关系数为关系数为-0.176,且检验并不显著,且检验并不显著0.3440.05,因此可认为异方差现象并不明,因此可认为异方差现象并不明显。显。高校社会科学研究中的立项问题高校社会科学研究中的立项问题总结:总结:采用采用Backward策略,我们策略,我们明确了对立明确了对立项课题起作用的项课题起作用的主要因素主要因素(投入年人数投入年人数)。分析出描述高校立项课题数的回归模型分析出描述高校立项课题数的回归模型立项立项课题数课题数=-94.524+0.492投入人年数投入人年数该模型通过了一系列检验并满足线性回该模型通过了一系列检验并满足线性回归模型构建的前提条件。因此可以归模型构建的前提条件。因此可以通过通过设定投入的人年数预测立项课题数。设定投入的人年数预测立项课题数。






