1、spss多元线性回归分析SPSS多元线性回归分析试验在科学研究中,我们会发现某些指标通常受到多个因素的影响,如血压值除了受年龄影响之外,还受到性别、体重、饮食习惯、吸烟情况等因素的影响,用方程定量描述一个因变量y与多个自变量x1、x2、x3.之间的线性依存关系,称为多元线性回归。有学者认为血清中低密度脂蛋白增高是引起动脉硬化的一个重要原因。现测量30名怀疑患有动脉硬化的就诊患者的载脂蛋白A、载脂蛋白B、载脂蛋白E、载脂蛋白、低密度脂蛋白中的胆固醇含量。资料如下表所示。求低密度脂蛋白中的胆固醇含量对载脂蛋白、载脂蛋白、载脂蛋白、载脂蛋白的线性回归方程。表1 30名就诊患者资料表序号载脂蛋白A载脂
2、蛋白B载脂蛋白E载脂蛋白C低密度蛋白11731067.014.713721391326.417.816231981126.916.713441181387.115.71885139948.613.6138617516012.120.3215713115411.221.517181581419.729.614891581377.418.2197101321517.517.2113111621106.015.91451214411310.142.881131621377.220.7185141691298.516.7157151291386.310.11971616614811.533.41561
3、71851186.017.5156181551216.120.4154191751114.127.2144201361109.426.090211531338.516.9215221101499.524.718423160865.310.8118241121238.016.6127251471108.518.4137262041226.121.0126271311026.613.4130281701278.424.7135291731238.719.01883013213113.829.2122spss数据处理步骤:()打开spss输入数据后,点击“分析”“回归”“线性”。然后将“低密度脂蛋白
4、”选入因变量框,将“载脂蛋白”“载脂蛋白”“载脂蛋白”“载脂蛋白C”依次选入自变量框。方法选为“逐步”。(2)单击“统计量”选项,原有选项基础上选择“R方变化”。在残差中选“Durbin-Watson”,单击“继续”。(3)单击“绘制”,将“DEPENDNT”选入“X2”中,将“*SRESID”选入“Y”中,在标准残差图选项中选择“直方图”和“正态概率图”。单击“继续”。(4)单击“选项”,在原有选项的基础上单击“继续”,最后单击“确定”,就完成了。数据处理结果如下:输入移去的变量a模型输入的变量移去的变量方法1载脂蛋白B.步进(准则: F-to-enter 的概率 = .100)。2载脂蛋白
5、C.步进(准则: F-to-enter 的概率 = .100)。a. 因变量: 低密度脂蛋白上图为统计的基本信息。模型汇总c模型RR 方调整 R 方标准 估计的误差更改统计量Durbin-WatsonR 方更改F 更改df1df2Sig. F 更改1.562a.316.29128.331.31612.924128.0012.733b.538.50323.715.22212.960127.0012.532a. 预测变量: (常量), 载脂蛋白B。b. 预测变量: (常量), 载脂蛋白B, 载脂蛋白C。c. 因变量: 低密度脂蛋白上图列出了模型的R、R方、调整R方。R方值越大所反映的两变量的共变量
6、比率越高,模型与数据的拟合程度越好。结果显示:自变量和因变量之间的相关系数为0.733,拟合线性回归的确定性系数为0.538,经调整后的确定性系数为0.503。Anovac模型平方和Df均方FSig.1回归10373.178110373.17812.924.001a残差22473.48928802.625总计32846.667292回归17661.79428830.89715.702.000b残差15184.87327562.403总计32846.66729a. 预测变量: (常量), 载脂蛋白B。b. 预测变量: (常量), 载脂蛋白B, 载脂蛋白C。c. 因变量: 低密度脂蛋白上图是对拟合
7、的两个模型的方差分析检验结果,两个 SIG都小于0.05,说明两个模型都有统计学意义,模型有统计学意义不等于模型内所有的变量都有统计学意义,还需要进一步对各自变量进行检验。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)20.68036.801.562.579载脂蛋白B1.043.290.5623.595.0012(常量)41.84131.3611.334.193载脂蛋白B1.254.250.6765.019.000载脂蛋白C-2.341.650-.485-3.600.001a. 因变量: 低密度脂蛋白上图为对两个模型中各个系数检验的结果,蛋白B、C其后的 SIG都小于0.
8、05,均有统计学意义。所以最后的回归方程为y=41.841+1.254x2-2.341x4其后的标准系数可以用来比较自变量对因变量的影响强度,标准系数的绝对值越大说明说明对因变量的贡献越大,本例中B对因变量的影响最大,其次是。已排除的变量c模型Beta IntSig.偏相关共线性统计量容差1载脂蛋白A.128a.801.430.152.962载脂蛋白E-.308a-1.788.085-.325.762载脂蛋白C-.485a-3.600.001-.569.9452载脂蛋白A.166b1.255.221.239.957载脂蛋白E-.060b-.346.732-.068.582a. 模型中的预测变量: (常量), 载脂蛋白B。b. 模型中的预测变量: (常量), 载脂蛋白B, 载脂蛋白C。c. 因变量: 低密度脂蛋白上表为残差的直方图,可见残差分布比较均匀,近似服从正态分布,符合多元回归的条件。上图为残差的正态pp图,可见残差基本呈直线趋势,可以认为因变量呈正态分布。上图为低密度脂蛋白胆固醇对学生化残差的散点图,可见残差围绕均线均匀分布,把部分残差绝对值在2以内,提示方差齐。