资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,5/24/2016,#,Analysis of,boston datasets,组员:郭晋 郭煜,田甜 刘一诺,Questions,:,怎样预测波士顿的犯罪率?,怎么预测某市民是否犯罪?,Q1,:怎样预测波士顿的犯罪率,下面是我们的解决过程:,1,、做出每个变量对变量,crim,的简单线性回归,进行预测,2,、由简单线性回归的预测,做残差分析,发现预测效果不佳,3,、以,crim,为响应变量,其余变量为预测变量,做多元线性回归。,4,、发现多元线性回归预测效果不佳,进行多元回归分析,不断改变归回模型,最终得到最佳回归模型。,下面是具体操作过程:,首先我们画出,Boston,的散点图矩阵,大致观察图像,之后我们以其中的,zn,对,crim,的线性回归为例,向您展示我们的造作过程,首先,我们拟合了,zn,与,crim,之间的线性关系,得到相关结果如下:,lm.fit0=lm(crimzn,data=Boston1),summary(lm.fit0),Call:,lm(formula=crim zn,data=Boston1),Residuals:,Min 1Q Median 3Q Max,-2.811-2.652-1.755-0.360 86.141,Coefficients:,Estimate Std.Error t value Pr(|t|),(Intercept)2.83564 0.40955 6.924 1.74e-11*,zn -0.04657 0.01415 -3.291 0.00109*,-,Signif.codes:0*0.001*0.01*0.05.0.1 1,Residual standard error:7.197 on 404 degrees of freedom,Multiple R-squared:0.02611,Adjusted R-squared:0.0237,F-statistic:10.83 on 1 and 404 DF,p-value:0.001086,发现,p,值小于,0.01,,我们有理由认为,zn,和,crim,之间存在关联,之后,画出,zn,对,crim,的散点图与拟合曲线,我们发现,拟合效果不佳。,plot(Boston$zn,Boston$crim),abline(lm.fit0),之后我们又画出真实值和拟合值的残差图,看预测准确度如何,横坐标是测试集的,crim,预测值,纵坐标是预测值和真实值的残差,注:在拟合时,我们用前,406,个观测当作训练集,后,100,个观测当作测试集,preb=predict(lm.fit0,data.frame(zn=(c(Boston407:506,2),interval=confidence),plot(Boston407:506,1-preb,1)2preb,1),我们发现预测效果十分不好,,事实上,所有简单线性回归的预测效果均不是很好,,下面我们给出具体操作数据与图像。,下面是各简单线性回归的,p,值:,从中可以看出,和,crim,有(,0.01,)线性关系的预测变量有,:zn,indus,nox,rm,age,dis,rad,tax,ptratio,black,crimzn,crimindus,crimchas,crimnox,crimrm,crimage,crimdis,crimrad,crimtax,crimptratio,crimblack,crimlstat,crimmedv,Intercept,2.83564,-1.6457,2.2066,-10.843,13.768,-2.64658,6.7596,-2.66513,-9.25268,-10.9243,5.416339,-2.78713,8.20163,系数,-0.04657,0.40041,-0.355,24.447,-1.8314,0.07469,-1.1015,0.70423,0.032243,0.7263,-0.00853,0.43449,-0.25013,p,值,0.00109,7.25E-14,0.783,8.20E-16,0.000192,9.08E-10,8.65E-12,2e-16,2e-16,6.71E-06,0.34,2e-16,4.02E-11,各简单线性回归的散点图与拟合曲线如下:,各简单线性回归残差图如下,:,从中可以看出,预测情况较好的变量有:,nox,rm,age,dis,black,lstat,medv,鉴于简单线性回归给出的预测均不好,,下面我们对变量进行多元回归分析。,首先直接对其进行多元回归,生成诊断图并分析问题。,lm.fit13=lm(crim.,data=Boston1),par(mfrow=c(2,2),plot(lm.fit13),注:,图一和图三都用于检查数据的非线性。图一是残差和预测变量的散点图,红线是对残差的一个光滑拟合,目的是更易于识别趋势,残差呈现明显大的,U,形,说明响应变量和预测变量之间是非线性关系。图三是标准化残差的平方根和预测变量的散点图。拟合红线和图一呈现相近的趋势,说明数据存在异方差性,因此数据有非线性关系。,图二用于观察残差是否服从正态分布,是残差平方根和理论分位点的散点图,很显然残差不服从正态分布。,图四用于判断高杠杆点:是标准化残差和杠杆值的散点图,红线表示的是,cooks,距离等高线,我们发现,381,号样本有较大的影响。,(Cooks distance,衡量的是一个某样本的改变会使得所有样本的残差改变的幅度,该值越大,说明该样本异常,),为使回归模型预测效果更好,我们通过对预测变量做非线性变换来改进模型,我们分别作了对数变换、平方变换和开方变换,发现对数变换预测性最好,最优拟合是,lm.fit13,,对应的是多元回归拟合,这个答案是合理的,,lmfit13,对训练集的数据拟合程度最高,也就导致了它预测性不会比做了非线性变换之后的回归好,.,具体操作如下:,多元线性:,参数显著性:,残差图:,对数变换,参数显著性,残差图,平方变换,参数显著性,残差图,开方变换,参数显著性,残差图,
展开阅读全文