资源描述
海 南 大 学
《数理统计》课程设计
题目: 一元线性回归
班级: 数学与应用数学
学号: 20131615310031
姓名: 王丽
指导教师: 韩汉鹏
日期: 2015/6/25
一元线性回归分析
摘要:本文利用回归分析中的一元线性回归分析对近十年来的国内生产总值与第三产业增加值的关系进行研究(由于国家统计数据中暂时还没有2014-2015年的数据,故只能往后推几年),通过F检验以及R检验,肯定了模型的可靠性。
关键词:一元线性回归分析 国内生产总值 第三产业增加值 F检验 MATLAB
试验设计方法
建立一元线性回归模型:
其中是待定系数,对于不同的是相互独立的随机变量。
假设对于的n个值,得到的n个相应的值,确定的方法是根据最小二乘准则,要使
取最小值。利用极值必要条件令,求的估计值,从而得到回归直线。
(1)参数的区间估计
由于我们所计算出的仍然是随机变量,因此要对取值的区间进行估计,如果区间估计值是一个较短的区间表示模型精度较高。
(2)对误差方差的估计
设为回归函数的值,为测量值,残差平方和
剩余方差
(3)线性相关性的检验
由于我们采用的是一元线性回归,因此,如果模型可用的话,应该具有较好的线性关系。反映模型是否具有良好线性关系可通过相关系数R的值及F值观察。
试验数据(来源于国家统计
国内生产总值
第三产业增加值
2004
160713.4
66282.8
2005
185895.8
76964.9
2006
217656.6
91180.1
2007
268019.4
115090.9
2008
316751.7
135906.9
2009
345629.2
153625.1
2010
408903
180743.4
2011
484123.5
214579.9
2012
534123
243030
2013
588018.8
275887
建立回归模型:
一元线性回归分析设计,其国内生产总值与第三产业增加值关系的回归模型建立可借助计算机完成,本文采用MATLAB软件来建立其数学模型,程序如下:
首先利用命令plot(x,y,'r*')画出散点图,可编制程序如下:
y=[160713.4,185895.8,217656.6,268019.4,316751.7,...
345629.2,408903,484123.5,534123,588018.8];
x=[66282.8,76964.9,91180.1,115090.9,135906.9,...
153625.1,180743.4,214579.9,243030,275887];
plot(x,y,'*')
xlabel('第三产业增加值');
ylabel('国内生产总值');
运行后得到
从图形可以看出,这些点大致分布在一条直线的左右,因此,可以考虑一元线性回归。
根据计算得到的计算表为:
= 1553291 n= 10 = 3.5098e+006
= 1.5533e+005 = 3.5098e+005
= 2.4127e+011 = 6.4162e+011 = 1.4320e+012
= 2.8784e+011 = 5.4518e+011 = 1.2319e+012
= 4.6567e+010 = 9.6444e+010 = 2.0012e+011
= = 2.0711
= = 2.9284e+004
所以,他们之间的一元线性关系为y=2.9282e+004+2.0711*x
而
== 2.0012e+011
==1.9974e+011
=-=3.8051e+008
把各平方和与自由度移入方差分析表,继续进行计算得到下表:
国内生产总值与第三产业增加值回归方程的方差分析表
来源 平方和 自由度 均方 F比 p值
回归 =1.9974e+011 =1 =1.9974e+011 4.1995e+003 0.0000
残差 =3.8051e+008 =8 = 4.7564e+007
总计 = 2.0012e+011 =9
利用MATLAB软件来做F与R检验以及置信区间有:
输入y(因变量,列向量)、x(1与自变量组成的矩阵),alpha是显著性水平(缺省时默认0.05)。
输出,其中b中元素顺序与拟合命令polyfit的输出不同,bint是的置信区间,r是残差(列向量),rint是残差的置信区间,s包含4个统计量:决定系数(相关系数为R);F值;F(1,n-2)分布大于F值的概率p;剩余方差的值。
其意义:的值越接近1,变量的线性相关性越强,说明模型有效;如果满足,则认为变量与显著地有线性关系,其中的值可查F分布表;如果表示线性模型可用。这三个值可以相互印证。的值主要用来比较模型是否有改进,其值越小说明模型精度越高。
clear;clc;
format long;
y=[160713.4,185895.8,217656.6,268019.4 316751.7,...
345629.2,408903,484123.5,534123,588018.8];
x=[66282.8,76964.9,91180.1,115090.9,135906.9,...
153625.1,180743.4,214579.9,243030,275887];
n=10;
X=[ones(n,1),x'];
[b,bint,r,rint,s]=regress(y',X,0.05);
b,bint,s,
rcoplot(r,rint)
运行后得到
b =
1.0e+004 *
2.928407544898145
0.000207108239571
bint =
1.0e+004 *
1.678049344139109 4.178765745657182
0.000199738360349 0.000214478118793
s =
1.0e+007 *
0.000000099809862 0.000419946703500 0.000000000000000 4.756376812445453
则其中= 1.0e+007 *0.000000099809862=0.99809862, 由finv(0.95,1,8)=5.32,即= 5.31<F= 1.0e+007 * 0.000419946703500=,p<0.00000000001,置信区间为bint的值为[16780.49344139109 41787.65745657182]和[1.99738360349 2.14478118793] 说明模型有效且能改进,即:
可以通过残差图发现,第十个数据为奇异数据,去掉该数据后运行后得到
b =
1.0e+004 *
2.278277164509946
0.000212679047129
bint =
1.0e+004 *
1.460284634358639 3.096269694661254
0.000207345880433 0.000218012213826
s =
1.0e+007 *
0.000000099921340 0.000889208025291 0.000000000000000 1.547287564648822
则其中= 1.0e+007 * 0.000000099921340=0.99921340, 由finv(0.95,1,7)=5.59,即= 5.59<F= 1.0e+007 * 0.000889208025291,p<0.000000001,置信区间为[
14602.84634358639 30962.69694661254]和[2.07345880433 2.18012213826] 说明模型有效且有改进
但通过残差图发现,第九个数据仍为奇异数据,去掉该数据后运行后得到
b =
1.0e+004 *
1.917341884507555
0.000216005550143
bint =
1.0e+004 *
1.187485632932248 2.647198136082862
0.000210722088470 0.000221289011816
s =
1.0e+006 *
0.000000999400814 0.010007586361287 0.000000000000000 8.820891187750542
则其中= 1.0e+006 * 0.000000999400814=0.999400814, 由finv(0.95,1,6)=5.99,即= 5.99<F= 1.0e+006 *0.010007586361287,p<0.000000001,置信区间为[11874.85632932248 26471.98136082862]以及[2.10722088470 2.21289011816] 说明模型有效且有改进
可是通过残差图发现,第六个数据仍为奇异数据,去掉该数据后运行后得到
b =
1.0e+004 *
1.891017643251107
0.000216825949481
bint =
1.0e+004 *
1.392837534478213 2.389197752024002
0.000213157020044 0.000220494878919
s =
1.0e+006 *
0.000000999783395 0.023078451418954 0.000000000000000 3.716348256595486
则其中= 1.0e+006 * 0.000000999783395=0.9994783395, 由finv(0.95,1,5)=6.61,即= 6.61<F= 1.0e+006 *0.023078451418954,p<0.000000001,置信区间为[13928.37534478213 23891.97752024002]和[2.13157020044 2.20494878919] 说明模型有效且有改进
可以通过残差图发现,第五个数据仍为奇异数据,去掉该数据后运行后得到
b =
1.0e+004 *
1.863817476999229
0.000216620793588
bint =
1.0e+004 *
1.497289675224539 2.230345278773920
0.000213921030128 0.000219320557049
s =
1.0e+006 *
0.000000999919407 0.049628030121926 0.000000000000002 1.713718388238568
则其中= 1.0e+006*0.000000999919407=0.999919406, 由finv(0.95,1,4)=7.71,即= 7.71<F= 1.0e+006 *0.049628030121926,p<0.000000001,置信区间为[14972.89675224539 22303.45278773920]和[2.13921030128 2.19320557049]
说明模型有效且有改进,因此我们得到国内生产总值与第三产业增加值的关系为
y= 18638.17476999229+2.16620793588x
结论:
国内生产总值与第三产业呈现一元线性关系,得到国内生产总值与第三产业增加值的关系为
y= 18638.17476999229+2.16620793588x。因此,要使国内生产总值持续快速的增长,第三产业的发展也显得十分重要,而且,可以通过此模型,大致预测出下一年的国内生产总值。
参考文献:
概率论与数理统计教程 第二版 茆试松等编著 高等教育出版社
国家统计局. 国家统计年鉴[M]. 北京:中国统计出
陈桂明,戚红雨,潘伟.MATLAB数理统计(6.x).北京:科学出版社,2002
王沫然.Matlab 6. 0与科学计算.北京,电子工业出版社,2001
刘卫国 MATLAB程序设计与应用 第二版 高等教育出版社。
(注:专业文档是经验性极强的领域,无法思考和涵盖全面,素材和资料部分来自网络,供参考。可复制、编制,期待你的好评与关注)
展开阅读全文