1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数理统计-线性回归,变量之间的关系,确定性关系,相关关系,确定性关系,身高和体重,相关关系,相关关系的特征是,:,变量之间的关系很难用一,种精确的方法表示出来,.,回归分析的基本思想,变量之间的关系,1.,函数关系,:变量之间依一定的函数形成的一一对应关系,若两个变量分别记做Y与X,则当Y与X之间存在函数关系时,X值一旦被指定,Y值就是唯一确定的。如圆的面积与其半径之间的关系.,2.,统计相关关系,:变量之间存在某种关系,但变量Y并不是由变量X唯一确定的,它们之间没有严格的一一对应关系。两个变量间的这种关系
2、就是统计关系,亦称,相关关系,。例如:小麦的产量Y与施肥量x,1,品种x,2,等存在关系,但给定x,1,x,2,的数值后Y的值还是无法确定的.,两个变量之间若存在线性关系称为,线性相关,存在非线性关系称为,曲线相关,,通常通过适当的变量变换,曲线相关可转换为线性相关。,一般说来,在给定X=x条件下Y的条件概率分布 ,则Y与X的关系就清楚了.但在实际中要求解往往是非常困难的.,事实上,对Y而言,在实际中只需知道它的某个数字特征:条件数学期望 就可以了.,把 称为Y关于X的回归方程,.,回归分析的作用,:在于通过对变量X的观测值就可预测Y的取值,并且当 时,为Y在方差误差意义下的最佳预测值.,确定
3、性关系,和,相关关系,的联系:,由于存在测量误差等原因,确定性关系在实际,问题中往往通过相关关系表示出来,;,另一方面,当对,事物内部规律了解得更加深刻时,相关关系也有可,能转化为确定性关系,.,回归分析,处理变量之间的相关关系的一,种数学方法,它是最常用的数理统计方法,.,线性回归分析,非线性回归分析,回,归,分,析,一元线性回归分析,多元线性回归分析,问题的分析,4.1 一元线性回归分析,问题的一般提法,求解步骤,1.推测回归函数的形式,方法一根据专业知识或者经验公式确定,;,方法二作散点图观察,.,温度,x,(,o,C,),得率,Y,(,%,),100,110,120,130,140,1
4、50,160,170,180,190,45,51,54,61,66,70,74,78,85,89,用,MATLAB,画出散点图,例1,为研究某一化学反应过程中,温度,对产,品得率,Y,(%,),的影响,测得数据如下,.,x=100:10:190;y=45,51,54,61,66,70,74,78,85,89;,plot(x,y,.r),一元线性回归问题,2.建立回归模型,一元线性回归模型,3.未知参数,a,b,的估计-,最小二乘法,意义,:实际测得的点与直线上的理论点之间的误差的平方和最小,正规方程组,回归方程,回归直线,参数估计量的性质,例2,例,1,中的随机变量,Y,符合一元线性回归模型所
5、述的条件,求,Y,关于,x,的线性回归方程,.,温度,x,(,o,C),得率,Y,(%),100,110,120,130,140,150,160,170,180,190,45,51,54,61,66,70,74,78,85,89,在,MATLAB,中求解,x=100:10:190;,y=45,51,54,61,66,70,74,78,85,89;,polytool(x,y,1,0.05),源程序,程序运行结果,回归图形,参数传送,置信区间,帮助,残差平方和,反应的是在试验中由随机因素,的影响而引起的误差,离差平方和,反应整批数据的波动程度,回归平方和,反应回归直,线引起的偏差,平方和分解式,
6、例3,求例,2,中方差的无偏估计,.,5.线性相关性的显著性检验,1).F检验法,2).相关系数检验法,例4,检验例,2,中的回归效果是否显著,取显著性水平为,0.05.,3).t检验法,6.预测与控制,控制,怎样控制,x,的值才能使Y的值在要求的范围内,预测,在自变量 时,估计Y的观测值所在范围,(1).回归函数函数值 的估计,预测,(2).,Y,的观察值 的估计,预测,例5,(,续例,2),解(1),已知,计算,(2),在,MATLAB,中求解,输出参数,回归直线,控制,:怎样控制自变量,x,的值才能使Y的值以1-,的置信度落所,在要求的区间,a,b,内,即,控制,例6,对某产品的表面进行
7、腐蚀刻线试验,设腐蚀,深度Y与时间,x,的结果如下表:,时间,x,(秒),深度,Y,(mm),5,6,10,20,30,40,50,60,65,90,4,6,8,13,16,17,19,25,25,29,Y=,a,+,bx+,120,46,(1)求,Y,与,x,的相关关系;(2)当 秒时 的置信度为95%,置信区间;(3)要深度在10,21之间时腐蚀时间应如何控制。,解:)在,xy,坐标系上将描出的散点图,由图看出点在一条直线附近,因此可假设,与,x,之间有线性相关关系设为:,显著性检验:,参数估计:,预测:,控制:,方法,通过适当的变量变换,化成一元线性,回归问题进行分析处理,.,两边取对数
8、可化为一元线性回归的问题,两边取对数,曲线回归方程,例,表,9.18,是,1957,年美国旧轿车价格的调查资料,今以,x,表示轿车的使用年数,Y,表示相应的平均价格,(,以美元计,),求,Y,关于,x,的回归方程,.,表,9.18,年数,x,价格,Y,1,2,3,4,5,6,7,8,9,10,2651,1943,1494,1087,765,538,484,290,226,204,在,MATLAB,中求解,首先作散点图,x=1:1:10;,y=2651,1943,1494,1087,765,538,484,290,226,204;,plot(x,y,.r),选择模型,变量变换,数据变换,xx=
9、x;yy=log(y);,求回归方程,polytool(xx,yy,1),线性假设的显著性检验,线性回归效果高度显著,.,代回原变量,得曲线回归方程,小结,1.,回归分析的任务,2.,一元线性回归的步骤,3.,可化为一元线性回归的问题,研究变量之间的相关关系,(1)推测回归函数;(2)建立回归模型;,(3)估计未知参数;(4)进行假设检验;,(5)预测与控制.,关键,:选择适当的,变量代换,.,4.2 多元线性回归分析,多元线性回归模型,多元线性回归的参数估计、线性相关性的检验以及预测控制等问题都可采用一元线性回归类似的方法求解。,化简可得,参数估计:,达到最小,.,使误差平方和,正规方程组,
10、最大似然估计值,P,元经验线性回归方程,正规方程组的矩阵形式,残差平方和,估计量的性质:,离差平方和,回归平方和,F检验法:,线性相关性的显著性检验,:,多元线性回归,1.,确定回归系数的点估计值,用命令,:,b=regress,(,Y,X,),2.,求回归系数的点估计和区间估计,并检验回,归模型,用命令,:,b,bint,r,rint,stats,=,regress,(,Y,X,alpha,),3.,画出残差及其置信区间,用命令,:,rcoplot,(,r,rint,),附:,MATLAB,中回归分析的实现,符号说明,(1),(2),alpha,为显著性水平,默认为,0.05;,(3),bi
11、nt,为回归系数的区间估计,;,(4),r,与,rint,分别为残差及其置信区间,;,(5),stats,是用于检验回归模型的统计量,有三个,数值,第一个是相关系数,r,2,其值越接近于,1,说明回,归方程越显著,;,第二个是,F,值,F,F,1-,alpha,(,p,n,-,p,-1),时,拒绝,H,0,F,越大,说明回归方程越显著,;,第三个是与,F,对应的概率,p,p,alpha,时拒绝,回归模型成立,.,身高,143,145,146,147,149,150,153,154,腿长,88,85,88,91,92,93,93,95,身高,155,156,157,158,159,160,162
12、164,腿长,96,98,97,96,98,99,100,102,例1,测得,16,名女子的身高和腿长如下,(,单位,:cm):,试研究这些数据之间的关系,.,输入数据,x=143,145,146,147,149,150,153,154,155,156,157,158,159,160,162,164;,X=ones(16,1),x;,Y=88,85,88,91,92,93,93,95,96,98,97,96,98,99,100,102;,回归分析及检验,b,bint,r,rint,stats=regress(Y,X);,b,bint,stats,残差分析,rcoplot(r,rint),预测
13、及作图,z=b(1)+b(2)*x,plot(x,Y,k+,x,z,r),数据比较,残差图形,预测图形,数据比较,帮助,程序运行结果,一元多项式回归,1.,确定多项式系数,用命令,:,p,S,=,polyfit,(,x,y,m,),也可使用命令,:,polytool,(,x,y,m,),结果产生一个交互式的画面,画面中有拟合曲,线和,y,的置信区间,左下方的,Export,可以输出参数,.,2.,预测和预测误差估计用命令,:,求回归多项式在,x,处的预测值,Y,.,Y,DELTA,=,polyconf,(,p,x,S,alpha,),求回归多项式在,x,处的预测值,Y,以及预测值的,显著性为,
14、1-,alpha,的置信区间,Y,DELTA,alpha,的默,认值是,0.05.,一元多项式回归可化为多元线性回归求解,.,Y,=,polyval,(,p,x,),例2,下面给出了某种产品每件平均单价,Y,(,元,),与,批量,x,(,件,),之间的关系的一组数据.,x,20,25,30,35,40,50,y,1.81,1.70,1.65,1.55,1.48,1.40,x,60,65,70,75,80,90,y,1.30,1.26,1.24,1.21,1.20,1.18,试用一元二次多项式进行回归分析,.,输入数据,x=20,25,30,35,40,50,60,65,70,75,80,90;
15、y=1.81,1.70,1.65,1.55,1.48,1.40,1.30,1.26,1.24,1.21,1.20,1.18;,作二次多项式回归,p,S=polyfit(x,y,2),预测及作图,Y=polyconf(p,x,y),plot(x,y,b+,x,Y,r),回归结果,残差图形,预测图形,帮助,程序运行结果,化为多元线性回归,X=ones(12,1)x(x.2);,b,bint,r,rint,stats=regress(y,X);,b,stats,与前面的结果一致,.,多元二项式回归,rstool,(,x,y,model,alpha,),其中,输入数据,x,y,分别为,n,m,矩阵和
16、n,维列向量;,alpha,为显著性水平,默认为 0.05;,model,为下列四种模型中的一种,输入相应的字符串,默认为线性模型.,rstool,的输出是一个交互式画面,画面中有,m,个,图形,分别给出了一个独立变量,x,i,与,y,的拟合曲线,以及,y,的置信区间,此时其余,m,-1个变量取固定值.可,以输入不同的变量的不同值得到,y,的相应值.,图的左下方有两个下拉式菜单,一个用于传送,回归系数、剩余标准差、残差等数据;另一个用于,选择四种回归模型中的一种,选择不同的回归模型,其中剩余标准差最接近于零的模型回归效果最好.,例3,设某商品的需求量与消费者的平均收入、商,品价格的统计数据如
17、下,建立回归模型,预测平均收,入为 1000,价格为 6 时的商品需求量.,需求量,100,75,80,70,50,收入,1000,600,1200,500,300,价格,5,7,6,6,8,需求量,65,90,100,110,60,收入,400,1300,1100,1300,300,价格,7,5,4,3,9,选择纯二次模型,即,数据输入,x1=1000,600,1200,500,300,400,1300,1100,1300,300;,x2=5,7,6,6,8,7,5,4,3,9;,y=100,75,80,70,50,65,90,100,110,60;,x=x1 x2;,回归、检验与预测,rs
18、tool(x,y,purequadratic),回归图形,回归结果,帮助,程序运行结果,化为多元线性回归求解,x1=1000,600,1200,500,300,400,1300,1100,1300,300;,x2=5,7,6,6,8,7,5,4,3,9;,y=100,75,80,70,50,65,90,100,110,60;,X=ones(10,1)x1 x2(x1.2)(x2.2);,b,bint,r,rint,stats=regress(y,X),回归系数的点估计以及区间估计,残差及其置信区间,检验回归模型的统计量,逐步回归分析,在实际问题中,影响因变量的因素很多,而这些,因素之间可能存在
19、多重共线性.为得到可靠的回归,模型,需要一种方法能有效地从众多因素中挑选出,对因变量贡献大的因素.,如果采用多元线性回归分析,回归方程稳定性,差,每个自变量的区间误差积累将影响总体误差,预,测的可靠性差、精度低;另外,如果采用了影响小的,变量,遗漏了重要变量,可能导致估计量产生偏倚和,不一致性.,选择“,最优,”回归方程的方法,1.从所有可能的变量组合的回归方程中选择,最优者;,2.从包含全部变量的回归方程中逐次剔除不,显著因子;,3.从一个变量开始,把变量逐个引入方程;,4.“,有进有出,”的,逐步回归分析,.,“,最优,”的回归方程应该包含所有有影响的,变量而不包括影响不显著的变量.,逐步
20、回归分析法,在筛选变量方面比较理想,是,目前较常用的方法.它从一个自变量开始,根据自变,量作用的显著程度,从大到小地依次逐个引入回归,方程,但当引入的自变量由于后面变量的引入而变,得不显著时,要将其剔除掉.引入一个自变量或从回,归方程中剔除一个自变量,为逐步回归的一步,对于,每一步,都进行检验,以确保每次引入新的显著性变,量前回归方程中只包含作用显著的变量.,反复进行上面的过程,直到没有不显著的变量,从回归方程中剔除,也没有显著变量可引入到回归,方程.,函数:,stepwise,用法:,stepwise,(,x,y,inmodel,alpha,),符号说明:,x,自变量数据,为,n,m,矩阵;
21、y,因变量数据,为,n,1矩阵;,inmodel,由矩阵,x,列的指标构成,表明初始模,型中引入的自变量,默认为全部自变量;,alpha,判断模型中每一项显著性的指标,默,认相当于对回归系数给出95%的置信区间.,例4,水泥凝固时放出的热量,y,与水泥中的四种化,学成分,x,1,x,2,x,3,x,4,有关,今测得一组数据如下,试,用逐步回归法确定一个线性模型.,序号,1,2,3,4,5,6,7,x,1,7,1,11,11,7,11,3,x,2,26,29,56,31,52,55,71,x,3,6,15,8,8,6,9,17,x,4,60,52,20,47,33,22,6,y,78.5,74
22、3,104.3,87.6,95.9,109.2,102.7,序号,8,9,10,11,12,13,x,1,1,2,21,1,11,10,x,2,31,54,47,40,66,68,x,3,22,18,4,23,9,8,x,4,44,22,26,34,12,12,y,72.5,93.1,115.9,83.8,113.3,109.4,x1=7,1,11,11,7,11,3,1,2,21,1,11,10;,x2=26,29,56,31,52,55,71,31,54,47,40,66,68;,x3=6,15,8,8,6,9,17,22,18,4,23,9,8;,x4=60,52,20,47,33,2
23、2,6,44,22,26,34,12,12;,y=78.5,74.3,104.3,87.6,95.9,109.2,102.7,72.5,93.1,115.9,83.8,113.3,109.4;,x=x1,x2,x3,x4;,输入数据,逐步回归,回归平面,帮助,stepwise(x,y),逐步回归分析,程序运行结果,对变量,y,和,x,1,x,2,作线性回归.,X=ones(13,1),x1,x2;,b,bint,stats=regress(y,X),回归模型为,三个统计量表明:回归效果显著.,3.,MATLAB,中回归分析的实现,(1),多元线性回归,b=regress,(,Y,X,),(2),一元多项式回归,p,S,=,polyfit,(,x,y,m,),(3),多元二项式回归,rstool,(,x,y,model,alpha,),(4),逐步回归分析,stepwise,(,x,y,inmodel,alpha,),






