1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,3.2,回归分析,1.40,1.50,1.60,1.70,1.80,1.90,2.00,2.10,1.70,1.79,1.88,1.95,2.03,2.10,2.16,2.21,(一)线性回归直线方程的求法,例,1,研究某灌溉渠道水的流速,Y,与水深,x,之间是关系,测得一组数据如下:,水深,x,/,m,流速,Y,/(,m,s,),(,1,)求,Y,对,x,的回归直线方程;,(,2,)预测水深为,1.95,m,时水的流速是多少?,分析:从散点图可以直观地看出变量,x,与,Y,之间有无线性相关关系,为此把这,
2、8,对数据在平面直角坐标系中,得到平面上,8,个点,.,由图可以看出,,x,与,Y,之间有近似的线性相关关系,或者说,可以用一个回归直线方程 来反映这种关系,这些是我们在必修,3,中学过的知识。,用什么方法求?,最小二乘法,:,利用最小二乘法可以得到 的计算公式为,由此得到的直线 就称为这对数据的回归直线,此直线方程即为线性回归方程其中 分别为,a,,,b,的估计值,称为回归截距,称为回归系数,称为回归值,进一步观察这,8,个点,容易发现,它们并不是“严格地”在一条直线上。对于某个,x,i,,由上式能确定一个,一般地说,由于测量流速可能存在误差,或者受某些随机因素的影响,或者上面的回归方程本身
3、就不够精确,与测得的数据,y,i,很可能不相等,,即,(,i,=1,,,2,,,,,8),,其中 是随机误差项。于是就有,(,i,=1,,,2,,,8),,这就是本题的线性模型。,从上述线性模型出法,我们可以求出,a,与回归系数,b,的估计值 ,使得全部误差 的平方和达到最小,当然,这是一种很好的估计,最后得到的求 的数学公式为,线性回归方程 中,的意义是:以 为基数,,x,每增加,1,个单位,,y,相应地平均增加 个单位,1.40,1.50,1.60,1.70,1.80,1.90,2.00,2.10,1.70,1.79,1.88,1.95,2.03,2.10,2.16,2.21,例,1,研究
4、某灌溉渠道水的流速,Y,与水深,x,之间是关系,测得一组数据如下:,(,1,)求,Y,对,x,的回归直线方程;,(,2,)预测水深为,1.95,m,时水的流速是多少?,水深,x,/,m,流速,Y,/(,m,s,),解:(,1,)由上面的分析,可采用列表的方法计算,a,与回归系数,b,,,序号,x,y,x,2,xy,1,1.40,1.70,1.96,2.380,2,1.50,1.79,2.25,2.685,3,1.60,1.88,2.56,3.008,4,1.70,1.95,2.89,3.315,5,1.80,2.03,3.24,3.654,6,1.90,2.10,3.61,3.990,7,2.
5、00,2.16,4.00,4.320,8,2.10,2.21,4.41,4.641,合计,14.00,15.82,24.92,27.993,Y,对于,x,的回归直线方程为,把,x,=1.95,代入,易得,计算结果表明,当水深为,1.95,m,时可以预测渠水的流速约为,2.12,m,/,s,.,(二)线性回归相关关系的检验,例,2,为了了解某地母亲身高,x,与女儿身高,Y,的相关关系,随机测得,10,对母女的身高如下表所示:,母亲身高,x,/,cm,159,160,160,163,159,154,159,158,159,157,女儿身高,Y,/,cm,158,159,160,161,161,15
6、5,162,157,162,156,试对,x,与,Y,进行一元线性回归分析,并预测当母亲身高为,161cm,时女儿的身高为多少?,分析:把这,10,对数据画出散点图如图所示:,可以看出,x,与,Y,之间有近似地线性关系关系。,散点图能帮助我们寻找线性关系关系,既直观又方便。只需一张坐标纸,把已知的成对数据标在直角坐标系中便可得到散点图。即使没有坐标纸,改用普通白纸也可以,.,因为我们并不要求把点标得十分准确,只要能看出这些点大致分布在某条直线附近就可以了。麻烦在于有时很难说这些点是不是分布在某条直线附近,如下图中的两个散点图,都很难下判断,右边那个图散布的那些点更像在一条曲线附近。,此外,假如
7、不考虑散点图,按照例,1,给出的计算,a,与回归系数,b,的公式,我们可以根据一组成对的数据,求出一个回归直线方程。但它能不能反映这组成对数据的变化规律?如不能,这又有多少实际意义呢?,为了解决上述问题,我们有必要对,x,与,Y,作,线性相关检验,,简称,相关性检验,。,对于变量,x,与,Y,随机抽到的,n,对数据,(,x,1,,,y,1,),,,(,x,2,,,y,2,),,,,,(,x,n,,,y,n,),,检验统计量是样本相关系数,r,具有以下性质:,|,r,|1,,并且,|,r,|,越接近,1.,线性相关程度越强,,,|,r,|,越接近,0,,线性相关程度越弱,。,检验的步骤如下:,(
8、1,)作统计假设:,x,与,Y,不具有线性相关关系,;,(,2,)根据小概率,0.05,与,n,2,在附表中查出,r,的一个临界值,r,0.05,;,(,3,)根据样本相关系数计算公式求出,r,的值;,(,4,)作统计推断,如果,|,r,|,r,0.05,,表明有,95%,的把握认为,x,与,Y,之间具有线性相关关系。,如果,|,r,|,r,0.05,,我们没有理由拒绝原来的假设。这时寻找回归直线方程是毫无意义的。,解:由以上分析,先对,x,与,Y,作相关性检验。,(,1,)作统计假设:,x,与,Y,不具有线性相关关系;,(,2,)由小概率,0.05,与,n,2=8,在附表中查得,r,0.0
9、5,=0.632,;,(,3,),所以,(,4,),|,r,|=0.710.632,,即,|,r,|,r,0.05,,所以有,95%,的把握认为,x,与,Y,之间具有线性相关关系,去求回归直线方程是有意义的。,回归系数,所以,Y,对,x,的回归直线方程是,回归系数,0.78,反映出当母亲身高每增加,1,cm,时女儿身高平均增加,0.78,cm,。可以解释为女儿身高不受母亲身高变化影响的部分。,当,x,=161,时,,也就是说当母亲的身高为,161,cm,时女儿的身高大致也接近,161,cm,。,例,3.,某市居民,19962003,年货币收入,x,与购买商品支出,Y,的统计资料如下表所示:,年
10、份,1996,1997,1998,1999,2000,2001,2002,2003,货币收入,x,36,37,38,40,42,44,47,50,购买商品支出,Y,30.0,31.0,32.0,33.2,34.8,36.5,39.0,41.6,试对,x,与,Y,的关系进行相关性检验,如,x,与,Y,具有线性相关关系,求出,Y,对,x,的回归直线方程,(,结果保留,3,个有效数字,).,单位:亿元,解,:(,1,)画出散点图,(,单位:亿元,),(,2,)作统计假设:,x,与,Y,不具有线性相关关系,.,(,3,)由小概率事件,0.05,与,n,2=6,在附表中查得,r,0.05,=0.707,
11、4,)使用计算器或计算机进行计算得,|,r,|=0.9090.707,,即,|,r,|,r,0.05,.,从而有,95%,的把握认为,x,与,Y,具有线性相关关系,.,(,5,)算出线性回归方程中的,a,和,b,得,a,=0.851,,,b,=0.812.,从而线性回归方程为,例,4.,某种书每册的成本费,Y,(,元,),与印刷册书,x,(,千册,),有关,经统计得到数据如下:,x,1,2,3,5,10,20,30,50,100,200,Y,10.15,5.52,4.08,2.85,2.11,1.62,1.41,1.30,1.21,1.15,检验每册书的成本费,Y,与印刷册书的倒数 之间是
12、否具有线性相关关系,如有,求出,Y,对,x,的回归方程,.,分析:本例与前三个例子不同,是非线性回归分析问题。由于题目已给出了所要求的曲线类型,只要通过已知的,10,对样本数据,把,a,与,b,确定下来,就找到了描述,x,与,Y,相关关系的一条函数曲线。,在此我们特别指出,确定性关系(如公式、函数关系等)和相关关系之间并没有一条不可逾越的鸿沟。由于有试验误差、测量误差等存在,变量之间的确定性关系往往通过研究相关关系表现出来。反过来,在有些问题中,可以通过研究相关关系来深入了解变量变化的内在规律,从而找到它们的确定性关系。,解:首先作变量置换 ,得到,u,1,0.5,0.33,0.2,0.1,0
13、05,0.03,0.02,0.01,0.005,Y,10.15,5.52,4.08,2.85,2.11,1.62,1.41,1.30,1.21,1.15,然后做线性相关检验,作统计假设:,u,与,Y,不具有线性相关关系,.,2.,由小概率事件,0.05,与,n,2=8,在附表中查得,r,0.05,=0.632,3.,使用计算机进行计算,.,(,4,),|,r,|=0.9980.632,,即,|,r,|,y,0.05,,从而有,95%,的把握认为,u,与,Y,之间具有线性相关关系。求,Y,对于,u,的回归直线方程有意义。,(,5,)计算可得,把,u,换回原来的变量,即,u,=,得到,这就是,Y
14、对于,x,的回归方程,.,例,5,以下是收集到的新房屋的销售价格,y,和房屋的大小,x,的数据:,(,1,)画出数据的散点图;,(,2,)用最小二乘估计求回归直线方程,并在散点图上加上回归直线;,(,3,)此回归直线有意义吗?,解:,(1),数据的散点图见右图,(,2,),=109,,,回归直线方程为,=1.8166,0.1962,x,(,3,),y,与,x,的相关系数,查表,,n,2=3,时,临界值,r,0.05,=0.878,,由,r,r,0.05,知,变量,y,与,x,之间具有线性相关关系,回归直线是有意义的,练 习 题,1,设有一个回归方程为,=2,1.5,x,,则变量,x,增加一个
15、单位时()(,A,),y,平均增加,1.5,单位 (,B,),y,平均增加,2,单位 (,C,),y,平均减少,1.5,单位 (,D,),y,平均减少,2,单位,C,2,回归直线方程,=,a,bx,必定过点(,),(,A,)(,0,,,0,)(,B,)(,,0,)(,C,)(,0,,)(,D,)(,),D,3,回归直线方程的系数,a,,,b,的最小二乘估计,A,使函数,Q,(,a,,,b,),最小,,Q,函数指()(,A,)(,B,)(,C,)(,D,),4,下列说法中正确的是(),A,任何两个变量都具有相关关系,B,人的知识与其年龄具有相关关系,C,散点图中的各点是分散的没有规律,D,根据散点图求得的回归直线方程都是有意义的,B,5,若用水量,x,与某种产品的产量,y,的回归直线方程是,=2,x,1250,,若用水量为,50,k,g,时,预计的某种产品的产量是(),A,1350,k,g,B,大于,1350,k,g,C,小于,1350,k,g,D,以上都不对,A,6,若变量,y,与,x,之间的相关系数,r,=,0.9362,,查表得到相关系数临界值,r,0.05,=0.8013,,则变量,y,与,x,之间(),A,不具有线性相关关系,B,具有线性相关关系,C,它们的线性关系还要进一步确定,D,不确定,B,






