1、 _1.1回归分析的基本思想及其初步应用 线性回归方程 [导入新知] 1.回归分析 (1)函数关系是一种确定性关系,而相关关系是一种非确定性关系,即自变量取值确定时,因变量的取值带有确定的随机性的两个变量之间的关系叫做相关关系. (2)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的散点图,求回归直线方程,并用回归直线方程进行预报. 2.线性回归模型 (1)线性回归模型y=bx+a+e,其中a和 b是模型的未知参数,e称为随机误差.自变量x称为解释变量,因变量y称为预报变量. (2)在回归方程
2、=x+中, ==,=-. 其中=i,=i, (,)称为样本点的中心. [化解疑难] 线性回归方程中系数的含义 (1)是回归直线的斜率的估量值,表示x每增加一个单位,y的平均增加单位数,而不是增加单位数. (2)当>0时,变量y与x具有正的线性相关关系;当<0时,变量y与x具有负的线性相关关系. 线性回归分析 [导入新知] 1.残差分析 (1)残差: 样本点(xn,yn)的随机误差ei=yi-bxi-a,其估量值为i=yi-i=yi-xi-,i称为相应于点(xi,yi)的残差(residual).(以上i=1,2,…,n) (2)残差图: 作图时,纵坐标为残差,
3、横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图. (3)残差分析: 残差分析即通过残差发觉原始数据中的可疑数据,推断所建立模型的拟合效果,其步骤为:计算残差——画残差图——在残差图中分析残差特性. 残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高. 2.相关指数 我们可以用相关指数R2来刻画回归的效果,其计算公式是: R2=1-. R2越大,残差平方和(yi-i)2越小,即模型的拟合效果越好;R2越小,残差平方和(yi-i)2越大,即模型的拟合效果越差.在线性回归模型中,
4、R2的取值范围为[0,1],R2表示解释变量对于预报变量变化的贡献率,1-R2表示随机误差对于预报变量变化的贡献率.R2越接近于1,表示回归的效果越好. [化解疑难] 残差分析的留意点 在残差图中,可疑数据的特征表现为: (1)个别样本点的残差过大,即大多数的残差点比较均匀地落在水平的带状区域中,而个别残差点偏离该区域过于明显,需要确认在采集这些样本点的过程中是否有人为的错误,假如采集数据有错误,那么需要订正,然后重新利用线性回归模型拟合数据;假如数据采集没有错误,那么需要查找其他缘由. (2)残差图有特殊,即残差呈现不随机的规律性,此时需要考虑所接受的线性回归模型是否合适.
5、 线性回归分析 [例1] 炼钢是一个氧化降碳的过程,钢水含碳量的多少直接影响冶炼时间的长短,因此必需把握钢水含碳量和冶炼时间的关系.假如已测得炉料熔化完毕时,钢水的含碳量x与冶炼时间y(从炉料熔化完毕到出钢的时间)的一列数据,如下表所示: x(0.01%) 104 180 190 177 147 134 150 191 204 121 y(min) 100 200 210 185 155 135 170 205 235 125 (1)作出散点图,你能从散点图中发觉含碳量与冶炼时间的一般规律吗? (2)求回归方程; (3)猜想
6、当钢水含碳量为160时,应冶炼多少分钟? [解] (1)以x轴表示含碳量,y轴表示冶炼时间,作散点图如图所示: 从图中可以看出,各点散布在一条直线四周,即它们线性相关. (2)列出下表,并用科学计算器进行计算: i 1 2 3 4 5 6 7 8 9 10 xi 104 180 190 177 147 134 150 191 204 121 yi 100 200 210 185 155 135 170 205 235 125 xiyi 10 400 36 000 39 900 32 745 22 785
7、18 090 25 500 39 155 47 940 15 125 =159.8,=172, =265 448,iyi=287 640 设所求的回归方程为=x+,=≈1.267, =-≈-30.47. 所以所求的回归方程为=1.267x-30.47. (3)当x=160时,=1.267×160-30.47≈173(min),即冶炼时间大约为173 min. [类题通法] 求线性回归方程的步骤 (1)列表表示xi,yi,xiyi; (2)计算 ,,iyi; (3)代入公式计算,的值; (4)写出回归直线方程. [活学活用] 某种产品的广告费支出x(单位:
8、百万元)与销售额y(单位:百万元)之间有如下对应数据: x 2 4 5 6 8 y 30 40 60 50 70 (1)试依据数据预报广告费支出1 000万元的销售额; (2)若广告费支出1 000万元的实际销售额为8 500万元,求误差. 解:(1)从画出的散点图(图略)可看出,这些点在一条直线四周,可以建立销售额y对广告费支出x的线性回归方程.由题中数据计算可得=5,=50,由公式计算得=6.5,=17.5,所以y对x的线性回归方程为=6.5x+17.5. 因此,对于广告费支出为1 000万元(即10百万元),由线性回归方程可以预报销售额为=6.5×10
9、+17.5=82.5(百万元). (2)8 500万元即85百万元,实际数据与预报值的误差为85-82.5=2.5(百万元). 残差分析 [例2] 某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10次试验,测得的数据如下: 编号 1 2 3 4 5 6 7 8 9 10 零件数x/个 10 20 30 40 50 60 70 80 90 100 加工时间y/分 62 68 75 81 89 95 102 108 115 122 (1)建立零件数为解释变量,加工时间为预报变量的回归模型,并计算
10、残差; (2)你认为这个模型能较好地刻画零件数和加工时间的关系吗? [解] (1)依据表中数据画出散点图,如图所示. 由图可看出,这些点在一条直线四周,可以用线性回归模型来拟合数据.计算得加工时间对零件数的线性回归方程为=0.668x+54.93. 残差数据如下表: 编号 1 2 3 4 5 残差 0.39 -0.29 0.03 -0.65 0.67 编号 6 7 8 9 10 残差 -0.01 0.31 -0.37 -0.05 0.27 (2)以零件数为横坐标,残差为纵坐标画出残差图如图所示. 由图可知,残差点分布较
11、均匀,即用上述回归模型拟合数据效果很好.但需留意,由残差图可以看出,第4个样本点和第5个样本点的残差比较大,需要确认在采集这两个样本点的过程中是否有人为的错误. [类题通法] 残差分析应留意的问题 利用残差分析争辩两个变量间的关系时,首先要依据散点图来粗略推断它们是否线性相关,是否可以用线性回归模型来拟合数据.然后通过图形来分析残差特性,用残差1,2,…,n来推断原始数据中是否存在可疑数据,用R2来刻画模型拟合的效果. [活学活用] 已知某种商品的价格x(元)与需求量y(件)之间的关系有如下一组数据: x 14 16 18 20 22 y 12 10 7 5
12、3 求y关于x的回归直线方程,并说明回归模型拟合效果的好坏. 解:=(14+16+18+20+22)=18, =(12+10+7+5+3)=7.4, =142+162+182+202+222=1 660, iyi=14×12+16×10+18×7+20×5+22×3=620, 所以===-1.15, =7.4+1.15×18=28.1, 所以所求回归直线方程是=-1.15x+28.1.列出残差表: yi-i 0 0.3 -0.4 -0.1 0.2 yi- 4.6 2.6 -0.4 -2.4 -4.4 所以(yi-i)2=0.3,(yi-)2=5
13、3.2, R2=1-≈0.994, 所以回归模型的拟合效果很好. 非线性回归分析 [例3] 在一次抽样调查中测得样本的5个样本点,数值如下表: x 0.25 0.5 1 2 4 y 16 12 5 2 1 试建立y与x之间的回归方程. [解] 作出变量y与x之间的散点图如图所示. 由图可知变量y与x近似地呈反比例函数关系. 设y=,令t=,则y=kt.由y与x的数据表可得y与t的数据表: t 4 2 1 0.5 0.25 y 16 12 5 2 1 作出y与t的散点图如图所示. 由图可知y与t呈近似的线性相
14、关关系. 又=1.55,=7.2,iyi=94.25,=21.312 5, = =≈4.134 4, =-=7.2-4.134 4×1.55≈0.8, ∴=4.134 4t+0.8. 所以y与x的回归方程是=+0.8. [类题通法] 非线性回归分析的步骤 非线性回归问题有时并不给出阅历公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,选择一种跟这些散点拟合得最好的函数,然后接受适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤为: [活学活用] 某电容器充电后,电压达到100 V,然后开头放电,由
15、阅历知道,此后电压U随时间t变化的规律用公式U=Aebt(b<0)表示,现测得时间t(s)时的电压U(V)如下表: t/s 0 1 2 3 4 5 6 7 8 9 10 U/V 100 75 55 40 30 20 15 10 10 5 5 试求:电压U对时间t的回归方程.(提示:对公式两边取自然对数,把问题转化为线性回归分析问题) 解:对U=Aebt两边取对数得ln U=ln A+bt,令y=ln U,a=ln A,x=t,则y=a+bx,y与x的数据如下表: x 0 1 2 3 4 5 6 7 8 9 10
16、y 4.6 4.3 4.0 3.7 3.4 3.0 2.7 2.3 2.3 1.6 1.6 依据表中数据画出散点图,如图所示,从图中可以看出,y与x具有较好的线性相关关系,由表中数据求得=5,≈3.045,由公式计算得≈-0.313,=-=4.61,所以y对x的线性回归方程为=-0.313x+4.61. 所以ln =-0.313t+4.61,即=e-0.313t+4.61=e-0.313t·e4.61,因此电压U对时间t的回归方程为=e-0.313t·e4.61. [典例] 下列现象的线性相关程度最高的是( ) A.某商店的职
17、工人数与商品销售额之间的相关系数为0.87 B.流通费用率与商业利润率之间的相关系数为-0.94 C.商品销售额与商业利润率之间的相关系数为0.51 D.商品销售额与流通费用率之间的相关系数为0.81 [解析] |r|越接近于1,相关程度越高. [答案] B [易错防范] 1.本题易错误地认为r越接近于1,相关程度越高,从而误选A. 2.变量之间线性相关系数r具有如下性质: (1)r2≤1,故变量之间线性相关系数r的取值范围为[-1,1]. (2)|r|越大,变量之间的线性相关程度越高;|r|越接近0,变量之间的线性相关程度越低. (3)当r>0时,两个变量的值总体上呈现
18、出同时增减的趋势,此时称两个变量正相关;当r<0时,一个变量增加,另一个变量有削减的趋势,称两个变量负相关;当r=0时,称两个变量线性不相关. [成功破障] 变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( ) A.r2<r1<0 B.0<r2<r1 C.r2<0<r1 D.r2=r1 解析:选C 对于变量X与Y而言,
19、Y随X的增大而增大,故变量Y与X正相关,即r1>0;对于变量U与V而言,V随U的增大而减小,故变量V与U负相关,即r2<0.故r2<0<r1. [随堂即时演练] 1.(湖北高考)四名同学依据各自的样本数据争辩变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论: ①y与x负相关且=2.347x-6.423; ②y与x负相关且=-3.476x+5.648; ③y与x正相关且=5.437x+8.493; ④y与x正相关且=-4.326x-4.578. 其中确定不正确的结论的序号是( ) A.①② B.②③ C.③④ D.①④ 解析:
20、选D ①中y与x负相关而斜率为正,不正确;④中y与x正相关而斜率为负,不正确. 2.关于回归分析,下列说法错误的是( ) A.在回归分析中,变量间的关系若是非确定性关系,那么因变量不能由自变量唯一确定 B.线性相关系数可以是正的也可以是负的 C.在回归分析中,假如r2=1或r=±1,说明x与y之间完全线性相关 D.样本相关系数r∈(-1,1) 解析:选D 样本的相关系数应满足-1≤r≤1. 3.在争辩气温存热茶销售杯数的关系时,若求得相关指数R2≈0.85,则表明气温解释了________的热茶销售杯数变化,而随机误差贡献了剩余的________,所以气温对热茶销售杯数的效应比
21、随机误差的效应大得多. 解析:由相关指数R2的意义可知,R2≈0.85表明气温解释了85%,而随机误差贡献了剩余的15%. 答案:85% 15% 4.若施肥量x(kg)与小麦产量y(kg)之间的回归直线方程为=250+4x,当施肥量为50 kg时,估量小麦产量为________. 解析:把x=50代入=250+4x,可求得=450. 答案:450 kg 5.某工厂为了对新争辩的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据: 单价x(元) 8 8.2 8.4 8.6 8.8 9 销量y(件) 90 84 83 80 75 68
22、 (1)求回归直线方程=x+,其中=-20,=-; (2)估量在今后的销售中,销量与单价照旧听从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 解:(1)=(8+8.2+8.4+8.6+8.8+9)=8.5,=(90+84+83+80+75+68)=80,从而=+20=80+20×8.5=250,故=-20x+250. (2)由题意知,工厂获得利润z=(x-4)y=-20x2+330x-1 000=-202+361.25,所以当x==8.25时,zmax=361.25(元). 即当该产品的单价定为8.25元时,工厂获得
23、最大利润. [课时达标检测] 一、选择题 1.为了争辩变量x和y的线性相关性,甲、乙两人分别利用线性回归方法得到回归直线l1和l2,已知两人计算过程中,分别相同,则下列说法正确的是( ) A.l1与l2确定平行 B.l1与l2重合 C.l1与l2相交于点(,) D.无法推断l1和l2是否相交 解析:选C 回归直线确定过样本点的中心(,),故C正确. 2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的相关指数R2分别如下表: 甲 乙 丙 丁 R2 0.98 0.78 0.50 0.85 建立的回归模型拟合
24、效果最好的同学是( ) A.甲 B.乙 C.丙 D.丁 解析:选A 相关指数R2越大,表示回归模型的效果越好. 3.设某高校的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.依据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是( ) A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(,) C.若该高校某女生身高增加1 cm,则其体重约增加0.85 kg D.若该高校某女生身高为170 cm,则可断定其体重必为58.79 kg 解析:选D 回归方程中x的系
25、数为0.85>0,因此y与x具有正的线性相关关系,A正确; 由回归方程系数的意义可知回归直线过样本点的中心(,),B正确; 依据回归方程中的含义可知,x每变化1个单位,相应变化约0.85个单位,C正确; 用回归方程对总体进行估量不能得到确定结论,故D不正确. 4.某产品的广告费用x与销售额y的统计数据如下表: 广告费用x(万元) 4 2 3 5 销售额y(万元) 49 26 39 54 依据上表可得回归方程=x+中的为9.4,据此模型预报广告费用为6万元时销售额为( ) A.63.6万元 B.65.5万元 C.67.7万元 D.72.0万元 解






