1、本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。谢谢,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。谢谢,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。谢谢,1.1,线性回归方程求法,第1页,必修,3(,第二章 统计,),知识结构,搜集数据,(,随机抽样,),整理、分析数据预计、推断,简单随机抽样,分层抽样,系统抽样,用样本预计总体,变量间相关关系,用样本频率分布预计总体分布,用样本数字特征预计总体数字特征,线性回归分析,
2、第2页,统计基本思想,实际,样本,模 拟,抽 样,分 析,第3页,两个变量关系,不相关,相关关系,函数关系,线性相关,非线性相关,现实生活中两个变量间关系有哪些呢?,第4页,思索,:相关关系与函数关系有怎样不一样?,函数关系中两个变量间是一个确定性关系,相关关系是一个非确定性关系,函数关系是一个理想关系模型,相关关系在现实生活中大量存在,是更普通情况,第5页,自变量取值一定时,因变量取值带有一定随机性两个变量之间关系叫做,相关关系,。,1,、定义:,1,):相关关系是一个不确定性关系;,注,对含有相关关系两个变量进行统计分析方法叫,回归分析,。,2,):,第6页,2,、,现实生活中存在着大量相
3、关关系。,如:人身高与年纪;,产品成本与生产数量;,商品销售额与广告费;,家庭支出与收入。等等,探索:水稻产量,y,与施肥量,x,之间大致有何规律?,第7页,10 20 30 40 50,500,450,400,350,300,发觉:图中各点,大致分布在某条直线附近。,探索,2,:在这些点附近可画直线不止一条,哪条直线最能代表,x,与,y,之间关系呢?,x,y,施化肥量,水稻产量,施化肥量,x,15 20 25 30 35 40 45,水稻产量,y,330 345 365 405 445 450 455,散点图,第8页,10 20 30 40 50,500,450,400,350,300,x,
4、y,施化肥量,水稻产量,怎样求回归直线?,第9页,最小二乘法:,称为样本点中心,。,第10页,(,3,)对两个变量进行线性分析叫做,线性回归分析,。,2,、回归直线方程:,(,2,)对应直线叫做,回归直线,。,(,1,)所求直线方程 叫做,回归直线方程,;,其中,(注意回归直线一定经过样本点中心),第11页,例,1,假设关于某设备使用年限,x,和全部支出维修费用,y(,万元,),有以下统计数据:,x,2,3,4,5,6,Y,2.2,3.8,5.5,6.5,7.0,若由此资料所知,y,对,x,呈线性相关关系,试求:,回归直线方程,预计使用年限为,10,年时,维修费用是多少?,解题步骤:,作散点图
5、2.,把数据列表,计算对应值,求出回归系数,3.,写出回归方程,并按要求进行预测说明。,第12页,例,2,(年广东)下表提供了某厂节能降耗技术改造后生产甲产品过程中统计产量,x,(吨)与对应生产能耗,y(,吨标准煤,),几组对应数据。,X,3,4,5,6,y,2.5,3,4,4.5,请画出上表数据散点图,请依据上表提供数据,用最小二乘法求出,y,关于,x,性回归方程,(3),已知该厂技改前,100,吨甲产品生产能耗为,90,吨标准,煤,试依据(,2,)求出线性回归方程,预测生产,100,吨甲产品生产能耗比技改前降低多少吨标准煤?,(参考数值:,),第13页,小结:求回归直线方程步骤,(,2,
6、所求直线方程 叫做,回归直线方程,;,其中,(,1,)作散点图,经过图看出样本点是否呈条状分,布,进而判断两个量是否含有线性相关关系。,(,3,)依据回归方程,并按要求进行预测说明。,第14页,相关系数,1.,计算公式,2,相关系数性质,(1)|r|1,(2)|r|,越靠近于,1,,相关程度越大;,|r|,越靠近于,0,,相关程度越小,问题:到达怎样程度,,x,、,y,线性相关呢?它们相关程度怎样呢?,第15页,负相关,正相关,第16页,相关系数,正相关;负相关通常,,r,-,1,-,0.75-,负相关很强,;,r,0.75,1,正相关很强,;,r,-0.75,-0.3-,负相关普通,;,r
7、0.3,0.75,正相关普通,;,r,-,0.25,0.25-,相关性较弱,;,第17页,第一章 统计案例,1.1,回归分析基本思想及其初步应用,(第二课时),第18页,a.,比,数学,3,中“回归”增加内容,数学,统计,画散点图,了解最小二乘法思想,求回归直线方程,y,bx,a,用回归直线方程处理应用问题,选修,-,统计案例,引入线性回归模型,y,bx,a,e,了解模型中随机误差项,e,产生原因,了解相关指数,R,2,和模型拟合效果之间关系,了解残差图作用,利用线性回归模型处理一类非线性回归问题,正确了解分析方法与结果,第19页,什么是回归分析:,“,回归”一词是由英国生物学家,F.Gal
8、ton,在研究人体身高遗传问题时首先提出。,依据遗传学观点,子辈身高受父辈影响,以,X,记父辈身高,,Y,记子辈身高。,即使子辈身高普通受父辈影响,但一样身高父亲,其子身高并不一致,所以,,X,和,Y,之间存在一个相关关系。,普通而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传下来,身,高必定向两极分化,而实际上并非如此,显然有一个力量将身高拉向中心,即子辈,身高有向中心回归特点。“回归”一词即源于此。,即使这种向中心回归现象只是特定领域里结论,并不含有普遍性,但从它,所描述关于,X,为自变量,,Y,为不确定因变量这种变量间关系看,和我们现在,回归含义是相同。,不过,当代回归分析即使沿
9、用了“回归”一词,但内容已经有很大改变,它是一个应用,于许多领域广泛分析研究方法,在经济理论研究和实证研究中也发挥着主要作用。,第20页,回归分析内容与步骤:,统计检验经过后,最终是,利用回归模型,依据自变量去预计、预测因变量,。,回归分析经过一个变量或一些变量改变解释另一变量改变。,其主要内容和步骤是,,首先依据理论和对问题分析判断,,将变量分为自变量和因变量,;,其次,设法,找出适当数学方程式(即回归模型),描述变量间关系;,因为包括到变量含有不确定性,接着还要,对回归模型进行统计检验,;,第21页,例,1,从某大学中随机选取,8,名女大学生,其身高和体重数据如表,1-1,所表示。,编号,
10、1,2,3,4,5,6,7,8,身高,/cm,165,165,157,170,175,165,155,170,体重,/kg,48,57,50,54,64,61,43,59,求依据一名女大学生身高预报她体重回归方程,并预报一名身高为,172cm,女大学生体重。,案例,1,:女大学生身高与体重,解:,1,、选取身高为自变量,x,,体重为因变量,y,,作散点图:,2,、由散点图知道身高和体重有比很好,线性相关关系,所以能够用线性回归方程,刻画它们之间关系。,3,、从散点图还看到,样本点散布在某一条,直线附近,而不是在一条直线上,所以,不能用一次函数,y=bx+a,描述它们关系。,我们能够用下面,线性
11、回归模型,来表示:,y=bx+a+e,,其中,a,和,b,为模型未知参数,,e,称为随机误差,。,思索,P3,产生随机误差项,e,原因是什么?,第22页,思索,P4,产生随机误差项,e,原因是什么?,随机误差,e,起源,(,能够推广到普通):,1,、其它原因影响:影响身高,y,原因不只是体重,x,,可能 还包含遗传基因、饮食习惯、生长环境等原因;,2,、用线性回归模型近似真实模型所引发误差;,3,、身高,y,观察误差。,第23页,函数模型与回归模型之间差异,函数模型:,回归模型:,能够提供,选择模型准则,第24页,函数模型与回归模型之间差异,函数模型:,回归模型:,线性回归模型,y=bx+a+
12、e,增加了随机误差项,e,,因变量,y,值由自变量,x,和随机误差项,e,共同确定,即,自变量,x,只能解析部分,y,改变,。,在统计中,我们也把自变量,x,称为解析变量,因变量,y,称为预报变量。,第25页,例,1,从某大学中随机选取,8,名女大学生,其身高和体重数据如表,1-1,所表示。,编号,1,2,3,4,5,6,7,8,身高,/cm,165,165,157,170,175,165,155,170,体重,/kg,48,57,50,54,64,61,43,59,求依据一名女大学生身高预报她体重回归方程,并预报一名身高为,172cm,女大学生体重。,案例,1,:女大学生身高与体重,解:,1
13、选取身高为自变量,x,,体重为因变量,y,,作散点图:,2,、由散点图知道身高和体重有比很好,线性相关关系,所以能够用线性回归方程,刻画它们之间关系。,3,、从散点图还看到,样本点散布在某一条,直线附近,而不是在一条直线上,所以,不能用一次函数,y=bx+a,描述它们关系。,我们能够用下面,线性回归模型,来表示:,y=bx+a+e,,其中,a,和,b,为模型未知参数,,e,称为随机误差,。,第26页,例,1,从某大学中随机选取,8,名女大学生,其身高和体重数据如表,1-1,所表示。,59,43,61,64,54,50,57,48,体重,/kg,170,155,165,175,170,157
14、165,165,身高,/cm,8,7,6,5,4,3,2,1,编号,求依据一名女大学生身高预报她体重回归方程,并预报一名身高为,172cm,女大学生体重。,依据最小二乘法预计 和 就是未知参数,a,和,b,最好预计,,制表,x,i,2,x,i,y,i,y,i,x,i,7 8,累计,6,5,4,3,2,1,i,第27页,例,1,从某大学中随机选取,8,名女大学生,其身高和体重数据如表,1-1,所表示。,59,43,61,64,54,50,57,48,体重,/kg,170,155,165,175,170,157,165,165,身高,/cm,8,7,6,5,4,3,2,1,编号,求依据一名女大学
15、生身高预报她体重回归方程,并预报一名身高为,172cm,女大学生体重。,依据最小二乘法预计 和 就是未知参数,a,和,b,最好预计,,于是有,b=,所以回归方程是,所以,对于身高为,172cm,女大学生,由回归方程能够预报其体重为,探究,P4,:,身高为,172cm,女大学生体重一定是,60.316kg,吗?假如不是,你能解析一下原因吗?,第28页,探究,P4,:,身高为,172cm,女大学生体重一定是,60.316kg,吗?,假如不是,你能解析一下原因吗?,答:身高为,172cm,女大学生体重不一定是,60.316kg,,,但普通能够认为她体重在,60.316kg,左右。,第29页,对回归模
16、型进行统计检验,第30页,表,1-4,列出了女大学生身高和体重原始数据以及对应残差数据。,在研究两个变量间关系时,首先要依据散点图来粗略判断它们是否线性相关,,是否能够用回归模型来拟合数据。,残差分析与残差图定义:,然后,我们能够经过残差 来判断模型拟合效果,判断原始,数据中是否存在可疑数据,,这方面分析工作称为残差分析,。,编号,1,2,3,4,5,6,7,8,身高,/cm,165,165,157,170,175,165,155,170,体重,/kg,48,57,50,54,64,61,43,59,残差,-6.373,2.627,2.419,-4.618,1.137,6.627,-2.883
17、0.382,我们能够利用图形来分析残差特征,作图时纵坐标为残差,横坐标能够选为样本,编号,或身高数据,或体重预计值等,这么作出图形称为,残差图,。,第31页,残差图制作及作用。,坐标纵轴为残差变量,横轴能够有不一样选择;,若模型选择正确,残差图中点应该分布在以横轴为心带形区域,;,对于远离横轴点,要尤其注意,。,身高与体重残差图,异常点,错误数据,模型问题,几点说明:,第一个样本点和第,6,个样本点残差比较大,需要确认在采集过程中是否有些人为错误。假如数据采集有错误,就给予纠正,然后再重新利用线性回归模型拟合数据;假如数据采集没有错误,则需要寻找其它原因。,另外,残差点比较均匀地落在水平带状
18、区域中,说明选取模型计较适当,这么带状区域宽度越窄,说明模型拟合精度越高,回归方程预报精度越高。,第32页,样本决定系数,(判定系数,R,2,),1.,回归平方和占总偏差平方和百分比,反应回归直线拟合程度,取值范围在,0,1,之间,R,2,1,,说明回归方程拟合越好;,R,2,0,,说明回归方程拟合越差,判定系数等于相关系数平方,即,R,2,(,r,),2,第33页,我们能够用,相关指数,R,2,来刻画回归效果,其计算公式是,显然,,R,2,值越大,说明残差平方和越小,也就是说模型拟合效果越好。,在线性回归模型中,,R,2,表示解析变量对预报变量改变贡献率,。,R,2,越靠近,1,,表示回归效
19、果越好(因为,R,2,越靠近,1,,表示解析变量和预报变量,线性相关性越强)。,假如某组数据可能采取几个不一样回归方程进行回归分析,则能够经过比较,R,2,值,来做出选择,即,选取,R,2,较大模型作为这组数据模型,。,总来说:,相关指数,R,2,是度量模型拟合效果一个指标。,在线性模型中,它,代表自变量刻画预报变量能力,。,第34页,我们能够用,相关指数,R,2,来刻画回归效果,其计算公式是,1,354,总计,0.36,128.361,残差变量,0.64,225.639,解释变量,百分比,平方和,起源,表,1-3,从表,3-1,中能够看出,解析变量对总效应约贡献了,64%,,即,R,2,0.
20、64,,能够叙述为,“身高解析了,64%,体重改变”,而随机误差贡献了剩下,36%,。,所以,身高对体重效应比随机误差效应大得多。,第35页,用身高预报体重时,需要注意以下问题:,1,、回归方程只适合用于我们所研究样本总体;,2,、我们所建立回归方程普通都有时间性;,3,、样本采集范围会影响回归方程适用范围;,4,、不能期望回归方程得到预报值就是预报变量准确值。,实际上,它是预报变量可能取值平均值。,这些问题也使用于其它问题。,包括到统计一些思想:,模型适用总体;,模型时间性;,样本取值范围对模型影响;,模型预报结果正确了解。,小结:,第36页,普通地,建立回归模型基本步骤为:,(,1,)确定
21、研究对象,明确哪个变量是解析变量,哪个变量是预报变量。,(,2,)画出确定好解析变量和预报变量散点图,观察它们之间关系,(如是否存在线性关系等)。,(,3,)由经验确定回归方程类型(如我们观察到数据呈线性关系,则选取线性,回归方程,y=bx+a,),.,(,4,)按一定规则预计回归方程中参数(如最小二乘法)。,(,5,)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差展现,不随机规律性,等等),过存在异常,则检验数据是否有误,或模型是,否适当等。,第37页,建构数学模型,我们将,y,=,bx,+,a,+,e,称为线性回归模型其中,a,b,为模型未知参数,解释变量,x,,预报变量,y
22、e,称为随机误差。,思索,1,:,e,产生主要原因是什么?,(1),所用确定函数模型不恰当;,(2),忽略了一些原因影响;,(3),观察误差。,第38页,思索,2,:,怎样检验拟合效果好坏?,(,1,)散点图,(,2,)相关系数,(,3,)残差分析,(,4,)回归效果相关系数,第39页,被害棉花,红铃 虫喜高温高湿,适宜各虫态发育温度为,25,一,32C,,相对湿度为,80,一,100,,低于,20C,和高于,35C,卵不能孵化,相对湿度,60,以下成虫不产卵。冬季月平均气温低于一,4,8,时,红铃虫就不能越冬而被冻死。,问题情景,1953,年,,18,省发生红铃虫大灾害,受灾面积,30
23、0,万公顷,损失皮棉约二十万吨。,第40页,温度,x,o,C,21,23,25,27,29,32,35,产卵数,y,/,个,7,11,21,24,66,115,325,例,2,、现搜集了一只红铃虫产卵数,y,和温度,x,之间,7,组观察数据列于下表:,(,1,)试建立产卵数,y,与温度,x,之间回归方程;并预测温度为,28,o,C,时产卵数目。,(,2,)你所建立模型中温度在多大程度上解释了产卵数改变?,问题展现:,第41页,假设线性回归方程为:,=bx+a,选变量,画散点图,选 模 型,分析和预测,预计参数,由计算器得:线性回归方程为,y=,19.87,x,-463.73,相关指数,R,2,
24、r,2,0.864,2,=,0.7464,解:选取气温为解释变量,x,,产卵数为预报变量,y,。,所以,一次函数模型中温度解释了,74.64%,产卵数改变。,问题探究,0,50,100,150,200,250,300,350,0,3,6,9,12,15,18,21,24,27,30,33,36,39,方案,1,当,x,=28,时,,y=,19.8728-463.73 93,第42页,教法,9366,!,?,模型不好?,奇怪?,第43页,y=bx,2,+a,变换,y=bx+a,非线性关系 线性关系,方案,2,问题,选取,y,=,bx,2,+,a,,还是,y,=,bx,2,+,cx,+,a,?
25、问题,3,产卵数,气温,问题,2,怎样求,a,、,b,?,合作探究,第44页,方案,2,解答,平方变换:,令,t=x,2,,产卵数,y,和温度,x,之间二次函数模型,y=bx,2,+a,就转化为产卵数,y,和温度平方,t,之间线性回归模型,y=bt+a,温度,21,23,25,27,29,32,35,温度平方,t,441,529,625,729,841,1024,1225,产卵数,y,/,个,7,11,21,24,66,115,325,作散点图,并由计算器得:,y,和,t,之间线性回归方程为,y=,0.367,t,-202.54,,相关指数,R,2,=,r,2,0.896,2,=0.802,
26、将,t=x,2,代入线性回归方程得:,y=,0.367,x,2,-202.54,当,x,=28,时,,,y,=0.36728,2,-202.5485,,且,R,2,=0.802,,,所以,二次函数模型中温度解,释了,80.2%,产卵数改变。,t,教法,0.367,-202.54,R,2,=,r,2,0.896,2,=0.802,y=,0.367,x,2,-202.54,第45页,问题,变换,y=bx+a,非线性关系 线性关系,问题,怎样选取指数函数底,?,产卵数,气温,指数函数模型,方案,3,合作探究,教法,对数,第46页,令 ,则,就转换为,z,=bx+a,对数变换:在 中两边取惯用对数得,
27、方案,3,解答,温度,x,o,C,21,23,25,27,29,32,35,z=lgy,0.85,1.04,1.32,1.38,1.82,2.06,2.51,产卵数,y,/,个,7,11,21,24,66,115,325,x,z,由计算器得:,z,关于,x,线性回归方程,为,z=0.118,x,-1.665,,,相关指数,R,2,=,r,2,0.9925,2,=0.985,当,x=28,o,C,时,,y 44,,指数回归模型中温度解释了,98.5%,产卵数改变,第47页,最好模型是哪个,?,产卵数,气温,产卵数,气温,线性模型,二次函数模型,指数函数模型,教法,第48页,函数模型,相关指数,R,2,线性回归模型,0.7464,二次函数模型,0.802,指数函数模型,0.985,最好模型是哪个,?,教法,比一比,第49页,选修,1-2,:,P13-3,练习,小结,:,(,1,)怎样发觉两个变量关系?,(,2,)怎样选取、建立适当非线性回归模型,?,(,3,)怎样比较不一样模型拟合效果?,归纳小结,第50页,






