资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,郑平正 制作,郑平正 制作,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。感谢,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,郑平正 制作,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。感谢,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,郑平正 制作,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。感谢,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,郑平正 制作,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。感谢,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,郑平正 制作,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。感谢,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,郑平正 制作,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。感谢,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,郑平正 制作,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。感谢,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,郑平正 制作,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。感谢,3.1,回归分析基本思想及其初步应用(三),高二数学 选修,2-3,第三章 统计案例,1/26,2/26,复习回顾,1,、线性回归模型:,y=bx+a+e,,,(3),其中,a,和,b,为模型未知参数,,e,称为随机误差,。,y=bx+a+e,,,E(e)=0,D(e)=,(4),2,、数据点和它在回归直线上对应位置差异 是随机误差效应,称 为,残差,。,3,、对每名女大学生计算这个差异,然后分别将所得值平方后加起来,用数学符号表示为:,称为,残差平方和,,,它代表了随机误差效应。,3/26,4,、,两个指标:,(,1,)类比样本方差预计总体方差思想,能够用作,为 预计量,越小,预报精度越高。,(,2,)我们能够用,相关指数,R,2,来刻画回归效果,其,计算公式是:,R,2,1,,说明回归方程拟合越好;,R,2,0,,说明回归方程拟合越差。,4/26,表,3-2,列出了女大学生身高和体重原始数据以及对应残差数据。,在研究两个变量间关系时,首先要依据散点图来粗略判断它们是否线性相关,是否能够用回归模型来拟合数据。,5,、残差分析与残差图定义:,然后,我们能够经过残差 来判断模型拟合效果,判断原始数据中是否存在可疑数据,,这方面分析工作称为残差分析,。,编号,1,2,3,4,5,6,7,8,身高,/cm,165,165,157,170,175,165,155,170,体重,/kg,48,57,50,54,64,61,43,59,残差,-6.373,2.627,2.419,-4.618,1.137,6.627,-2.883,0.382,我们能够利用图形来分析残差特征,作图时纵坐标为残差,横坐标能够选为样本编号,或身高数据,或体重预计值等,这么作出图形称为,残差图,。,5/26,残差图制作及作用,1,、坐标纵轴为残差变量,横轴能够有不一样选择;,2,、若模型选择正确,残差图中点应该分布在以横轴为心带形区域;,3,、对于远离横轴点,要尤其注意。,身高与体重残差图,异常点,错误数据,模型问题,几点说明:,第一个样本点和第,6,个样本点残差比较大,需要确认在采集过程中是否有些人为错误。假如数据采集有错误,就给予纠正,然后再重新利用线性回归模型拟合数据;假如数据采集没有错误,则需要寻找其它原因。,另外,残差点比较均匀地落在水平带状区域中,说明选取模型计较适当,这么带状区域宽度越窄,说明模型拟合精度越高,回归方程预报精度越高。,6/26,例,1,在一段时间内,某中商品价格,x,元和需求量,Y,件之间一组数据为:,求出,Y,正确回归直线方程,并说明拟合效果好坏。,价格,x,14,16,18,20,22,需求量,Y,12,10,7,5,3,解:,7/26,例,1,在一段时间内,某中商品价格,x,元和需求量,Y,件之间一组数据为:,求出,Y,正确回归直线方程,并说明拟合效果好坏。,价格,x,14,16,18,20,22,需求量,Y,12,10,7,5,3,列出残差表为,0.994,因而,拟合效果很好。,0,0.3,-0.4,-0.1,0.2,4.6,2.6,-0.4,-2.4,-4.4,8/26,例,2,关于,x,与,y,有以下数据:,有以下两个线性模型:,(,1,);(,2,),试比较哪一个拟合效果更加好。,x,2,4,5,6,8,y,30,40,60,50,70,9/26,6,、注意回归模型适用范围:,(,1,)回归方程只适合用于我们所研究样本总体。样本数据来自哪个总体,预报时也仅适合用于这个总体。,(,2,)模型时效性。利用不一样时间段样本数据建立模型,只有用来对那段时间范围数据进行预报。,(,3,)建立模型时自变量取值范围决定了预报时模型适用范围,通常不能超出太多。,(,4,)在回归模型中,因变量值不能由自变量值完全确定。正如前面已经指出,某个女大学生身高为,172cm,,我们不能利用所建立模型预测她体重,只能给出身高为,172cm,女大学生平均体重预测值。,10/26,7,、普通地,建立回归模型基本步骤为:,(,1,)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。,(,2,)画出确定好解析变量和预报变量散点图,观察它们之间关系(如是否存在线性关系等)。,(,3,)由经验确定回归方程类型(如我们观察到数据呈线性关系,则选取线性回归方程,y=bx+a,),.,(,4,)按一定规则预计回归方程中参数(如最小二乘法)。,(,5,)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差展现不随机规律性,等等),过存在异常,则检验数据是否有误,或模型是否适当等。,11/26,案例,2,一只红铃虫产卵数,y,和温度,x,相关。现搜集了,7,组观察数据列于表中:,(,1,)试建立产卵数,y,与温度,x,之间回归方程;并预测温度为,28,o,C,时产卵数目。,(,2,)你所建立模型中温度在多大程度上解释了产卵数改变?,温度,x,o,C,21,23,25,27,29,32,35,产卵数,y,/,个,7,11,21,24,66,115,325,12/26,选变量,解:选取气温为解释变量,x,,产卵数,为预报变量,y,。,画散点图,假设线性回归方程为,:,=bx+a,选 模 型,分析和预测,当,x,=28,时,,y=,19.8728-463.73 93,预计参数,由计算器得:线性回归方程为,y=,19.87,x,-463.73,相关指数,R,2,=,r,2,0.864,2,=0.7464,所以,二次函数模型中温度解释了,74.64%,产卵数改变。,探索新知,0,50,100,150,200,250,300,350,0,3,6,9,12,15,18,21,24,27,30,33,36,39,方案,1,当,x,=28,时,,y=,19.8728-463.73 93,一元线性模型,13/26,奇怪?,9366?,模型不好?,14/26,y=bx,2,+a,变换,y=bt+a,非线性关系 线性关系,方案,2,问题,选取,y=bx,2,+a,,还是,y=bx,2,+cx+a,?,问题,3,产卵数,气温,问题,2,怎样求,a,、,b,?,合作探究,t,=x,2,二次函数模型,15/26,方案,2,解答,平方变换,:,令,t=x,2,,产卵数,y,和温度,x,之间二次函数模型,y=bx,2,+a,就转化为产卵数,y,和温度平方,t,之间线性回归模型,y=bt+a,温度,21,23,25,27,29,32,35,温度平方,t,441,529,625,729,841,1024,1225,产卵数,y,/,个,7,11,21,24,66,115,325,作散点图,并由计算器得:,y,和,t,之间线性回归方程为,y=,0.367,t,-202.54,,相关指数,R,2,=,r,2,0.896,2,=0.802,将,t=x,2,代入线性回归方程得:,y=,0.367,x,2,-202.54,当,x,=28,时,,,y,=0.36728,2,-202.5485,,且,R,2,=0.802,,,所以,二次函数模型中温度解,释了,80.2%,产卵数改变。,t,16/26,问题,变换,y=bx+a,非线性关系 线性关系,问题,怎样选取指数函数底,?,产卵数,气温,指数函数模型,方案,3,合作探究,对数,17/26,方案,3,解答,温度,x,o,C,21,23,25,27,29,32,35,z=lgy,0.85,1.04,1.32,1.38,1.82,2.06,2.51,产卵数,y,/,个,7,11,21,24,66,115,325,x,z,当,x=28,o,C,时,,y 44,,指数回归模型中温度解释了,98.5%,产卵数改变,由计算器得:,z,关于,x,线性回归方程,为,z=0.118,x,-1.665,,,相关指数,R,2,=,r,2,0.9925,2,=0.985,对数变换:在 中两边取惯用对数得,令 ,则,就转换为,z,=bx+a,18/26,最好模型是哪个,?,产卵数,气温,产卵数,气温,线性模型,二次函数模型,指数函数模型,19/26,比一比,函数模型,相关指数,R,2,线性回归模型,0.7464,二次函数模型,0.802,指数函数模型,0.985,最好模型是哪个,?,20/26,用身高预报体重时,需要注意以下问题:,1,、回归方程只适合用于我们所研究样本总体;,2,、我们所建立回归方程普通都有时间性;,3,、样本采集范围会影响回归方程适用范围;,4,、不能期望回归方程得到预报值就是预报变量准确值。,实际上,它是预报变量可能取值平均值。,这些问题也使用于其它问题。,包括到统计一些思想:,模型适用总体;,模型时间性;,样本取值范围对模型影响;,模型预报结果正确了解。,小结,21/26,什么是回归分析?,(内容),从一组样本数据出发,确定变量之间数学关系式,对这些关系式可信程度进行各种统计检验,并从影响某一特定变量很多变量中找出哪些变量影响显著,哪些不显著,利用所求关系式,依据一个或几个变量取值来预测或控制另一个特定变量取值,并给出这种预测或控制准确程度,22/26,回归分析与相关分析区分,相关分析中,变量,x,变量,y,处于平等地位;回归分析中,变量,y,称为因变量,处于被解释地位,,x,称为自变量,用于预测因变量改变,相关分析中所包括变量,x,和,y,都是随机变量;回归分析中,因变量,y,是随机变量,自变量,x,能够是随机变量,也能够是非随机确实定变量,相关分析主要是描述两个变量之间线性关系亲密程度;回归分析不但能够揭示变量,x,对变量,y,影响大小,还能够由回归方程进行预测和控制,23/26,练习,假设关于某设备使用年限,x,和所支出维修费用,y,(万元),有以下统计资料。,使用年限,x,2,3,4,5,6,维修费用,y,2.2,3.8,5.5,6.5,7.0,若由资料知,y,对,x,呈线性相关关系。试求:,(,1,)线性回归方程 回归系数 ;,(,2,)求残差平方和;,(,3,)求相关系数 ;,(,4,)预计使用年限为,10,年时,维修费用是多少?,24/26,解:,(,1,)由已知数据制成表格。,1,2,3,4,5,累计,2,3,4,5,6,20,2.2,3.8,5.5,6.5,7.0,25,4.4,11.4,22.0,32.5,42.0,112.3,4,9,16,25,36,90,所以有,25/26,;,
展开阅读全文