资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,本资料仅供参考,不能作为科学依据。谢谢。本资料仅供参考,不能作为科学依据。谢谢您,第三章 统计案例,第一课时,3.1 回归分析基本思想及其初步应用,第1页,问题提出,1.两个随机变量之间含有线性相关关系是怎样直观了解?,两个变量样本数据散点图大致分布在一条直线附近.,2.什么叫回归直线?回归直线方程普通形式是什么?,散点图分布从整体上最靠近一条直线,其方程是:,第2页,3.函数关系是一个确定性关系,相关关系是一个非确定性关系,回归分析是对含有相关关系两个变量进行统计分析一个惯用方法.在必修3中,我们采取方法是:,画散点图求回归直线方程用回归直线方程进行预报,.在理论上,这种研究方法是不全方面、不深刻,所以,对回归分析理论和方法,我们还得作深入研究.,第3页,回归直线方程,第4页,探究(一):,回归直线方程,思索1:,对于一组含有线性相关关系数据(x,1,,y,1,),(x,2,,y,2,),(x,n,,y,n,),其回归直线方程中参数 ,计算公式分别是什么?,第5页,思索2:,点 称为,样本点中心,,那么样本点中心与回归直线位置关系是怎样?,回归直线经过样本点中心,第6页,思索3:,设回归直线方程为 ,,记,则在什么背景下n个样本数据与回归直线整体上最靠近?,Q最小时,第7页,思索4:,将Q表示式作以下变形:,怎样化简?,.其中,第8页,思索5:,将Q表示式深入变形为:,若将此式看成是关于b二次函数,则当b为何值时,它值为最小?,第9页,思索6:,综上分析,Q取最小值充要条件是什么?,第10页,探究(二):,相关性检验,思索1:,假如含有相关关系两个随机变量呈正相关或负相关,其散点图各有什么特点?,正相关:,散点图分布在从左下角到右上角区域;,负相关:,散点图分布在从左上角到右下角区域.,第11页,思索2:,对任意一组样本数据都存在回归直线吗?都能求得参数 ,值吗?,不一定存在回归直线,但可求得参数 ,值.,思索3:,对于一组样本数据:(x,1,,y,1,),(x,2,,y,2,),(x,n,,y,n,),有什么方法判断变量x,y含有线性相关关系?,依据散点图分布情况进行判断.,第12页,思索4:,对于一组样本数据:(x,1,,y,1,),(x,2,,y,2,),(x,n,,y,n,),称,为变量x,y,相关系数,,统计中用r来衡量两个变量之间线性关系强弱,且|r|1.你能感觉出当r0,r0,|r|1,|r|0时,变量x,y分别含有怎样相关性吗?,第13页,当r0时,表明两个变量正相关;当r0时,表明两个变量负相关;,当|r|1时,表明两个变量线性相关性越强;,当|r|0时,表明两个变量线性相关性越弱,几乎不存在线性相关关系.,第14页,思索5:,统计学认为,对于变量x,y,假如|r|0.75,1,则这两个变量有很强线性相关关系,假如|r|0.3,0.75),则这两个变量相关性普通.那么,对于一组样本数据,在什么条件下研究其回归直线方程才有实际意义?,|r|0.75,1,第15页,理论迁移,例 从某大学中随机选取8名女大学生,其身高和体重数据如表所表示:,试判断女大学生身高与体重是否含有线性相关关系,并预报一名身高为172cm女大学生体重.,59,43,61,64,54,50,57,48,体重kg,170,155,165,175,170,157,165,165,身高cm,1,编号,2,3,4,5,6,7,8,r0.798,第16页,0,10,20,30,40,50,60,70,150,155,160,165,170,175,180,当x172时,.,0.8485x,85.712,第17页,小结作业,1.若两个变量含有线性相关关系,在其回归直线方程中,当b0时,回归直线斜率为正数,两个变量呈正相关;当b0时,回归直线斜率为负数,两个变量呈负相关.,第18页,2.相关系数r是判断两个变量是否含有线性相关关系,以及相关性强弱一个统计指标,记住0.75是线性相关性强弱分界点.相关性强弱与|r|大小成正比.即|r|越大则相关性越强,|r|越小则相关性越弱.,3.对于一组样本数据,普通先作散点图,并计算相关系数,判断两个变量是否含有线性相关关系,若是,则深入求回归直线方程,不然,采取其它方式进行研究.,第19页,作业:,看书 P8082,第20页,第三章 统计案例,第二课时,3.1 回归分析基本思想及其初步应用,第21页,问题提出,1.回归直线方程 中,参数 ,计算公式分别是什么?,第22页,2.相关系数r计算公式是什么?r不一样取值对两个变量之间线性相关性强弱有什么影响?,第23页,若r0,则两个变量正相关;若r0,则两个变量负相关;,若|r|0.75,1,则两个变量线性相关性很强;,若|r|0.3,0.75),则两个变量线性相关性普通.,第24页,3.对含有线性相关关系两个变量x,y,当自变量x取某个值时,由回归方程得到y值只是一个预报值或预计值,它与实际问题中真实y值往往有一定误差.怎样从理论上认识和分析这种误差,就成为一个新研究课题.,第25页,随机误差与,第26页,探究(一):,随机误差,思索1:,从某大学中随机选取8名女大学生,得其身高x和体重y回归直线方程为 ,那么身高172cm女大学生体重一定是60.316kg吗?,0.8485x,85.712,不一定,第27页,思索2:,两个变量之间线性相关关系是一个非确定性关系,在回归分析中,通常把x称为,解释变量,,y称为,预报变量,,对不一样解释变量x所对应预报变量y与真实y值之间误差是常数还是随机变量?,随机变量,第28页,思索2:,因为全部样本点不共线,只是散布在某一条直线附近,所以身高与体重关系能够用线性回归模型:,y0.849x85.712,e,来表示,怎样了解字母,e,含意?,e,是真实值y与预报变量 之间误差.,第29页,思索4:,普通地,对含有线性相关关系两个变量x,y,能够用线性回归模型:,y,b,x,a,e,来表示,其中,a,,,b,为模型未知参数,,e,是y与 之间误差,并称为,随机误差,.它均值E(,e,)0,方差D(,e,),2,0,那么线性回归模型完整表示式是什么?,第30页,思索5:,在上述线性回归模型中,随机误差,e,方差,2,大小改变,对经过回归直线 预报真实值y精度产生什么影响?,方差,2,越小,预报真实值精度越高.,思索6:,回归模型中参数,a,,,b,与回归方程中参数 ,有什么差异?,和 是回归直线截距和斜率预计值,,a,和,b,是回归直线截距和斜率真实值.,第31页,探究(二):,残差分析,思索1:,随机误差,e,是随机变量,其均值为0,所以能够用方差,2,来衡量随机误差大小,进而衡量预报精度.能否从预报变量y中准确提取随机变量,e,样本?,因为参数,a,,,b,是未知,所以不能准确提取样本.,第32页,思索2:,由样本数据能够建立回归方程 ,所得 是 预计量,那么随机误差 可用哪个量来预计?,思索3:,对于样本点(x,1,,y,1,),(x,2,,y,2,),(x,n,,y,n,),对应随机误差为,e,i,(i1,2,,n,)等于什么?其预计值 等于什么?,第33页,思索4:,上述 称为对应于点(x,i,,y,i,),残差,,类比样本方差预计总体方差思想,能够用,(n2),作为,2,预计值,称为,残差平方和,.当样本容量为1或2时残差平方和为多少?,残差平方和为0,但不能认为预报误差为0.,第34页,思索5:,在研究两个变量间相关关系时,先要依据散点图直观判断它们是否线性相关,再经过残差来判断模型拟合效果,判断原始数据中是否存在可疑数据,这些分析工作称为,残差分析,.在残差分析中,计算各样本点残差预计值步骤怎样?,先求参数 ,值,再利用,求残差预计值.,第35页,思索6:,利用图形能够直观分析残差特征,作图时纵坐标为残差,横坐标能够是样本编号,或样本中其它数据,所得图形称为,残差图,.那么回归模型拟合精度越高,残差图有什么特征?,残差点较均匀地散布在水平带状区域中,且带状区域宽度较窄.,第36页,理论迁移,例 从某大学中随机选取8名女大学生,其身高和体重数据如表所表示:,试计算各组数据残差,并画出残差图.,59,43,61,64,54,50,57,48,体重kg,170,155,165,175,170,157,165,165,身高cm,1,编号,2,3,4,5,6,7,8,第37页,残差,0.382,2.883,6.627,1.137,4.618,2.410,2.627,6.373,8,7,6,5,4,3,2,1,编号,第38页,小结作业,1.随机误差是引发预报值与真实值之间误差原因之一,其大小取决于随机误差方差.,2.产生随机误差原因是多方面,如一个人体重除了受身高影响外,还受饮食习惯,运动量,家族遗传等原因影响.,第39页,3.在回归模型中,残差变量是一个不能被观察量,但能够预计预报变量观察值中所包含残差变量,这种预计对于查找样本数据中错误和模型评价极为有效.,作业:,P90练习:,1,2,3.,第40页,
展开阅读全文