资源描述
,章末复习课,第八章成对数据的记录分析,知识网络,一、线性回归分析,(1),求该地区这种野生动物数量的估计值,(,这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数,),;,从而该地区这种野生动物数量的估计值为,60,200,12 000.,(2)求样本(xi,yi)(i1,2,20)的有关系数(精确到0.01);,解样本(xi,yi)(i1,2,20)的有关系数为,(3)根据既有记录资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区这种野生动物数量更精确的估计,请给出一种你认为更合理的抽样措施,并阐明理由.,解分层随机抽样,根据植物覆盖面积的大小对地块分层,再对200个地块进行分层随机抽样.,理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正有关关系.,由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的措施很好地保持了样本构造与总体构造的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更精确的估计.,跟踪训练1如图给出了根据我国水果人均占有量y(单位:kg)和年份代码x绘制的散点图和经验回归方程的残差图(的年份代码x为17).,(1)根据散点图分析y与x之间的有关关系;,解根据散点图可知y与x呈正线性有关.,(3),根据经验回归方程的残差图,分析经验回归方程的拟合效果,.,解由题中给出的残差图知历年数据的残差均在2到2之间,阐明经验回归方程的拟合效果很好.,反思感悟处理回归分析问题的一般环节,(1)画散点图.根据已知数据画出散点图.,(2)判断变量的有关性并求经验回归方程.通过观测散点图,直观感知两个变量与否具有有关关系.在此基础上,运用最小二乘法求 然后写出经验回归方程.,(3)回归分析.画残差图或计算R2,进行残差分析.,(4)实际应用.根据求得的经验回归方程处理实际问题.,二、独立性检查,例,2,为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了,100,天空气中的,PM,2.5,和,SO,2,浓度,(,单位:,g/m,3,),,得下表:,SO,2,PM,2.5,0,50,(50,150,(150,475,0,35,32,18,4,(35,75,6,8,12,(75,115,3,7,10,(1),估计事件,“,该市一天空气中,PM,2.5,浓度不超过,75,,且,SO,2,浓度不超过,150,”,的概率;,解,由表格可知,该市,100,天中,空气中的,PM,2.5,浓度不超过,75,,且,SO,2,浓度不超过,150,的天数为,32,6,18,8,64,,,SO,2,PM,2.5,0,50,(50,150,(150,475,0,35,32,18,4,(35,75,6,8,12,(75,115,3,7,10,(2)根据所给数据,完毕下面的22列联表:,SO,2,PM,2.5,0,150,(150,475,0,75,(75,115,解,由所给数据,可得,2,2,列联表:,SO,2,PM,2.5,0,150,(150,475,0,75,64,16,(75,115,10,10,(3)根据(2)中的列联表,根据小概率值0.010的独立性检查,分析该市一天空气中PM2.5浓度与SO2浓度与否有关.,解,零假设为,H,0,:该市一天空气中,PM,2.5,浓度与,SO,2,浓度无关,.,根据列联表中数据,经计算,得到,根据小概率值0.010的独立性检查,我们推断H0不成立,,即认为该市一天空气中PM2.5浓度与SO2浓度有关.,跟踪训练2考察小麦种子灭菌与否跟发生黑穗病的关系,经试验观测,得到数据如下表:,种子灭菌,种子未灭菌,合计,黑穗病,26,184,210,无黑穗病,50,200,250,合计,76,384,460,试分析根据小概率值0.05的独立性检查,能否据此推断种子灭菌与小麦发生黑穗病有关?,解,零假设,H,0,:种子灭菌与小麦发生黑穗病无关,.,由列联表的数据可得,根据小概率值0.05的独立性检查,我们推断H0不成立,可以认为种子灭菌与小麦发生黑穗病有关系.,反思感悟独立性检查的一般环节,根据样本数据制成22列联表;,查表比较2与临界值的大小关系,作出记录判断.,三、数形结合思想在独立性检查中的应用,例3某机构为了理解患色盲与否与性别有关,随机抽取了1 000名成年人进行调查,在调查的480名男性中有38名患色盲,520名女性中有6名患色盲,分别运用图形和独立性检查(0.001)的措施来判断患色盲与性别与否有关.,解,根据题目所给的数据作出如下的列联表:,性别,色盲,合计,患色盲,未患色盲,男,38,442,480,女,6,514,520,合计,44,956,1 000,根据列联表作出对应的等高,堆积条形图,如图所示.,图中两个深色条的高分别表达男性和女性中患色盲的频率,,从图中可以看出,男性中患色盲的频率明显高于女性中患色盲的频率,,因此我们可认为患色盲与性别有关,.,零假设为,H,0,:患色盲与性别无关,.,根据列联表中所给的数据,得,根据小概率值0.001的独立性检查,推断H0不成立,即认为患色盲与性别有关,此推断出错误的概率不超过0.001.,跟踪训练3电视传媒企业为理解某地区电视观众对某类体育节目的收视状况,随机抽取了100名观众进行调查.如图所示的是根据调查成果绘制的观众日均收看该体育节目时间的频率分布直方图.将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”.,(1)根据已知条件完毕下面的22列联表,据此资料你与否认为“体育迷”与性别有关?,非体育迷,体育迷,合计,男,女,10,55,合计,解,由频率分布直方图可知,在抽取的,100,人中,,“,体育迷,”,有,25,人,从而,2,2,列联表如下:,非体育迷,体育迷,合计,男,30,15,45,女,45,10,55,合计,75,25,100,零假设为,H,0,:,“,体育迷,”,与性别无关,.,将,2,2,列联表中的数据代入公式计算,得,根据小概率值0.05的独立性检查,没有充足证据推断H0不成立,即认为“体育迷”与性别无关.,(2)将上述调查所得到的频率视为概率.目前从该地区大量电视观众中,采用随机抽样措施每次抽取1名观众,抽取3次,记被抽取的3名观众中的“体育迷”人数为X.若每次抽取的成果是互相独立的,求X的分布列,均值E(X)和方差D(X).,0.05,0.01,x,3.841,6.635,解,由频率分布直方图,知抽到,“,体育迷,”,的频率为,0.25,,将频率视为概率,,反思感悟解独立性检查的应用问题的关注点,(1)两个明确:明确两类主体;明确研究的两个问题;,(2)两个精确:精确画出22列联表;精确理解2.,四、化归与转化思想在非线性回归分析中的应用,1.转化与化归思想重要体目前非线性回归分析中.在实际问题中,并非所有的变量关系均满足线性关系,故要选择合适的函数模型去拟合样本数据,再通过代数变换,把非线性问题线性化.,2.重要培养数学建模和数学运算的素养.,例4某机构为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,搜集了某些数据并进行了初步处理,得到了下面的散点图及某些记录量的值.,(1),根据散点图判断,y,a,bx,与,y,c,哪,一个模型更适合作为该图书每册的成本费,y,(,单位:元,),与印刷数量,x,(,单位:千册,),的经验回归方程?,(,只要求给出判断,不必说明理由,),(2)根据(1)的判断成果及表中数据,建立y有关x的经验回归方程(回归系数的成果精确到0.01).,(3)若该图书每册的定价为10元,则至少应当印刷多少册才能使销售利润不低于78 840元?(假设可以所有售出.成果精确到1),因此x10,因此至少印刷10 000册才能使销售利润不低于78 840元.,跟踪训练4光伏发电是运用太阳能电池及有关设备将太阳光能直接转化为电能.近几年在国内出台的光伏发电补助政策的引导下,某地光伏发电装机量急剧上涨,如表:,年份,2011,2012,2013,2014,2015,2016,2017,2018,年份代码,x,1,2,3,4,5,6,7,8,新增光伏装机,量,y,兆瓦,0.4,0.8,1.6,3.1,5.1,7.1,9.7,12.2,(1)根据残差图,比较模型、模型的拟合效果,应当选择哪个模型?并简要阐明理由;,解选择模型.,理由如下:,根据残差图可以看出,模型的估计值和真实值比较相近,模型的残差值相对较大某些,因此模型的拟合效果相对很好.,(2)根据(1)的判断成果及表中数据建立y有关x的经验回归方程,并预测该地区新增光伏装机量是多少?(在计算回归系数时精确到0.01),由所给数据可得,预测该地区新增光伏装机量为,反思感悟可线性化的回归分析问题,画出已知数据的散点图,选择跟散点图拟合得最佳的函数模型进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合.,随堂演习,1.如图所示的是一组观测值的四个线性回归模型对应的残差图,则对应的线性回归模型的拟合效果最佳的残差图是,1,2,3,4,解析由于残差点比较均匀地落在水平的带状区域中,阐明选用的模型比较合适,故选A.,1,2,3,4,A.3 B.4 C.5 D.6,2.两个分类变量X和Y,值域都为0,1,其样本频数分别是a10,b21,cd35.根据小概率值0.025的独立性检查,认为X与Y有关系,则c等于,1,2,3,4,0.05,0.025,x,3.841,5.024,解析,2,2,列联表为,1,2,3,4,Y,0,Y,1,合计,X,0,10,21,31,X,1,c,d,35,合计,10,c,21,d,66,把选项,A,,,B,,,C,,,D,代入验证可知选,A.,1,2,3,4,若两个随机变量的线性有关性越强,则有关系数r的值越靠近于1;,在残差图中,残差点比较均匀落在水平的带状区域中即可阐明选用的模型比较合适,与带状区域的宽度无关;,在线性回归模型中,决定系数R2表达解释变量对于响应变量变化的奉献率,R2越靠近于1,表达回归的效果越好.,其中对的的结论个数为,A.1 B.2 C.3 D.4,1,2,3,4,对于,若两个随机变量的线性有关性越强,则有关系数r的绝对值越靠近于1,故错误;,对于,与带状区域的宽度有关,带状区域越窄,阐明经验回归方程的预报精确度越高,故错误;,对于,R2越靠近于1,表达回归的效果越好,故对的.,1,2,3,4,1,2,3,4,解析,由题意得,
展开阅读全文