收藏 分销(赏)

高中数学选修3-2第三章统计案例知识点及随堂练习讲义.doc

上传人:精*** 文档编号:1116052 上传时间:2024-04-15 格式:DOC 页数:14 大小:700.03KB
下载 相关 举报
高中数学选修3-2第三章统计案例知识点及随堂练习讲义.doc_第1页
第1页 / 共14页
高中数学选修3-2第三章统计案例知识点及随堂练习讲义.doc_第2页
第2页 / 共14页
高中数学选修3-2第三章统计案例知识点及随堂练习讲义.doc_第3页
第3页 / 共14页
高中数学选修3-2第三章统计案例知识点及随堂练习讲义.doc_第4页
第4页 / 共14页
高中数学选修3-2第三章统计案例知识点及随堂练习讲义.doc_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、3.1 回归分析的基本思想回归分析(regression analysis)是对具有相关关系的两个变量进行统计分析的一种常用方法。对于一组具有线性相关关系的数据 其中 , ,称为样本点的中心,回归直线过样本点的中心。回归方程:线性回归模型:其中a和b为模型的未知参数,e是y与bx+a之间的误差。通常e为随机变量,称为随机误差与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。随机误差e的方差越小,用bx+a预报真实值y的精度越高。随机误差是引起预报值与真实值y之间存在误差的原因之一,其大小取决于随机误差的方差。另一

2、方面,和为斜率和截距的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值与真实值y之间存在误差的另一个原因。由于随机误差,所以是e的估计量。对于样本点它们的随机误差为其估计值为称为相应于点的残差(residual)。可以通过残差发现原始数据中的可疑数据,判断所建立模型的拟合效果。以样本编号为横坐标,残差为纵坐标,可作出残差图。检查残差较大的样本点,确认采集该样本点过程中是否有人为错误,如有,应予以纠正,再重新利用线性回归模型拟合数据;如没有,则需寻找其它原因。另外,对于已经获取的样本数据,中的为确定的数。因此越大,意味着残差平方和越小,即模型拟合效果越好;越小,残差平方和越大,即模

3、型拟合效果越差。表示解释变量对于预报变量变化的贡献率,越接近于1,表示回归的效果越好。一般地,建立回归模型的基本步骤:(1) 确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;(2) 画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)(3) 有经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)(4) 按一定规则(如最小二乘法)估计回归方程中的参数;(5) 得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。回归模型的适用范围:(1) 回归方程只适用于我们所研究

4、的样本的总体;(2) 我们所建立的回归方程一般都有时间性;(3) 样本取值的范围会影响回归方程的适用范围;(4) 不能期望回归方程得到的预报值就是预报变量的精确值。般地,比较两个函数模型的拟合程度的步骤如下:(1) 分别建立对应于两个模型的回归方程与 ,其中和分别是参数a和b的估计值(2) 分别计算两个模型的R2值(3) 若 ,则模型1比模型2拟合效果更好;若 ,则模型2比模型1拟合效果更好。3.2 独立性检验的基本思想不同的“值”表示不同类别的变量叫做分类变量。列出两个分类变量的频数表称为列联表(contingency table)。常用等高条形图展示列联表数据的频率特征。利用随机变量K2来

5、判断“两个分类变量有关系”的方法称为独立性检验(test of independence)。反证法原理与独立性检验原理的比较反证法原理在假设H0下,如果推出一个矛盾,就证明了H0不成立独立性检验原理在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率一般地,假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为:y1y2总计x1aba+bx2cdc+d总计a+cb+da+b+c+d假设H0: X与Y没有关系,即X与Y独立。则有P(XY)=P(X)P(Y) ;根据频率近似于概率,故有化简得 因此

6、,越小,两者关系越弱;越大,两者关系越强;基于以上分析,构造随机变量 ,其中为样本容量K2的值越小则关系越小,K2的值越大则关系越大。(实际应用中通常要求a,b,c,d都不小于5)计算K2的观测值k并与K2作比较。统计学研究发现,在H0成立的情况下,即在H0成立的情况下,K2的观测值超过6.635的概率非常小,近似为0.01,是一个小概率事件。若观测值k大于6.635,则有理由判定H0不成立,即“X与Y有关系”。但这种判断会犯错误,犯错误的概率不会超过0.01 .*(这里概率计算的前提是H0成立,即H0:两个分类变量没有关系)若要推断的论述为H1:“X与Y有关系”。可以通过频率直观地判断两个条

7、件概率P(Y=y1|X=x1)和P(Y=y1|X=x2)是否相等。如果判断它们相等,就意味着X和Y没有关系;否则就认为它们有关系。由上表可知,在X=x1的情况下,Y=y1的频率为 ;在X=x2的情况下,Y=y1的频率为 。因此,如果通过直接计算或等高条形图发现和相差很大,就判断两个分类变量之间有关系。利用独立性检验原理可以进一步给出推断“两个分类变量有关系”犯错误的概率。具体做法是:(1) 根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界 ,然后查下表确定临界值k0.0.500.400.250.150.100.050.0250.0100.0050.001k00.4550.7

8、081.3232.0722.7063.8415.0246.6357.87910.828(2) 利用公式计算随机变量K2的观测值k.(3) 如果K2的观测值k大于判断规则的临界值k0,即kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过 ;否则,就认为在犯错误的概率不超过的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”。按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过.定义:则若“X和Y没有关系”则有有可推出即可取于是有以下判断规则:当W的观测值时,就判断“X和Y有关系” ;否则,判断“X和Y没有关系

9、”。这里为正实数,且满足在“X和Y没有关系”的前提下随堂练习1(2010宁夏银川模拟)下表是某厂14月份用水量(单位:百吨)的一组数据:月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是0.7xa,则a等于()A10.5B5.15C5.2D5.252设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有()Ab与r的符号相同 Ba与r的符号相同 Cb与r的符号相反 Da与r的符号相反3有下列说法:随机误差是引起预报值与真实值之间的误差的原因之一;残差平方和越小,预报精度越

10、高;在独立性检验中,通过二维条形图和三维柱形图可以粗略判断两个分类变量是否有关系其中真命题的个数是()A0 B1 C2 D34有甲、乙两种钢材,从中各取等量样品检验它们的抗拉强度指标如下:甲X110120125130135P0.10.20.40.10.2乙X100115125130145P0.10.20.40.10.2现要比较两种钢材哪一种抗拉强度较好,应考察哪项指标()A期望与方差 B正态分布 C卡方K2 D概率5为调查中学生近视情况,测得某校男生150名中有80名近视,女生140名中有70名近视在检验这些中学生眼睛近视是否与性别有关时用什么方法最有说服力()A期望与方差 B排列与组合 C独

11、立性检验 D概率6(2009海南宁夏理,3)对变量x,y观测数据(x1,y1)(i1,2,10),得散点图1;对变量u,v有观测数据(u1,v1)(i1,2,10),得散点图2.由这两个散点图可以判断()A变量x与y正相关,u与v正相关 B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关 D变量x与y负相关,u与v负相关7某地2010年第一季度应聘和招聘人数排行榜前5个行业的情况列表如下:行业名称计算机机械营销物流贸易应聘人数2158302002501546767457065280行业名称计算机营销机械建筑化工招聘人数124620102935891157651670436若用同一

12、行业中应聘人数与招聘人数比值的大小来衡量该行业的就业情况,则根据表中数据,就业形势一定是()A计算机行业好于化工行业 B建筑行业好于物流行业C机械行业最紧张 D营销行业比贸易行业紧张8工人月工资y(单位:元)关于劳动生产率x(单位:千元)的回归方程为65080x,下列说法中正确的个数是()劳动生产率为1000元时,工资约为730元;劳动生产率提高1000元时,则工资约提高80元;劳动生产率提高1000元时,则工资约提高730元;当月工资为810元时,劳动生产率约为2000元A1 B2 C3 D49对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),(xn,yn),则

13、下列说法中不正确的是()A由样本数据得到的回归方程为x必过样本点的中心(,)B残差平方和越小的模型,拟合的效果越好C用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D若变量y和x之间的相关系数r0.9362,则变量y和x之间具有线性相关关系10判断两个分类变量是彼此相关还是相互独立的常用方法中,最为精确的是()A三维柱形图 B二维条形图 C等高条形图 D独立性检验11在建立两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合得最好的模型为()A模型1的相关指数R2为0.75 B模型2的相关指数R2为0.90C模型3的相关指数R2为0.25 D模

14、型4的相关指数R2为0.5512下面是某市场农产品的调查表市场供应量表:单价(元/千克)22.42.83.23.64供应量(1000千克)506070758090市场需求量表:单价(元/千克)43.42.92.62.32供应量(1000千克)506070758090根据以上信息,市场供需平衡点(即供应量和需求量相等的单价)应在区间()A(2.3,2.6) B(2.4,2.6) C(2.6,2.8) D(2.8,2.9)二、填空题(本大题共4个小题,每小题4分,共16分,将正确答案填在题中横线上)13当且仅当r满足_时,数据点(xi,yi)(i1,2,n)在一条直线上14已知一个回归直线方程为1

15、.5x45,x1,7,5,13,19,则_.15对具有线性相关关系的变量x和y,测得一组数据如下表若已求得它们的回归直线方程的斜率为6.5,则这条回归直线的方程为_x24568y304060507016(2010广东文,12)某市居民20052009年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表所示:年份20052006200720082009收入x11.512.11313.315支出Y6.88.89.81012根据统计资料,居民家庭平均收入的中位数是_,家庭年平均收入与年平均支出有_线性相关关系三、解答题(本大题共6个小题,共70分,解答应写出文字说明、证明过程

16、或演算步骤)17(本题满分10分)为了调查胃病是否与生活规律有关,调查某地540名40岁以上的人得结果如下:患胃病未患胃病合计生活不规律60260320生活有规律20200220合计80460540根据以上数据回答40岁以上的人患胃病与生活规律有关吗?18(本题满分12分)一台机器可以按各种不同的速度运转,其生产的物件有一些会有问题,每小时生产有问题物件的多寡,随机器运转的速度而变化,下面表格中的数据是几次试验的结果速度(转/秒)每小时生产有问题物件数851281491611(1)求出机器速度影响每小时生产有问题物件数的回归直线方程;(2)若实际生产中所允许的每小时最大问题物件数为10,那么机

17、器的速度不得超过多少转/秒?19(本题满分12分)在从烟台大连的某次航运中,海上出现恶劣气候随机调查男、女乘客在船上晕船的情况如下表所示:晕船不晕船合计男人325173女人82432合计4075115根据此资料你是否认为在恶劣气候航行中,男人比女人更容易晕船?20(本题满分12分)有两个分类变量X与Y,其一组观测的22列联表如下表其中a,15a均为大于5的整数,则a取何值时有90%以上的把握认为“X与Y之间有关系”?y1y2x1a20ax215a30a21(本题满分12分)某超市为了了解热茶销售与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对比表如下表:气温x()26181

18、31041杯数y202434385064画出散点图并计算相关系数r,判断热茶销售量与气温之间是否具有线性相关关系22(本题满分14分)在一个文娱网络中,点击观看某个节目的累积人次和播放天数如下表:播放天数12345点击观看的累积人次51134213235262播放天数678910点击观看的累积人次294330378457533(1)画出散点图;(2)判断两变量之间是否具有线性相关关系,求回归直线方程是否有意义?答案一、选择题(本大题共12个小题,每小题5分,共60分,在每小题给出的四个选项中,只有一项是符合题目要求的)1(2010宁夏银川模拟)下表是某厂14月份用水量(单位:百吨)的一组数据:

19、月份x1234用水量y4.5432.5由散点图可知,用水量y与月份x之间有较好的线性相关关系,其线性回归直线方程是0.7xa,则a等于()A10.5B5.15C5.2D5.25答案D解析2.5,3.5,回归直线方程过定点(,),3.50.72.5a,a5.25.故选D.2设两个变量x和y之间具有线性相关关系,它们的相关系数是r,y关于x的回归直线的斜率是b,纵轴上的截距是a,那么必有()Ab与r的符号相同 Ba与r的符号相同Cb与r的符号相反 Da与r的符号相反答案A解析因为b0时,两变量正相关,此时,r0;b0时,两变量负相关,此时r0.3有下列说法:随机误差是引起预报值与真实值之间的误差的

20、原因之一;残差平方和越小,预报精度越高;在独立性检验中,通过二维条形图和三维柱形图可以粗略判断两个分类变量是否有关系其中真命题的个数是()A0 B1 C2 D3答案D4有甲、乙两种钢材,从中各取等量样品检验它们的抗拉强度指标如下:甲X110120125130135P0.10.20.40.10.2乙X100115125130145P0.10.20.40.10.2现要比较两种钢材哪一种抗拉强度较好,应考察哪项指标()A期望与方差 B正态分布C卡方K2 D概率答案A5为调查中学生近视情况,测得某校男生150名中有80名近视,女生140名中有70名近视在检验这些中学生眼睛近视是否与性别有关时用什么方法

21、最有说服力()A期望与方差 B排列与组合C独立性检验 D概率答案C6(2009海南宁夏理,3)对变量x,y观测数据(x1,y1)(i1,2,10),得散点图1;对变量u,v有观测数据(u1,v1)(i1,2,10),得散点图2.由这两个散点图可以判断()A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关答案C解析本题主要考查了变量的相关知识,考查学生分析问题和解决问题的能力用散点图可以判断变量x与y负相关,u与v正相关7某地2010年第一季度应聘和招聘人数排行榜前5个行业的情况列表如下:行业名称计算机机械营销物流贸易

22、应聘人数2158302002501546767457065280行业名称计算机营销机械建筑化工招聘人数124620102935891157651670436若用同一行业中应聘人数与招聘人数比值的大小来衡量该行业的就业情况,则根据表中数据,就业形势一定是()A计算机行业好于化工行业B建筑行业好于物流行业C机械行业最紧张D营销行业比贸易行业紧张答案B解析建筑行业的比值小于,物流行业的比值大于,故建筑好于物流8工人月工资y(单位:元)关于劳动生产率x(单位:千元)的回归方程为65080x,下列说法中正确的个数是()劳动生产率为1000元时,工资约为730元;劳动生产率提高1000元时,则工资约提高8

23、0元;劳动生产率提高1000元时,则工资约提高730元;当月工资为810元时,劳动生产率约为2000元A1 B2 C3 D4答案C解析代入方程计算可判断正确9对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),(xn,yn),则下列说法中不正确的是()A由样本数据得到的回归方程为x必过样本点的中心(,)B残差平方和越小的模型,拟合的效果越好C用相关指数R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D若变量y和x之间的相关系数r0.9362,则变量y和x之间具有线性相关关系答案C解析R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C.10判

24、断两个分类变量是彼此相关还是相互独立的常用方法中,最为精确的是()A三维柱形图 B二维条形图C等高条形图 D独立性检验答案D解析前三种方法只能直观地看出两个分类变量x与y是否相关,但看不出相关的程度独立性检验通过计算得出相关的可能性,较为准确11在建立两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合得最好的模型为()A模型1的相关指数R2为0.75B模型2的相关指数R2为0.90C模型3的相关指数R2为0.25D模型4的相关指数R2为0.55答案B解析相关指数R2的值越大,意味着残差平方和越小,也就是说模型的拟合效果越好,故选B.12下面是某市场农产品的调查

25、表市场供应量表:单价(元/千克)22.42.83.23.64供应量(1000千克)506070758090市场需求量表:单价(元/千克)43.42.92.62.32供应量(1000千克)506070758090根据以上信息,市场供需平衡点(即供应量和需求量相等的单价)应在区间()A(2.3,2.6) B(2.4,2.6)C(2.6,2.8) D(2.8,2.9)答案C解析以横轴为单价,纵轴为市场供、需量,在同一坐标系中描点,用近似曲线观察可知选C.二、填空题(本大题共4个小题,每小题4分,共16分,将正确答案填在题中横线上)13当且仅当r满足_时,数据点(xi,yi)(i1,2,n)在一条直线

26、上答案|r|1解析当数据点(xi,yi)在一条直线上时,y只受x的影响,即数据点完全线性相关,此时|r|1.14已知一个回归直线方程为1.5x45,x1,7,5,13,19,则_.答案58.5解析因为(1751319)9,且1.545,所以1.594558.5.本题易错之处是根据x的值及1.5x45求出y的值再求,由1.5x45求得的y值不是原始数据,故错误15对具有线性相关关系的变量x和y,测得一组数据如下表若已求得它们的回归直线方程的斜率为6.5,则这条回归直线的方程为_x24568y3040605070答案17.56.5x解析由数据表得5,50,所以6.517.5,即回归直线方程为17.

27、56.5x.16(2010广东文,12)某市居民20052009年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表所示:年份20052006200720082009收入x11.512.11313.315支出Y6.88.89.81012根据统计资料,居民家庭平均收入的中位数是_,家庭年平均收入与年平均支出有_线性相关关系答案13正解析中位数的定义的考查,奇数个时按大小顺序排列后中间一个是中位数,而偶数个时须取中间两数的平均数由统计资料可以看出,当平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系三、解答题(本大题共6个小题,共70分,解答应写出文字说明、证

28、明过程或演算步骤)17(本题满分10分)为了调查胃病是否与生活规律有关,调查某地540名40岁以上的人得结果如下:患胃病未患胃病合计生活不规律60260320生活有规律20200220合计80460540根据以上数据回答40岁以上的人患胃病与生活规律有关吗?解析k9.6389.6386.63540岁以上的人患胃病与生活是否有规律有关,有99%的把握认为生活不规律的人易患胃病18(本题满分12分)一台机器可以按各种不同的速度运转,其生产的物件有一些会有问题,每小时生产有问题物件的多寡,随机器运转的速度而变化,下面表格中的数据是几次试验的结果速度(转/秒)每小时生产有问题物件数8512814916

29、11(1)求出机器速度影响每小时生产有问题物件数的回归直线方程;(2)若实际生产中所允许的每小时最大问题物件数为10,那么机器的速度不得超过多少转/秒?解析(1)用x表示机器速度,y表示每小时生产有问题物件数,那么4个样本数据为:(8,5)、(12,8)、(14,9)、(16,11),则12.5,8.25.于是回归直线的斜率为0.7286,0.8575,所以所求的回归直线方程为y0.7286x0.8575.(2)根据公式0.7286x0.8575,要使y10,则就需要0.7286x0.857510,x14.9019,即机器的旋转速度不能超过14.9019转/秒19(本题满分12分)在从烟台大连

30、的某次航运中,海上出现恶劣气候随机调查男、女乘客在船上晕船的情况如下表所示:晕船不晕船合计男人325173女人82432合计4075115根据此资料你是否认为在恶劣气候航行中,男人比女人更容易晕船?解析男人晕船所占比例为100%0.386,女人晕船所占比例为100%0.25,虽然0.386远大于0.25,但我们不能用此判断在恶劣气候中航行,男人比女人更容易晕船,而应根据独立性检验进行分析由公式得:K21.870.因为1.8702.706,而其观测值k,解k2.706得a7.19或a5且15a5,aZ,所以a8,9,故当a取8或9时有90%以上的把握认为“X与Y之间有关系”点拨首先计算K2值,由

31、题意K22.706,求得a的范围,再结合a5且15a5,aZ,即可求得a的值21(本题满分12分)某超市为了了解热茶销售与气温之间的关系,随机统计并制作了某6天卖出热茶的杯数与当天气温的对比表如下表:气温x()2618131041杯数y202434385064画出散点图并计算相关系数r,判断热茶销售量与气温之间是否具有线性相关关系解析由表中数据画出散点图如图所示由表中数据得(2618131041)11.67,(202434385064)38.33,iyi26201824133410384501641910,26218213210242(1)21286,202242342382502642101

32、72,所以r0.97,因为|r|0.970.75,所以热茶销售量与气温之间具有很强的线性相关关系22(本题满分14分)在一个文娱网络中,点击观看某个节目的累积人次和播放天数如下表:播放天数12345点击观看的累积人次51134213235262播放天数678910点击观看的累积人次294330378457533(1)画出散点图;(2)判断两变量之间是否具有线性相关关系,求回归直线方程是否有意义?解析(1)散点图如图所示(2)由散点图知两变量线性相关,故求回归直线方程有意义或借助科学计算器,完成下表中的有关计算.i12345678910xi12345678910yi51134213235262294330378457533xiyi512686399401310176423103024411353305.5,288.7,385,1020953,iyi19749利用上表的结果,计算累积人次与播放天数之间的相关系数r0.9840.75.这说明累积人次与播放天数之间存在着线性相关关系,自然求回归直线方程有意义

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 教育专区 > 高中数学

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服