资源描述
第一章 统计案例
小结与复习
〖课前准备〗
【课型】新授课 【课时】1教时
【课标要求】
1. 知识与能力
在必修3概率统计内容的基础上,通过典型案例进一步学习回归分析的基本思想、方法及其初步应用;通过典型案例介绍独立性检验的基本思想、方法及其初步应用,认识统计方法在决策中的作用.
2.过程与方法
通过知识与例题讲解的结合,培养学生归纳知识、整合知识的能力.借助样本数据的分析,提高学生的数据分析能力.
3.情感、态度与价值观
通过本节课的学习,加强数学与现实生活的联系.培养学生运用所学知识,解决实际问题的能力.
【重点。难点】
重点: 理解回归分析的基本思想及实施步骤;理解独立性检验的基本思想及实施步骤.
难点:了解回归分析的基本思想、方法及其初步应用,以及了解独立性检验(只要求2×2列联表)的基本思想、方法及其初步应用.
【教学用具】投影仪。
〖教学过程〗
一、知识结构
统计案例
回归分析
样本点的中心
随机误差
残差分析
建立回归模型的基本步骤
独立性检验
列联表
判断结论成立可能性的步骤
二、知识回顾
1.相关关系与函数关系的区别:函数关系是两个变量之间有完全确定的关系,当自变量给定时,函数值确定.而相关关系是两个变量之间并没有严格的确定关系,当一个变量变化时,另一变量的取值有一定的随机性.
2.回归直线过样本点的中心,其中 .
3.线性回归模型的完美表达式为: ,参数和的最小二乘估计分别为和,其计算公式为:,.
4.残差:对于样本点而言,它们的随机误差为,
其估计值为,称为相应于点的残差.
残差分析的一般步骤:
(1)计算观察数据的残差.
(2)画残差图.
(3)分析残差图.
5.我们可以用相关指数R2来刻画回归的效果,其计算公式是:
R2取值越大,意味着残差平方和越小,也就是说模型的拟合效果越好。
6.建立回归模型的基本步骤:
(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.
(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).
(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程;如果不是线性关系,根据图像特点建立非线性模型通过变换再转化为线性回归模型).
(4)按一定规则估计回归方程中的参数(如最小二乘法).
(5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等).若存在异常,则检查数据是否有误,或模型是否合适等.
7.“独立性检验"的一般步骤为:
⑴.根据实际问题的需要确定容许推断“两个分类变量X与Y有关系”犯错误概率的上界α,然后查表1-11确定临界值k0
⑵。利用公式(1) ,计算随机变量K2的观测值k;
⑶。查对临界值表得出结论,如果k≥k0,就推断“X与Y有关系”,这种推断错误的概率不超过α;否则,就认为在犯错的概率不超过α的前提下不能推断“X与Y有关系",或者在样本数据中没有发现足够证据支持结论“X与Y有关系”
三、典型例题分析
(一)区别相关关系与函数关系.
【例1】下列各组变量的关系中是相关关系的是( )。
A.电压U与电流I B。圆面积S与半径R
C.粮食产量与施肥量 D。天上出现的彗星流与自然蚧的灾害
【解析】A,B选项中的变量都是函数关系 ,是确定的。D选项中的量没有关系,只有C选项中是相关关系,具有不确定性,故答案是C.
(二)有关线性回归直线.
1.线性回归直线过样本中心,这个知识点经常在小题中出现.
【例2】某工厂经过技术改造后,生产某种产品的产量(吨)与相应的生产能耗(吨标准煤)有如下几组样本数据,
x
3
4
5
6
y
2.5
3
4
4.5
据相关性检验,这组样本数据具有线性相关关系,通过线性回归分析,求得回归直线的斜率为0。7,那么这组数据的回归直线方程是_______.
【解析】
2.建立线性回归模型,并进行预测.
【例3】 有人统计了同一个省的6个城市某一年的人均国内生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:
人均GDP(万元)
10
8
6
4
3
1
患白血病的儿童数
351
312
207
175
132
180
(1)画出散点图;
(2)求对的回归直线方程;
(3)如果这个省的某一城市同时期年人均GDP为12万元,估计这个城市一年患白血病的儿童数目。
【分析】利用公式分别求出的值,即可确定回归直线方程,然后再进行预测.
16题图
【解】(1)作与对应的散点图,如右图所示;
(2)计算得
,
∴,,
∴对的回归直线方程是.
(3)将代入得:,估计这个城市一年患白血病的儿童数目约为381.
(三)在大量的实际问题中,研究的两个变量不一定都呈线性相关关系,它们之间可能呈指数关系或对数关系等非线性关系.在某些情况下可以借助线性回归模型研究呈非线性关系的两个变量之间的关系.
【例4】 寒假中,某同学为组织一次爱心捐款,于2008年2月1日在网上给网友发了张帖子,并号召网友转发,下表是发帖后一段时间的收到帖子的人数统计:
天数
1
2
3
4
5
6
7
人数
7
11
21
24
66
115
325
(1)作出散点图,并猜测与之间的关系;
(2)建立与的关系,预报回归模型并计算残差;
(3)如果此人打算在2008年2月12日(即帖子传播时间共10天)进行募捐活动,根据上述回归模型,估计可去多少人.
【分析】先通过散点图,看二者是否具有线性相关关系,若不具有,可通过相关函数变换,转化为线性相关关系.
【解】(1)散点图:
从散点图可以看出与不具有线性相关关系,同时可发现样本点分布在某一个指数函数曲线的周围,其中是参数;
(2)对两边取对数,把指数关系变成线性关系.令,则变换后的样本点分布在直线的周围,这样就可以利用线性回归模型来建立与之间的非线性回归方程了,数据可以转化为:
天数
1
2
3
4
5
6
7
人数
1.946
2.398
3。045
3.178
4.190
4.745
5.784
求得回归直线方程为,
∴。
(3)截止到2008年2月12日,,此时(人).
∴估计可去1530人。
(四)独立性检验就是检验两个分类变量是否有关系的一种统计方法.重点是理解独立性检验的基本思想及实施步骤,在高考中可能和概率综合出解答题.根据样本数据计算检验统计量的值,要会给出推断结果及其解释.
【例5】有人发现了一个有趣的现象,中国人的邮箱名称里含有数字的比较多,而外国人邮箱名称里含有数字的比较少.为了研究国籍和邮箱名称里是否含有数字的关系,他收集了124个邮箱名称,其中中国人的70个,外国人的54个,中国人的邮箱中有43个含数字,外国人的邮箱中有27个含数字。
(1)根据以上数据建立一个2×2的列联表;
(2)他发现在这组数据中,外国人邮箱名称里含数字的也不少,他不能断定国籍和邮箱名称里含有数字是否有关,你能帮他判断一下吗?
【分析】按题中数据建列联表,然后根据列联表数据求出值,即可判定.
【解】(1)2×2的列联表:
中国人
外国人
总计
有数字
43
27
70
无数字
21
33
54
总计
64
60
124
(2)假设“国籍和邮箱名称里是否含有数字无关"。
由表中数据得,
因为k 〉5.024,所以有理由认为假设“国籍和邮箱名称里是否含有数字无关”是不合理的,即有97.5%的把握认为“国籍和邮箱名称里是否含有数字有关”。
【评注】独立性检验类似于反证法,其一般步骤为:
第一步:首先假设两个分类变量几乎没有关系(几乎独立);
第二步:求随机变量k的值;
第三步.判断两个分类变量有关的把握(即概率)有多大.
〖课时小结〗
1. 课后小结
本章是在必修3的基础上,进一步研究了两个变量的关系,通过散点图直观地了解两个变量的关系,然后通过最小二乘法建立回归模型,最后通过分析残差、R2等评价模型的好坏,这就是回归分析的基本思想.在实际问题中,经常会面临需要推断的问题,比如研制出一种新药,需要推断此药是否有效;有人怀疑吸烟的人更容易患肺癌,需要推断患肺癌是否与吸烟有关;等等.在对类似的问题作出推断时,我们不能仅凭主观意愿得出结论,需要通过试验来收集数据,并根据独立性检验的原理做出合理的推断.
统计方法是可能犯错误的:不管是回归分析还是独立性检验,得出的结论都可能犯错误.好的统计方法就是要尽量降低犯错误的概率.实际上,这就是统计思维与确定性思维差异的反映.
2。课后作业
课本P19复习参考题A组第1、2、3题;B组第1、2、3题.
展开阅读全文