资源描述
学案4 回归分析的基本思想及其初步应用
学习目标:了解回归分析的基本思想、方法及简单应用.
学习重点:了解回归分析的基本思想
学习过程:
一、 课前预习:内化知识 夯实基础
(一)基础知识
1、函数关系是一种 关系,而相关关系是一种 关系.
5、对于一组具有线性相关关系的数据且所求回归方程是
,其中= = ,=___________,其中= ,= , 称为样本点的中心.
6、残差:
7、残差平方和:
8、相关指数的计算公式: ;显然,的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.
9、残差或残差图的作用:(1) (2)
10、建立回归模型的基本步骤:
(1)
(2)
(3)
(4)
(5)
二、新课
例1:从某大学中随机选取8名女大学生,其身高和体重数据如下表:
编号
1
2
3
4
5
6
7
8
身高
165
165
157
170
175
165
155
170
体重
48
57
50
54
64
61
43
59
求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重。
解:画散点图(略)看是否有线性回归关系
求==0.849,==-85.712
回归直线方程=0.849x-85.712
1.回归模型:y=bx+a+e(其中a和b为参数,e为随机误差)
e产生的原因:
(1) 用线性回归模型近似真实模型所引起的误差
(2) 忽略了某些因素的影响
(3) 观测误差
2.残差:
残差=
残差平方和= 总偏差平方和=
残差平方和越小模型拟合的效果越好
3.相关指数R2
R2越大,模型拟合的效果越好
4.建立回归模型的基本步骤是:
①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系).
③由经验确定回归方程的类型.
④按一定规则估计回归方程中的参数 (最小二乘法);
⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等.
三、例题选讲
本周练习:
1.对具有相关关系的两个变量统计分析的一种常用的方法是( )
A.回归分析 B.相关系数分析 C.残差分析 D.相关指数分析
2.在画两个变量的散点图时,下面叙述正确的是( )
A.预报变量在 轴上,解释变量在 轴上
B.解释变量在 轴上,预报变量在 轴上
C.可以选择两个变量中任意一个变量在 轴上
D.可以选择两个变量中任意一个变量在 轴上
5.一位母亲记录了她儿子3到9岁的身高,数据如下表:
年龄(岁)
3
4
5
6
7
8
9
身高(
94.8
104.2
108.7
117.8
124.3
130.8
139.0
由此她建立了身高与年龄的回归模型 ,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是( )
A.她儿子10岁时的身高一定是145.83
B.她儿子10岁时的身高在145.83 以上
C.她儿子10岁时的身高在145.83 左右
D.她儿子10岁时的身高在145.83 以下
7.两个变量有线性相关关系且残差的平方和等于0,则( )
A.样本点都在回归直线上 B.样本点都集中在回归直线附近
C.样本点比较分散 D.不存在规律
8.在建立两个变量 与 的回归模型中,分别选择了4个不同的模型,它们的相关指数 如下,其中拟合最好的模型是( )
A.模型1的相关指数 为0.98 B.模型2的相关指数 为0.80
C.模型3的相关指数 为0.50 D.模型4的相关指数 为0.25
四.课后心得
1.2独立性检验的基本思想及其初步应用
目标:通过独立性检验能判断两个分类变量是否有关
重点、难点:通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用。
一、基础知识梳理
1.独立性检验
利用随机变量 来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。
2.判断结论成立的可能性的步骤:
(1)通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。
(2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。
二、例题选讲
例1.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:
患病
不患病
合计
吸烟
43
162
205
不吸烟
13
121
134
合计
56
283
339
试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗?
分析:最理想的解决办法是向所有50岁以上的人作调查,然后对所得到的数据进行统计处理,但这花费的代价太大,实际上是行不通的,339人相对于全体50岁以上的人,只是一个小部分,已学过总体和样本的关系,当用样本平均数,样本方差去估计总体相应的数字特征时,由于抽样的随机性,结果并不唯一。现在情况类似,我们用部分对全体作推断,推断可能正确,也可能错误。如果抽取的339个调查对象中很多人是吸烟但没患慢性气管炎,而虽不吸烟因身体体质差而患慢性气管炎,能够得出什么结论呢?我们有95%(或99%)的把握说事件 与事件 有关,是指推断犯错误的可能性为5%(或1%),这也常常说成是“以95%(或99%)的概率”是一样的。
解:根据列联表中的数据,得
。
因为 ,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。
评注:对两个分类变量进行独立性检验,要对样本的选取背景、时间等因素进行分析。
例2.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表:
班级与成绩列联表
优秀
不优秀
总计
甲班
10
35
45
乙班
7
38
45
总计
17
73
90
画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少
解:列联表的条形图如图所示:
由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为k≈0.653>0.455。由下表中数据
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
得:P(K2≥0.455)≈0.50,
从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。
评注:
(1)画出条形图后,从图形上判断两个分类变量之间是否有关系。这里通过图形的直观感觉的结果可能会出错。
(2)计算得到K2的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”。这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立。在独立性检验中,在假设“成绩优秀与班级没有关系”的情况下,计算得到的K2的值比较小,且P(K2≥0.653)≈0.42,说明事件(K2≥0.653)不是一个小概率事件,这个事件的发生不足以说明“成绩优秀与班级没有关系”,即没有理由说明“成绩优秀与班级有关系”。这里没有推出小概率事件发生类似于反证法中没有推出矛盾。
例3.为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联列表:
药物效果与动物试验列联表
患病
未患病
总计
服用药
10
45
55
没服用药
20
30
50
总计
30
75
105
请问能有多大把握认为药物有效?
解: 假设“服药情况与是否患病之间没有关系”,则K2的值应比较小;如果K2的值很大,则说明很可能“服药情况与是否患病之间有关系”。由题目中所给数据计算,得K2的观测值为k≈6.110,而P(K2≥5.024)≈0.025,所以有97.5%的把握认为“服药情况与是否患病之间有关系”,即大约有97.5%的把握认为药物有效。
三、课后练习
1.在一次独立性检验中,其把握性超过了99%,则随机变量 的可能值为( )
A.6.635 B.5.024 C.7.897 D.3.841
3.由列联表
合计
43
162
205
13
121
134
合计
56
283
339
则随机变量 的值为 。
5.某高校“统计初步”课程的教师随机调查了该选修课的一些学生情况,具体数据如下表:
非统计专业
统计专业
男
13
10
女
7
20
为了检验主修专业是否与性别有关系,根据表中的数据,得到 。
因为 ,所以断定主修统计专业与性别有关系。这种判断出错的可能性为 。
四.课后心得
参考答案: 1.C 2.C 3.7.469 4.女教授人数,男教授人数,女副教授人数,男副教授人数(或高级职称中女性的人数,高级职称中男性的人数,中级职称中女性的人数,中级职称中男性的人数。) 5.5%(或0.05) 6.答案: (1) 的列联表:
看电视
运动
合计
女
43
27
70
男
21
33
54
合计
64
60
124
(2)假设休闲方式与性别无关,计算 ;
因为 ,所以有理由认为假设休闲方式与性别无关是不合理的,即我们有97.5%的把握认为休闲方式与性别无关。
7.由所给数据计算得K2的观测值为k≈3.689,而由
P(K2≥k)
0.50
0.40
0.25
0.15
0.10
0.05
0.025
0.010
0.005
0.001
k
0.455
0.708
1.323
2.072
2.706
3.841
5.024
6.635
7.879
10.828
知P(K2≥2.706)=0.10
所以有90%的把握认为“婴儿的性别与出生的时间有关系”。
8 / 8
展开阅读全文