收藏 分销(赏)

回归分析基本思想及初步应用技术.doc

上传人:天**** 文档编号:2244316 上传时间:2024-05-23 格式:DOC 页数:8 大小:66.50KB 下载积分:6 金币
下载 相关 举报
回归分析基本思想及初步应用技术.doc_第1页
第1页 / 共8页
回归分析基本思想及初步应用技术.doc_第2页
第2页 / 共8页


点击查看更多>>
资源描述
学案4 回归分析的基本思想及其初步应用 学习目标:了解回归分析的基本思想、方法及简单应用. 学习重点:了解回归分析的基本思想 学习过程: 一、 课前预习:内化知识 夯实基础 (一)基础知识 1、函数关系是一种 关系,而相关关系是一种 关系. 5、对于一组具有线性相关关系的数据且所求回归方程是 ,其中= = ,=___________,其中= ,= , 称为样本点的中心. 6、残差: 7、残差平方和: 8、相关指数的计算公式: ;显然,的值越大,说明残差平方和越小,也就是说模型的拟合效果越好. 9、残差或残差图的作用:(1) (2) 10、建立回归模型的基本步骤: (1) (2) (3) (4) (5) 二、新课 例1:从某大学中随机选取8名女大学生,其身高和体重数据如下表: 编号 1 2 3 4 5 6 7 8 身高 165 165 157 170 175 165 155 170 体重 48 57 50 54 64 61 43 59 求根据女大学生的身高预报体重的回归方程,并预报一名身高为172cm的女大学生的体重。 解:画散点图(略)看是否有线性回归关系 求==0.849,==-85.712 回归直线方程=0.849x-85.712 1.回归模型:y=bx+a+e(其中a和b为参数,e为随机误差) e产生的原因: (1) 用线性回归模型近似真实模型所引起的误差 (2) 忽略了某些因素的影响 (3) 观测误差 2.残差: 残差= 残差平方和= 总偏差平方和= 残差平方和越小模型拟合的效果越好 3.相关指数R2 R2越大,模型拟合的效果越好 4.建立回归模型的基本步骤是: ①确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量; ②画好确定好的解释变量和预报变量的散点图,观察它们之间的关系(线性关系). ③由经验确定回归方程的类型. ④按一定规则估计回归方程中的参数 (最小二乘法); ⑤得出结论后在分析残差图是否异常,若存在异常,则检验数据是否有误,后模型是否合适等. 三、例题选讲 本周练习: 1.对具有相关关系的两个变量统计分析的一种常用的方法是(   ) A.回归分析   B.相关系数分析   C.残差分析   D.相关指数分析 2.在画两个变量的散点图时,下面叙述正确的是(   ) A.预报变量在 轴上,解释变量在 轴上   B.解释变量在 轴上,预报变量在 轴上 C.可以选择两个变量中任意一个变量在 轴上 D.可以选择两个变量中任意一个变量在 轴上 5.一位母亲记录了她儿子3到9岁的身高,数据如下表: 年龄(岁) 3 4 5 6 7 8 9 身高( 94.8 104.2 108.7 117.8 124.3 130.8 139.0 由此她建立了身高与年龄的回归模型 ,她用这个模型预测儿子10岁时的身高,则下面的叙述正确的是(   ) A.她儿子10岁时的身高一定是145.83    B.她儿子10岁时的身高在145.83 以上 C.她儿子10岁时的身高在145.83 左右 D.她儿子10岁时的身高在145.83 以下 7.两个变量有线性相关关系且残差的平方和等于0,则(   ) A.样本点都在回归直线上   B.样本点都集中在回归直线附近 C.样本点比较分散      D.不存在规律 8.在建立两个变量 与 的回归模型中,分别选择了4个不同的模型,它们的相关指数 如下,其中拟合最好的模型是(   ) A.模型1的相关指数 为0.98   B.模型2的相关指数 为0.80 C.模型3的相关指数 为0.50   D.模型4的相关指数 为0.25 四.课后心得 1.2独立性检验的基本思想及其初步应用 目标:通过独立性检验能判断两个分类变量是否有关 重点、难点:通过典型案例的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用。 一、基础知识梳理 1.独立性检验 利用随机变量 来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验。 2.判断结论成立的可能性的步骤: (1)通过等高条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。 (2)可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。 二、例题选讲   例1.为了探究患慢性气管炎是否与吸烟有关,调查了339名50岁以上的人,调查结果如下表所示:    患病 不患病 合计 吸烟 43 162 205 不吸烟 13 121 134 合计 56 283 339 试问:50岁以上的人患慢性气管炎与吸烟习惯有关吗? 分析:最理想的解决办法是向所有50岁以上的人作调查,然后对所得到的数据进行统计处理,但这花费的代价太大,实际上是行不通的,339人相对于全体50岁以上的人,只是一个小部分,已学过总体和样本的关系,当用样本平均数,样本方差去估计总体相应的数字特征时,由于抽样的随机性,结果并不唯一。现在情况类似,我们用部分对全体作推断,推断可能正确,也可能错误。如果抽取的339个调查对象中很多人是吸烟但没患慢性气管炎,而虽不吸烟因身体体质差而患慢性气管炎,能够得出什么结论呢?我们有95%(或99%)的把握说事件 与事件 有关,是指推断犯错误的可能性为5%(或1%),这也常常说成是“以95%(或99%)的概率”是一样的。 解:根据列联表中的数据,得    。   因为 ,所以我们有99%的把握说:50岁以上的人患慢性气管炎与吸烟习惯有关。   评注:对两个分类变量进行独立性检验,要对样本的选取背景、时间等因素进行分析。 例2.甲乙两个班级进行一门考试,按照学生考试成绩优秀和不优秀统计成绩后,得到如下的列联表: 班级与成绩列联表    优秀 不优秀 总计 甲班 10 35 45 乙班 7 38 45 总计 17 73 90 画出列联表的条形图,并通过图形判断成绩与班级是否有关;利用列联表的独立性检验估计,认为“成绩与班级有关系”犯错误的概率是多少   解:列联表的条形图如图所示: 由图及表直观判断,好像“成绩优秀与班级有关系”;由表中数据计算得K2的观察值为k≈0.653>0.455。由下表中数据 P(K2≥k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 得:P(K2≥0.455)≈0.50, 从而有50%的把握认为“成绩与班级有关系”,即断言“成绩优秀与班级有关系”犯错误的概率为0.5。 评注:   (1)画出条形图后,从图形上判断两个分类变量之间是否有关系。这里通过图形的直观感觉的结果可能会出错。 (2)计算得到K2的观测值比较小,所以没有理由说明“成绩优秀与班级有关系”。这与反证法也有类似的地方,在使用反证法证明结论时,假设结论不成立的条件下如果没有推出矛盾,并不能说明结论成立也不能说明结论不成立。在独立性检验中,在假设“成绩优秀与班级没有关系”的情况下,计算得到的K2的值比较小,且P(K2≥0.653)≈0.42,说明事件(K2≥0.653)不是一个小概率事件,这个事件的发生不足以说明“成绩优秀与班级没有关系”,即没有理由说明“成绩优秀与班级有关系”。这里没有推出小概率事件发生类似于反证法中没有推出矛盾。 例3.为考察某种药物预防疾病的效果,进行动物试验,得到如下的列联列表: 药物效果与动物试验列联表    患病 未患病 总计 服用药 10 45 55 没服用药 20 30 50 总计 30 75 105 请问能有多大把握认为药物有效? 解: 假设“服药情况与是否患病之间没有关系”,则K2的值应比较小;如果K2的值很大,则说明很可能“服药情况与是否患病之间有关系”。由题目中所给数据计算,得K2的观测值为k≈6.110,而P(K2≥5.024)≈0.025,所以有97.5%的把握认为“服药情况与是否患病之间有关系”,即大约有97.5%的把握认为药物有效。   三、课后练习 1.在一次独立性检验中,其把握性超过了99%,则随机变量 的可能值为(     )   A.6.635     B.5.024   C.7.897   D.3.841    3.由列联表    合计 43 162 205 13 121 134 合计 56 283 339 则随机变量 的值为                     。 5.某高校“统计初步”课程的教师随机调查了该选修课的一些学生情况,具体数据如下表:    非统计专业 统计专业 男 13 10 女 7 20 为了检验主修专业是否与性别有关系,根据表中的数据,得到   。 因为 ,所以断定主修统计专业与性别有关系。这种判断出错的可能性为          。 四.课后心得 参考答案:  1.C   2.C  3.7.469  4.女教授人数,男教授人数,女副教授人数,男副教授人数(或高级职称中女性的人数,高级职称中男性的人数,中级职称中女性的人数,中级职称中男性的人数。)  5.5%(或0.05)  6.答案:  (1) 的列联表:    看电视 运动 合计 女 43 27 70 男 21 33 54 合计 64 60 124 (2)假设休闲方式与性别无关,计算   ; 因为 ,所以有理由认为假设休闲方式与性别无关是不合理的,即我们有97.5%的把握认为休闲方式与性别无关。  7.由所给数据计算得K2的观测值为k≈3.689,而由 P(K2≥k) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 知P(K2≥2.706)=0.10 所以有90%的把握认为“婴儿的性别与出生的时间有关系”。 8 / 8
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 考试专区 > 中考

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服