收藏 分销(赏)

3.2独立性检验的基本思想及其初步应用(修改)课件.ppt

上传人:精*** 文档编号:5895155 上传时间:2024-11-22 格式:PPT 页数:31 大小:421.50KB
下载 相关 举报
3.2独立性检验的基本思想及其初步应用(修改)课件.ppt_第1页
第1页 / 共31页
3.2独立性检验的基本思想及其初步应用(修改)课件.ppt_第2页
第2页 / 共31页
3.2独立性检验的基本思想及其初步应用(修改)课件.ppt_第3页
第3页 / 共31页
3.2独立性检验的基本思想及其初步应用(修改)课件.ppt_第4页
第4页 / 共31页
3.2独立性检验的基本思想及其初步应用(修改)课件.ppt_第5页
第5页 / 共31页
点击查看更多>>
资源描述

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,3.2 独立性检验的基本思想,及其初步应用,1,我们经常听到这些说法:,吸烟对患肺癌有影响;,数学好的人物理一般也很好;,是否喜欢数学课程与性别之间有关系;,人的血型会决定人的性格;,星座与人的命运之间有某种联系,.,这些说法都有道理吗?,2,探究1 独立性检验的基本思想,对于性别变量,其取值为男和女两种.这种变量,的不同“值”表示个体所属的不同类别,像这样的变,量称为,.,分类变量在现实生活中是大量存在的,如是否吸烟,是否患肺癌,宗教信仰,国别,年龄,出生月份等.,分类变量,x,是变量吗?,y,表示一年四

2、季,则,y,的取值有哪些?,y,是变量吗?,x,表示性别,则,x,的取值有哪些?,3,(2)分类变量的取值有时可用数字来表示,但这时的数字除了分类以外没有其他的含义,如用“0”表示“男”,用“1”表示“女”.,对分类变量的理解,(1)分类变量的取值一定是离散的,而且不同的取值仅表示个体所属的类别,如性别变量,只取男、女两个值,商品的等级变量只取一级、二级、三级等.,4,不患肺癌,患肺癌,总计,不吸烟,7 775,42,7 817,吸烟,2 099,49,2 148,总计,9 874,91,9 965,问题:,为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,得到如下结果:,

3、3-7吸烟与患肺癌列联表(单位:人),两个分类变量的频数表,称为列联表,思考1:,你如何由列联表中的数据判断吸烟是否对肺癌有影响?能不能从患肺癌的人数来判断?应该从什么量来判断?,5,不患肺癌,患肺癌,总计,不吸烟,7 775,42,7 817,吸烟,2 099,49,2 148,总计,9 874,91,9 965,问题:,为了研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9 965人,得到如下结果:,3-7吸烟与患肺癌列联表(单位:人),在吸烟者中患肺癌的比重是_.,2.28%,在不吸烟者中患肺癌的比重是_,0.54%,由计算结果,你会做出怎样的判断?,你的判断一定正确吗?能知道判断犯

4、错误的概率是多少吗?,6,等高条形图,患肺癌,比例,不患肺,癌比例,思考2:除了用比例来判断吸烟是否对患肺癌有影响外?还有其它方法来判断吗?,(1)观察等高条形图,你得到什么结论?,(2)你的判断一定正确吗?能知道判断的正确率是多少吗?,7,思考3:通过分析数据和图形,我们得到的直观印象是“吸烟和患肺癌有关”但是我们不知道我们判断的正确率有多大,那么我们是否能够以一定的把握认为“吸烟与患肺癌有关”呢?,为了回答上述问题,我们先假设:,H,0,:,吸烟与患肺癌没有关系,用,A表示不吸烟,,,B表示不患肺癌,,则“吸烟与患肺癌没有关系”独立,即假设,H,0,等价于P(AB)=P(A)P(B).,8

5、,3-8吸烟与患肺癌列联表(单位:人),不患肺癌,患肺癌,总计,不吸烟,a,b,a+b,吸烟,c,d,c+d,总计,a+c,b+d,a+b+c+d,把表3-7中的数字用字母代替,得到如下用字母表示的列联表,思考4:,(1)在表3-8中,事件AB发生的频数是什么?,(3)事件B发生的频数是什么?,(2)事件A发生的频数是什么?,(4)P(AB)、P(A)、P(B)分别是什么?它们之间有什么关系?,(5)|,ad,-,bc,|越小,说明什么问题?|,ad,-,bc,|越大,说明什么问题?,9,即(a+b+c+d)a=(a+b)(a+c),即,10,11,为使不同的样本容量的数据有统一的评判标准,基

6、于上面的分析,我们构造一个随机变量,其中,n=a+b+c+d,为样本容量.,思考5:,(2)K,2,越大,说明什么问题?,(1)K,2,越小,说明什么问题?,结论:若,H,0,成立,即“吸烟与患肺癌没有关系”,则K,2,应该很小,12,不患肺癌,患肺癌,总计,不吸烟,7 775,42,7 817,吸烟,2 099,49,2 148,总计,9 874,91,9 965,请根据表3-7中的数据,利用公式(1)计算K,2,的观测值,3-7吸烟与患肺癌列联表(单位:人),13,思考6:,这个值到底是大还是小,它能告诉我们什么呢?,(2)式说明,在,H,0,成立的情况下,K,2,的观测值超过 6.635

7、 的概率非常小,近似为0.01,所以K,2,6.635,是一个小概率事件,基本不发生,思考7:,(1)我们计算的K,2,的观测值k56.632,远远大于6.635,它发生的概率大不大?是不是一个小概率事件?,(2)你觉H,0,成立吗?,(3)你的判断会犯错误吗?犯错误的概率有多大?,(4)上述的方法相比于之前讲的两种方法,它有什么优势?,(5)你能总结上述检验方法及它的一般步骤吗?,14,(5)你能总结上述检验方法及它的一般步骤吗?,结论:,在上述过程中,实际上是借助于随机变量K,2,的观测值k建立了一个判断H,0,是否成立的规则:如果k 6.635,就判断H,0,不成立,即认为吸烟与患肺癌有

8、关系;否则,就判断H,0,成立,即认为吸烟与患肺癌没有关系在该规则下,把结论“H,0,成立”错判成“H,0,不成立”的概率不会超过0.01,即有99的把握认为不成立,一般步骤:,假设两个分类变量X与Y没有关系.计算出K,2,的观测值k.,判断,k,的值的大小,即,k,是不是一个小概率事件,从而确定X与Y有关的程度或无关系.,15,结论:这种判断两个分类变量是否有关系的方法称为“独立性检验”,1.定义:利用随机变量K,2,来判断“两个分类变量有关系”的方法称为独立性检验.,思考8:,独立性检验与反证法有何异同?,反证法,独立性检验,假设命题的结论不正确,假设H,0,:两个分类变量X,Y没有关系,

9、在假设的前提下,推出矛盾,在H,0,成立的条件下,得到一个小概率事件,所以假设不成立,原命题成立,所以H,0,不成立,即两个分类变量X,Y有关系,16,2.独立性检验的一般步骤,假设两个分类变量X与Y没有关系.,计算出K,2,的观测值k.,判断,k,的值的大小,即,k,是不是一个小概率事件,从而确定X与Y有关的程度或无关系.,17,问题1:如何判断K,2,的观测值k是大还是小呢?,这仅需确定一个正数k,0,,当k,k,0,时就认为K,2,的观测值k大此时相应于的判断规则为:如果k,k,0,,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.,我们称这样的k,0,为一个判

10、断规则的临界值按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率为P(K,2,k,0,).,在实际应用中,我们把k,k,0,解释为有(1-P(K,2,k,0,)100%的把握认为“两个分类变量之间有关系”;把kk,0,解释为不能以(1-P(K,2,k,0,)100%的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据,18,0.50,0.40,0.25,0.15,0.10,0.05,0.025,0.010,0.005,0.001,0.455,0.708,1.323,2.072,2.706,3.841,5.024

11、,6.635,7.879,10.828,19,问题2:如何用独立性检验的方法来检验两个分类变量X和Y是否有关系呢?,一般地,假设有两个分类变量X和Y,它们的可能取值分别为x,1,,x,2,和y,1,,y,2,,其样本频数列联表(称为22列联表)为:,表3-9 22列联表,y,1,y,2,总计,x,1,a,b,a+b,x,2,c,d,c+d,总计,a+c,b+d,a+b+c+d,若要推断的论述为H,l,:X与Y有关系,可以按如下步骤判断结论H,l,成立的可能性:,20,若要推断的论述为H,l,:X与Y有关系,可以按如下步骤判断结论H,l,成立的可能性:,1计算满足条件X=x,1,的个体中具有Y=

12、y,1,的个体所占,的比例 和满足条件X=x,2,的个体中具有Y=y,2,的个,体所占的比例 .两个比例的值相差越大,H,1,成,立的可能性就越大,也可以通过画出等高条形图,粗略地判断两个分类变量是否有关系,但是以上两种判断无法精确地给出所得结论的可靠程度,2可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度具体做法是:,21,(3)如果k,k,0,,就以(1-P(K,2,k,0,)100%的把握认为“X与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系”的充分证据,根据实际问题需要确定容许推断“两个分类变量有关系”犯错误的上界 ,然后查表3-11确定临

13、界值 ;,0.50,0.40,0.25,0.15,0.10,0.05,0.025,0.010,0.005,0.001,0.455,0.708,1.323,2.072,2.706,3.841,5.024,6.635,7.879,10.828,表3-11 临界值表,22,例1、在某医院,因为患心脏病而住院的665名男性病人中,有214人秃顶,而另外772名不是因为患心脏病而住院的男性病人中有175人秃顶.(1)利用图形判断秃顶与患心脏病是否有关系;(2)能否在犯错误的概率不超过0.01的前提下认为秃顶与患心脏病有关系?,例题解析:,思考:根据临界值表,在犯错误的概率不超过0.01的前提下,取的临界

14、值是什么?,23,患心脏病,患其他病,总计,秃顶,214,175,389,不秃顶,451,597,1 048,总计,665,772,1 437,(1)相应的等高条形图如下所示,,秃顶,不秃顶,不患心脏病,患心脏病,解:,根据题目所给数据得到如下列联表:,由图可认为秃顶与患心脏病有关系,24,因此,在犯错误的概率不超过0.01的前提下,认为秃顶与患心脏病有关系.,(2)根据列联表中的数据,得到,注意:在熟悉了独立性检验的基本原理后,我们在判断两个分类变量是否有关时,可以直接算出的观测值(不画等高条形图)来解决两个分类变量的独立性检验问题。但是,借助于图形可以更直观地向非专业人士解释所得到的统计分

15、析结果。,25,26,27,练习2、在研究某种新药对小白兔的防治效果时,得到下表数据:,存活数,死亡数,总计,未用新药,101,38,139,用新药,129,20,149,总计,230,58,288,试分析新药对防治小白兔是否有效?,有99.5%的把握判定新药对防治小白兔是有效的.,解:,28,练习3、,打鼾不仅影响别人休息,而且可能与患某种疾病有关,下表是一次调查所得的数据,试问:每一晚都打鼾与患心脏病有关吗?,患心脏病,未患心脏病,总计,每一晚都打鼾,30,224,254,不打鼾,24,1355,1379,总计,54,1579,1633,练习4:书P97练习,29,独立性检验的一般步骤:,(1)假设两个分类变量X与Y没有关系;,(2)计算出K,2,的观测值k;,(3)把k的值与临界值比较确定X与Y有关的程度或,无关系.,请你能说出独立性检验的一般步骤。,30,作业:书P97 习题3.2 第1、2题,31,

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
搜索标签

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服