1、3.2,独立性检验的基本思想及其初步应用,高二数学 选修,2-3,第三章 统计案例,1.,掌握利用,2,2,列联表进行独立性检验,会用,2,2,列联表解决实际问题,.,(重点),2.,了解独立性检验的基本思想及实施步骤,.,(重点),3.,掌握独立性检验的简单应用,(难点),独立性检验,本节研究的是,两个分类变量的独立性检验问题,。,在日常生活中,我们常常关心,分类变量之间是否有关系,:,例如,吸烟是否与患肺癌有关系?,性别是否对于喜欢数学课程有影响?等等。,探究点,1,独立性检验,为了调查吸烟与患肺癌是否有联系,某机构随机调,查了,6 578,人,得到表中的数据(单位:人),患肺癌,不患肺癌
2、吸烟,56,1 932,不吸烟,23,4 567,2,2,列联表,这一问题称为,2,2,列联表的独立性检验,.,患肺癌情况,吸烟情况,吸烟有害健康!,正常人的肺,吸烟者的肺,思考:,如何根据表格中的数据来判断吸烟与患肺癌是否有联系?,为了讨论的方便,我们引入以下记号:,变量,A,:,A,1,=,吸烟,,变量,B,:,B,1,=,患肺癌,,计算得如下表格:,患肺癌,B,1,未患肺癌,B,2,总计,吸烟,A,1,56,1 932,1 988,不吸烟,A,2,23,4 567,4 590,总计,79,6 499,6 578,我们假设吸烟与患肺癌是独立的,即吸烟不影响患肺癌,.,根据直观的经验,我们
3、把吸烟人群中患肺癌的人所占百分比,与不吸烟人群中患肺癌的人所占百分比作比较,.,如果吸烟不影响患肺癌,就意味着,无论吸烟与否,患肺癌的人所占的百分比应该是基本一样的,就此题而言:,患肺癌情况,吸烟情况,吸烟人群中患肺癌的人所占百分比是:,不吸烟人群中患肺癌的人所占百分比是:,很明显二者不相等,而且相差很大,.,所以推断假设不成立,.,由结果我们可以认为吸烟会对肺癌的发病率造成一定的,影响,.,另一方面,如果吸烟,A,1,与患肺癌,B,1,是独立的,那么有,都成立,由上表数据可得:,患肺癌情况,吸烟情况,既吸烟又患肺癌的人频率为:,吸烟的人频率为:,患肺癌的人频率为:,显然,,两边相差很大,可以
4、估计,结论:,患肺癌与吸烟有关,.,设,A,B,为两个变量,每个变量都可取两个值,,变量,A,:,变量,B,:,,,=,;,,,=,.,【,概括总结,】,B,A,B,1,B,2,总计,A,1,a,b,_,A,2,c,d,c+d,总计,a+c,_,n=_,a+b,a+b+c+d,b+d,设,,用 估计 ,,估计 ,估计,.,若有式子,,,则可认为 与 独立,.,同理,若 则可认为,A,1,与,B,2,独立;若,则可认为,A,2,与,B,1,独立;若,则可认为,A,2,与,B,2,独立,.,在 中,,由于 ,表,示的是频率,不同于概率,即使变量之间独立,式子两,边也不一定恰好相等,但是当两边相差很
5、大时,变量,之间就不独立,.,在上面吸烟是否对患肺癌有影响的问题中,探究点,2,独立性检验的基本思想,当上面的值较大时,变量,A,B,不独立,.,思考,:,当这些量多大时才能说明变量间不独立呢?我们能不能选择一个量,用它的大小来检验变量之间是否独立呢?,统计学家选取以下统计量,用它的大小来检验变量之间是否独立:,当,较大,时,说明,变量之间,不独立,.,关系性越强,随机变量,-,卡方统计量,独立性检验,0.50,0.40,0.25,0.15,0.10,0.05,0.025,0.010,0.005,0.001,0.455,0.708,1.323,2.072,2.706,3.841,5.024,6
6、635,7.879,10.828,临界值表,0.1%,把握认为,A,与,B,无关,1%,把握认为,A,与,B,无关,99.9%,把握认,A,与,B,有关,99%,把握认为,A,与,B,有关,90%,把握认为,A,与,B,有关,10%,把握认为,A,与,B,无关,没有充分的依据显示,A,与,B,有关,但也不能显示,A,与,B,无关,患肺癌,B,1,未患肺癌,B,2,总计,吸烟,A,1,56,1932,1988,不吸烟,A,2,23,4567,4590,总计,79,6499,6578,对于吸烟和患肺癌的问题,所以有,99%,以上的把握认为吸烟与患肺癌是有关的,.,患肺癌情况,吸烟情况,参加体育锻
7、炼情况,性别,喜欢参加,体育锻炼,不喜欢参加体育锻炼,男,197,48,女,135,120,例,1,为了了解高中生是否喜欢参加体育锻炼与性别之间,的关系,调查者随机调查了,500,名高中生的情况,,调查结果如下,(单位:人):,试问:,高中生是否喜欢参加体育锻炼与性别之间有关系吗,?,解:,根据表中的数据得,a,=197,b=48,c=135,d=120,所以有,99%,以上的把握认为,高中生是否喜欢参加体育锻炼与性别之间是,有关的,.,例,2.,容易生气的人更有可能患心脏病吗?某机构随机,调查了,2 796,人,下表给出了调查的结果(单位:人):,患心脏病,未患心脏病,易怒,27,606,不
8、易怒,53,2 110,试问:容易生气的人是否更有可能患心脏病?,患心脏病情况,是否易怒,解:,根据题中的数据计算得下表,(单位:人):,患心脏病,未患心脏病,总计,易怒,27,606,633,不易怒,53,2 110,2 163,总计,80,2 716,2 796,所以有,95%,以上的把握认为患心脏病与易怒有关,.,患心脏病情况,是否易怒,眼睛虹膜颜色,头发颜色,蓝色,棕色,红,金黄色,156,12,黑色,20,24,例,3.,生物学上对于人类头发的颜色与眼睛虹膜的颜色是否有关进行了调研,以下是一次调查结果,调查人数共,212,人,调查记录如表,(单位:人):,试问:头发的颜色与眼睛虹膜的
9、颜色有关吗?,解:,根据表中的数据计算得下表,(单位:人):,眼睛虹膜颜色,头发颜色,蓝色,棕色,总计,红,金黄色,156,12,168,黑色,20,24,44,总计,176,36,n=212,因为,55.5766.635,所以有,99%,以上的把握认为,头发的颜色与眼睛虹膜的颜色有关,.,临界值表,P(,k,k,0,),0.50,0.40,0.25,0.15,0.10,0.05,0.025,0.010,0.005,0.001,k,0,0.455,0.708,1.323,2.072,2.706,3.841,5.024,6.635,7.879,10.828,独立性检验,为了使不同样本容量的数据有
10、统一的评判标准,基于上述分析,我们构造一个随机变量,-,卡方统计量,第一步,:,H,0,:性别与喜欢数学课之间没有关系,第二步,:,列联表,第三步:计算,K,2,的值,-,观测值,k,第四步:查临界值表,第五步:下结论,在对人们的休闲方式的一次调查中,共调查了,124,人,其中女性,70,人,男性,54,人,.,女性中有,43,人主要的休闲方式是看电视,另外,27,人主要的休闲方式是运动;男性中有,21,人主要的休闲方式是看电视,另外,33,人主要的休闲方式是运动,.,(,1,)根据以上数据建立一个,2,2,列联表,;,(,2,)判断性别与休闲方式是否有关系,.,【,变式练习,】,看电视,运动
11、总计,女,43,27,70,男,21,33,54,总计,64,60,124,解:,根据题中的数据计算得下表,因为,,所以有理由认为假设,“,休闲方式与性别无关,”,是不合理的,即有,97.5%,的把握认为,“,休闲方式与性别有关,”,.,休闲方式,性别,1.,下面是一个,2,2,列联表:,则表中,a,,,b,的值分别为,(,),A,94,,,96,B,52,,,50,C,52,,,54 D,54,,,52,y,1,y,2,总计,x,1,a,21,73,x,2,2,25,27,总计,b,46,n,C,x,y,2.,分类变量,X,和,Y,的列联表如下,则,(),解,:,由 的计算公式可知,,(,
12、a,d-bc),2,越大,则 越大,故相关关系越强,.,C,A.,a,d-,bc,越小,说明,X,与,Y,的关系越弱,B.,a,d-,bc,越大,说明,X,与,Y,的关系越强,C.(,a,d-bc),2,越大,说明,X,与,Y,的关系越强,D.(,a,d-bc),2,越接近于,0,,说明,X,与,Y,的关系越强,X,1,Y,1,X,2,Y,1,X,Y,3.,若由一个,2,2,列联表中的数据计算得 ,4.013,那么有,_,的把握认为两个变量有关联,解:,因为,=4.0133.841.,所以有,95%,的把握判定两个变量有关联,.,95%,5.,气管炎是一种常见的呼吸道疾病,医药研究人员对两种中
13、草药治疗慢性气管炎的疗效进行对比,所得数据如表所示问它们的疗效有无差异(可靠性不低于,99%,)?,有效,无效,总计,复方江剪刀草,184,61,245,胆黄片,91,9,100,总计,275,70,345,解:,根据表中的数据计算得,所以我们有,99%,以上的把握认为,:两种药物的疗效有差异,.,6.635,B,A,B,1,B,2,总计,A,1,a,b,a+b,A,2,c,d,c+d,总计,a,+c,b+d,n=,a,+b+c+d,根据,2,2,列联表中的数据,来判断两个变量,A,B,是否独立的问题,1.2,2,列联表的定义,变量,A,:,A,1,;,变量,B:B,1,用如下数据,:,2.,统计量 的计算公式,3.,独立性检验判断方法,=,






