1、3.2 独立性检验的基本思想及其初步应用独立性检验的基本思想及其初步应用11上上节节学学习习了了回回归归分分析析的的基基本本方方法法线线性性回回归归模模型型ybxae不不同同于于一一次次函函数数ybxa,含含有有_,其其中中x为为_,y为为_复复习习样本点的中心样本点的中心随机随机误误差差e解解释变释变量量预报变预报变量量残差平方和残差平方和23相关指数:(1)在含有一个解释变量的线性模型中,R2恰好等于相关系数r的平方.(2)R2取值越大(越接近1),则残差平方和越小,即模型的拟合效果越好.(实际上就是:|r|越大,则|e|越小)其中:4.3新新课课4独立性检验独立性检验本节研究的是两个分类
2、变量的独立性检验问题。在日常生活中,我们常常关心在日常生活中,我们常常关心分类变量之间是否有关系分类变量之间是否有关系:例如,吸烟是否与患肺癌有关系?例如,吸烟是否与患肺癌有关系?性别是否对于喜欢数学课程有影响等等性别是否对于喜欢数学课程有影响等等?5 吸烟与肺癌列联表吸烟与肺癌列联表不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟77757775424278177817吸烟吸烟20992099494921482148总计总计98749874919199659965为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了地调查了99659965人,得
3、到如下结果(单位:人)人,得到如下结果(单位:人)列联表列联表在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大。肺癌的可能性大。0.54%0.54%2.28%2.28%探究探究6不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟7775427817吸烟吸烟2099492148总计总计98749199651、列联表、列联表2、三维柱形图、三维柱形图3、二维条形图、二维条形图不患肺癌不患肺癌患肺癌患肺癌吸烟吸烟不吸烟不吸烟不
4、患肺癌不患肺癌患肺癌患肺癌吸烟吸烟不吸烟不吸烟080007000600050004000300020001000从三维柱形图能清晰看出从三维柱形图能清晰看出各个频数的相对大小。各个频数的相对大小。从二维条形图能看出,吸烟者中从二维条形图能看出,吸烟者中患肺癌的比例高于不患肺癌的比例。患肺癌的比例高于不患肺癌的比例。通过图形直观判断两个分类变量是否相关:通过图形直观判断两个分类变量是否相关:7不吸烟不吸烟吸烟吸烟患肺癌比例不患肺癌比例4、等高条形图等高条形图更清晰地表达了两种情况下患肺癌的比例。8某企业为了考察同一种产品在甲、乙两条生产线的某企业为了考察同一种产品在甲、乙两条生产线的产品合格率,
5、同时各抽取产品合格率,同时各抽取100件产品,其中甲线中合件产品,其中甲线中合格产品的个数为格产品的个数为97,乙线中合格产品的个数为,乙线中合格产品的个数为95。请做出列联表,三维柱形图与二维条形图。请做出列联表,三维柱形图与二维条形图。9合格不合格总计甲生产线973100乙生产线955100总计19282001011l122列联表是传统的调查研究中最常用的方法之一,用于研究两个变量之间相互独立还是存在某种关联性,它适用于分析两个变量之间的关系l2在实际问题中,判断两个分类变量的关系的可靠性时,一般利用随机变量K2来确定,而不利用三维柱形图和二维条形图12l练习:1.下面是一个22列联表l则
6、表中a、b处的值分别为()lA94、96 B52、50lC52、59 D54、52l答案Cy1y2合计x1a2173x272027合计b4110013l2用K2统计量进行独立性检验时,使用的表称为_,要求表中的四个数据_l答案22列联表均大于514l某学校对学生课外活动内容进行调查,结果整理成下表:l利用图形判断学生课外活动的类别与性别是否有关系?体育文娱总计男生212344女生62935总计27527915l解析某等高条形图如图所示l由图可以直观地看出喜欢体育还是喜欢文娱在性别上有较大差异,说明课外活动的类别与性别在某种程度上有关系16 上上面面我我们们通通过过分分析析数数据据和和图图形形,
7、得得到到的的直直观观印印象象是是吸吸烟烟和和患患肺肺癌癌有有关关,那那么么事事实实是是否否真真的的如如此此呢呢?这这需需要要用用统统计计观观点点来考察这个问题。来考察这个问题。现在想要知道能够以多大的把握认为现在想要知道能够以多大的把握认为“吸烟与患肺癌有关吸烟与患肺癌有关”,为此先假设为此先假设 H0:吸烟与患肺癌没有关系:吸烟与患肺癌没有关系.不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d把表中的数字用字母代替,得到如下用字母表示的列联表把表中的数字用字母代替,得到如下用字母表示的列联表 用用A表示不吸烟,表示不吸烟,B表示不
8、患肺癌,则表示不患肺癌,则“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”等价于等价于“吸烟与患肺癌独立吸烟与患肺癌独立”,即假设,即假设H0等价于等价于 P(AB)=P(A)P(B).17因此因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱;越小,说明吸烟与患肺癌之间关系越弱;|ad-bc|越大,说明吸烟与患肺癌之间关系越强。越大,说明吸烟与患肺癌之间关系越强。不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d在表中,在表中,a恰好为事件恰好为事件AB发生的频数;发生的频数;a+b和和a+c恰好分别为事恰好分别为事件件A和和B发生的
9、频数。由于频率接近于概率,所以在发生的频数。由于频率接近于概率,所以在H0成立的条成立的条件下应该有件下应该有18 为为了了使使不不同同样样本本容容量量的的数数据据有有统统一一的的评评判判标标准准,基基于于上上述述分分析,我们构造一个随机变量析,我们构造一个随机变量-卡方统计量卡方统计量(1)若若 H0成立,即成立,即“吸烟与患肺癌没有关系吸烟与患肺癌没有关系”,则,则K2应很小。应很小。根据表根据表3-7中的数据,利用公式(中的数据,利用公式(1)计算得到)计算得到K2的观测值为:的观测值为:那么这个值到底能告诉我们什么呢?那么这个值到底能告诉我们什么呢?(2)独立性检验独立性检验19在在H
10、0成立的情况下,统计学家估算出如下的概率成立的情况下,统计学家估算出如下的概率 即即在在H0成成立立的的情情况况下下,K2的的值值大大于于6.635的的概概率率非非常常小小,近近似似于于0.01。也也就就是是说说,在在H0成成立立的的情情况况下下,对对随随机机变变量量K2进进行行多多次次观观测,观测值超过测,观测值超过6.635的频率约为的频率约为0.01。思考 答:判断出错的概率为0.0120判断判断 是否成立的规则是否成立的规则如果如果 ,就判断,就判断 不成立,即认为吸烟与不成立,即认为吸烟与患肺癌有关系;否则,就判断患肺癌有关系;否则,就判断 成立,即认为吸烟成立,即认为吸烟与患肺癌有
11、关系。与患肺癌有关系。独立性检验的定义独立性检验的定义 上面这种利用随机变量上面这种利用随机变量K2来确定在多大程度上来确定在多大程度上可以认为可以认为“两个分类变量有关系两个分类变量有关系”的方法,称为两的方法,称为两个分类变量的个分类变量的独立性检验独立性检验。在该规则下,把结论在该规则下,把结论“成立成立”错判成错判成“不不成立成立”的概率不会差过的概率不会差过即有即有99%的把握认为的把握认为 不成立。不成立。21独立性检验的基本思想(类似独立性检验的基本思想(类似反证法反证法)(1)(1)假设结论不成立假设结论不成立,即即 “两个分类变量没有关系两个分类变量没有关系”.(2)(2)在
12、此假设下我们所构造的随机变量在此假设下我们所构造的随机变量 K K2 2 应该很小应该很小,如果由如果由观测数据计算得到观测数据计算得到K K2 2的观测值的观测值k k很大很大,则在一定可信程度上则在一定可信程度上说明说明 不成立不成立.即在一定可信程度上认为即在一定可信程度上认为“两个分类变量有两个分类变量有关系关系”;如果;如果k k的值很小,则说明由样本观测数据没有发现反的值很小,则说明由样本观测数据没有发现反对对 的充分证据。的充分证据。(3)(3)根据随机变量根据随机变量K K2 2的含义的含义,可以通过评价该假设不合理的程可以通过评价该假设不合理的程度度,由实际计算出的由实际计算
13、出的,说明假设合理的程度为说明假设合理的程度为99%,99%,即即“两个两个分类变量有关系分类变量有关系”这一结论成立的可信度为约为这一结论成立的可信度为约为99%.99%.22在实际应用中,要在获取样本数据之前通过下表确定临界值:在实际应用中,要在获取样本数据之前通过下表确定临界值:0.500.400.250.150.100.455 0.7081.3232.0722.7060.050.0250.0100.0050.0013.841 5.0246.6367.87910.828具体作法是:具体作法是:(1)根据实际问题需要的可信程度确定临界值根据实际问题需要的可信程度确定临界值 ;(2)利用公式
14、利用公式(1),由观测数据计算得到随机变量,由观测数据计算得到随机变量 的观测值;的观测值;(3)如果如果 ,就以,就以 的把握认为的把握认为“X与与Y有关系有关系”;否则就说样本观测数据没有提供;否则就说样本观测数据没有提供“X与与Y有关系有关系”的充分证据。的充分证据。230.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.82824上面这种利用随机变量上面这种利用随机变量K2来确定在多大程度上来确定在多大程度上可以认为可以认为”两个分类变量有关系两个分类变量
15、有关系”的方法称为两个的方法称为两个分类变量的分类变量的独立性检验独立性检验独立性检验的基本思想类似于数学上的反证法独立性检验的基本思想类似于数学上的反证法.要确认要确认”两个分类变量有关系两个分类变量有关系”这一结论成立这一结论成立的可信程度的可信程度,首先假设该结论不成立首先假设该结论不成立,即假设结即假设结论论”两个分类变量没有关系两个分类变量没有关系”成立成立.在该假设下在该假设下我们构造的随机变量我们构造的随机变量K2应该很小应该很小,如果由观测数如果由观测数据计算得到的据计算得到的K2的观测值的观测值k很大很大,则在一定程度则在一定程度上说明假设不合理上说明假设不合理.25总计总计
16、aba+bcdc+d总计总计a+cb+da+b+c+d若要推断的结论为若要推断的结论为H1:”X与与Y有关系有关系”,可如下操作可如下操作:1.通过三维柱形图和二维条形图通过三维柱形图和二维条形图,可以粗略地判断两个可以粗略地判断两个 变量是否有关系变量是否有关系,但是这种判断不精确但是这种判断不精确.262024/2/29 周四27总计总计aba+bcdc+d总计总计a+cb+da+b+c+d不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d主对角线主对角线副对角线副对角线(1)在三维柱形图中在三维柱形图中,主对角线上两个柱形高度的
17、乘积主对角线上两个柱形高度的乘积ad与与 副对角线上两个柱形高度的乘积副对角线上两个柱形高度的乘积bc相差越大相差越大,H1成立的成立的 可能性就越大可能性就越大282.利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度.具体做法是:根据观测数据计算由给出的随机变量K2的值k,其值越大,说明”X与Y有关系”成立的可能性越大.当得到的观测数据a,b,c,d都不小于5时,可以通过查表来断言”X与Y有关系”的可信程度29分类变量和列联表分类变量和列联表(1)分类变量分类变量变量的不同变量的不同“值值”表示个体所属的表示个体所属的_,像这样的变,像这样的变量称为分类变量量
18、称为分类变量(2)列联表列联表定义:列出的两个分类变量的定义:列出的两个分类变量的_,称为列联表,称为列联表22列联表列联表一般地,假设两个分类变量一般地,假设两个分类变量X和和Y,它们的取值分别为,它们的取值分别为x1,x2和和y1,y2,其样本频数列联表,其样本频数列联表(称称22列联表列联表)为为自学导引自学导引1不同不同类别类别频频数表数表30y1y2总计总计x1ababx2cdcd总计总计acbdabcd想一想想一想:如何理解分类变量如何理解分类变量?提示提示(1)这里的这里的“变量变量”和和“值值”都应作为都应作为“广义广义”的变量和值的变量和值来理解例如:对于性别变量,其取值有来
19、理解例如:对于性别变量,其取值有“男男”和和“女女”两种,两种,这里的这里的“变量变量”指的是指的是“性别性别”,这里的,这里的“值值”指的是指的是“男男”或或“女女”因此,这里说的因此,这里说的“变量变量”和和“值值”不一定是取具体的数不一定是取具体的数值值(2)分类变量是大量存在的例如:吸烟变量有吸烟与不吸分类变量是大量存在的例如:吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别烟两种类别,而国籍变量则有多种类别31独立性检验独立性检验2定定义义利用随机利用随机变变量量K2来判断来判断“两个分两个分类变类变量有关系量有关系”的方法的方法称称为为独立性独立性检验检验公式公式K2_其中其
20、中n_具体具体步步骤骤根据根据实际问题实际问题的需要,确定容的需要,确定容许许推断推断“两个分两个分类变类变量量有关系有关系”犯犯错误错误概率的上界概率的上界.然后然后查查表确定表确定_利用公式利用公式计计算随机算随机变变量量K2的的_如果如果_,就推断,就推断“X与与Y有关系有关系”,这这种推断种推断_不超不超过过,否,否则则就就认为认为在犯在犯错误错误的概率不的概率不超超过过的前提下不能推断的前提下不能推断“X与与Y有关系有关系”,或者在,或者在样样本本数据中数据中_支持支持结论结论“X与与Y有关系有关系”abcd临临界界值值k0观测值观测值k犯犯错误错误的概率的概率没有没有发现发现足足够
21、证够证据据kk032独立性检验临界值表独立性检验临界值表P P(K K2 2k0)0.500.400.250.150.100.050.0250.010 0.0050.001k00.4550.7081.3232.0722.7063.8415.0246.635 7.879 10.828想一想想一想:在在K2运算时,在判断变量相关时,若运算时,在判断变量相关时,若K2的观测值的观测值k56.632,则,则P(K26.635)0.01和和P(K210.828)0.001,哪种说法是正确的?哪种说法是正确的?提示提示两种说法均正确两种说法均正确P(K26.635)0.01的含义是在犯错误的概率不超过的含
22、义是在犯错误的概率不超过0.01的的前提下,认为两变量相关;前提下,认为两变量相关;而而P(K210.828)0.001的含义是在犯错误的概率不超过的含义是在犯错误的概率不超过0.001的前提下,认为两变量相关的前提下,认为两变量相关3.33题型一题型一有关有关“相关的检验相关的检验”某校某校对对学生学生课课外活外活动进动进行行调查调查,结结果整理成下表:果整理成下表:试试用你所学用你所学过过的知的知识进识进行分析,能否在犯行分析,能否在犯错误错误的概率不的概率不超超过过0.005的前提下,的前提下,认为认为“喜喜欢欢体育体育还还是文是文娱娱与性与性别别有有关系关系”?【例例1】体育体育文文娱
23、娱总计总计男生男生212344女生女生62935总计总计27527934思路探索思路探索 可用数据计算可用数据计算K2,再确定其中的具体关系,再确定其中的具体关系解解判断方法如下:判断方法如下:假假设设H0“喜喜欢欢体育体育还还是喜是喜欢欢文文娱娱与性与性别别没有关系没有关系”,若,若H0成成立,立,则则K2应该应该很小很小a21,b23,c6,d29,n79,且且P(K27.879)0.005即我即我们们得到的得到的K2的的观测值观测值k8.106超超过过7.879,这这就意味着:就意味着:“喜喜欢欢体育体育还还是文是文娱娱与性与性别别没有关系没有关系”这这一一结论结论成立的可能性小于成立的
24、可能性小于0.005,即在犯,即在犯错误错误的概率不超的概率不超过过0.005的前提下的前提下认为认为“喜喜欢欢体育体育还还是喜是喜欢欢文文娱娱与性与性别别有关有关”3536为为研究学生的数学成研究学生的数学成绩绩与与对对学学习习数学的数学的兴兴趣是否有趣是否有关,关,对对某年某年级级学生作学生作调查调查得到如下数据:得到如下数据:【变式变式1】成成绩优绩优秀秀成成绩较绩较差差总计总计兴兴趣趣浓浓厚的厚的643094 兴兴趣不趣不浓浓厚的厚的227395总计总计86103189判断学生的数学成判断学生的数学成绩绩好坏与好坏与对对学学习习数学的数学的兴兴趣是否有关?趣是否有关?3738 为为了探
25、究学生了探究学生选报选报文、理科是否与文、理科是否与对对外外语语的的兴兴趣有关,趣有关,某同学某同学调查调查了了361名高二在校学生,名高二在校学生,调查结调查结果如下:理科果如下:理科对对外外语语有有兴兴趣的有趣的有138人,无人,无兴兴趣的有趣的有98人,文科人,文科对对外外语语有有兴兴趣的有趣的有73人,无人,无兴兴趣的有趣的有52人人试试分析学生分析学生选报选报文、文、理科与理科与对对外外语语的的兴兴趣是否有关?趣是否有关?思路探索思路探索 要在选报文、理科与对外语有无兴趣之间有无要在选报文、理科与对外语有无兴趣之间有无关系作出判断,可以运用独立性检验的方法进行判断关系作出判断,可以运
26、用独立性检验的方法进行判断题型题型二二有关有关“无关的检验无关的检验”【例例2】39解解列出列出22列联表列联表理理文文总计总计有有兴兴趣趣13873211无无兴兴趣趣9852150总计总计236125361规律方法规律方法运用独立性检验的方法:运用独立性检验的方法:(1)列出列出22列联表,根据公式计算列联表,根据公式计算K2的观测值的观测值k.(2)比较比较k与与k0的大小作出结论的大小作出结论40某教育机构某教育机构为为了研究人具有大学了研究人具有大学专专科以上学科以上学历历(包包括大学括大学专专科科)和和对对待教育改革待教育改革态态度的关系,随机抽取了度的关系,随机抽取了392名成年人
27、名成年人进进行行调查调查,所得数据如下表所示:,所得数据如下表所示:【变式变式2】支持教育支持教育 改革情况改革情况学学历历积积极支持极支持教育改革教育改革不太不太赞赞成成教育改革教育改革总计总计大学大学专专科以上学科以上学历历39157196大学大学专专科以下学科以下学历历29167196总计总计68324392对对于教育机构的研究于教育机构的研究项项目,根据上述数据能得出什么目,根据上述数据能得出什么结论结论4142 某企某企业业有两个分厂生有两个分厂生产产某种零件,按某种零件,按规规定内径尺寸定内径尺寸(单单位:位:mm)的的值值落在落在(29.94,30.06)的零件的零件为优质为优质
28、品从两品从两个分厂生个分厂生产产的零件中各抽出的零件中各抽出500件,量其内径尺寸,件,量其内径尺寸,结结果果如下表:如下表:甲厂甲厂 题型题型三三独立性检验的基本思想独立性检验的基本思想【例例3】分分组组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频频数数1263861829261443乙厂乙厂分分组组29.86,29.90)29.90,29.94)29.94,29.98)29.98,30.02)30.02,30.06)30.06,30.10)30.10,30.14)频
29、频数数297185159766218(1)试试分分别别估估计计两个分厂生两个分厂生产产的零件的的零件的优质优质品率;品率;(2)由以上由以上统计统计数据填下面数据填下面22列列联联表,并表,并问问是否有是否有99%的的把握把握认为认为“两个分厂生两个分厂生产产的零件的的零件的质质量有差异量有差异”.甲厂甲厂乙厂乙厂总计总计优质优质品品非非优质优质品品总总计计44P(K2k0)0.050.01k03.8416.635审题指导审题指导 (1)分别计算甲、乙两厂优质品的频数与分别计算甲、乙两厂优质品的频数与500的的比值即为所求比值即为所求(2)根据已知数据填充根据已知数据填充22列联表,进行独立性
30、检验列联表,进行独立性检验45(2)甲厂甲厂乙厂乙厂总计总计优质优质品品360320680非非优质优质品品140180320总计总计5005001 000(8分分)4647下表是某地区的一种下表是某地区的一种传传染病与染病与饮饮用水的用水的调查调查表:表:【变式变式3】得病得病不得病不得病总计总计干干净净水水52466518不干不干净净水水94218312总计总计146684830(1)这这种种传传染病是否与染病是否与饮饮用水的用水的卫卫生程度有关,生程度有关,请说请说明理明理由;由;(2)若若饮饮用干用干净净水得病水得病5人,不得病人,不得病50人,人,饮饮用不干用不干净净水得水得病病9人,
31、不得病人,不得病22人按此人按此样样本数据分析本数据分析这这种疾病是否与种疾病是否与饮饮用水有关,并比用水有关,并比较较两种两种样样本在反映本在反映总总体体时时的差异的差异48得病得病不得病不得病总计总计干干净净水水55055不干不干净净水水92231总计总计14728649由于由于5.7855.024所以我所以我们们有有97.5%的把握的把握认为该认为该种疾病与种疾病与饮饮用不干用不干净净水有水有关关两个两个样样本都能本都能统计统计得到得到传传染病与染病与饮饮用不干用不干净净水有关水有关这这一相一相同同结论结论,但,但(1)中我中我们们有有99.9%的把握肯定的把握肯定结论结论的正确性,的正确性,(2)中我中我们们只有只有97.5%的把握肯定的把握肯定50例例1.在研究某种新药对小白兔的防治效果时在研究某种新药对小白兔的防治效果时,得到下表得到下表数据数据:存活数存活数死亡数死亡数总计总计未用新药未用新药10138139用新药用新药12920149总计总计23058288试分析新药对防治小白兔是否有效试分析新药对防治小白兔是否有效?99.5%的把握判定新药对防治小白兔是有效的的把握判定新药对防治小白兔是有效的.512024/2/29 周四52