1、1.2 独立性检验的基本思想及其初步应用第1课时1vv分类变量:分类变量:vv 变量的不同变量的不同“值值”表示个体所属的不同类表示个体所属的不同类别,像这样的变量称为别,像这样的变量称为分类变量分类变量。2为调查吸烟是否对患肺有影响,某种瘤研究所随为调查吸烟是否对患肺有影响,某种瘤研究所随机地调查了机地调查了99659965人,得到如下结果(单位:人)人,得到如下结果(单位:人)表1-7 吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟7775427817吸烟2099492148总计9874919965那么吸烟是否对患肺癌有影响?那么吸烟是否对患肺癌有影响?像表像表1-7这样列出的两个分类变量这样列
2、出的两个分类变量的频数表,称为的频数表,称为列联表列联表。结论:结论:吸烟群体和不吸烟群体患肺癌的可吸烟群体和不吸烟群体患肺癌的可能性存在差异,能性存在差异,吸烟者患肺癌的可能性大。吸烟者患肺癌的可能性大。0.02280.0054在不吸烟者中患肺癌的比重是在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是在吸烟者中患肺癌的比重是 3等高条形图等高条形图不患病不患病比例比例患病患病比例比例结论:结论:吸烟更容易引发肺癌吸烟更容易引发肺癌4表表表表1-9 1-9 1-9 1-9 吸烟与肺癌联列表吸烟与肺癌联列表吸烟与肺癌联列表吸烟与肺癌联列表不患肺癌不患肺癌不患肺癌不患肺癌患肺癌患肺癌患肺癌患肺
3、癌总计总计总计总计不吸烟不吸烟不吸烟不吸烟a ab b b ba a+b+b+b+b吸烟吸烟吸烟吸烟c c c cd d d dc+dc+dc+dc+d总计总计总计总计a a+c+c+c+cb+db+db+db+da a+b+c+d+b+c+d+b+c+d+b+c+d结论是否可靠?结论是否可靠?假设吸烟与患肺癌没有关系假设吸烟与患肺癌没有关系越小,说明吸烟与患肺癌之间的关系越弱。越小,说明吸烟与患肺癌之间的关系越弱。(没有关系的可能性大)(没有关系的可能性大)越大,说明吸烟与患肺癌之间的关系越强。越大,说明吸烟与患肺癌之间的关系越强。5随机变量(卡方统计量):随机变量(卡方统计量):作用:作用
4、:检验两个变量有关系的标准检验两个变量有关系的标准6卡方临界值表:卡方临界值表:0.500.400.250.150.100.050.0250.0100.0050.0010.4450.7081.3232.0722.7063.8415.0246.6357.87910.828K K2 2的观测值为的观测值为k如果如果如果如果 ,就以,就以,就以,就以 的把握的把握的把握的把握认为认为认为认为“X X与与与与Y Y有关系有关系有关系有关系”;而这种判断有可能出错,出;而这种判断有可能出错,出;而这种判断有可能出错,出;而这种判断有可能出错,出错的概率不会超过错的概率不会超过错的概率不会超过错的概率不会
5、超过 。78独立性检验的定义独立性检验的定义 利用随机变量利用随机变量 来判断两个分类变量有关系的来判断两个分类变量有关系的方法。方法。要推断要推断“和和有关系有关系”,可按下面的步骤进行:,可按下面的步骤进行:(1 1)提出假设)提出假设H H0 0 :和和没有关系;没有关系;(3 3)查对临界值,作出判断。)查对临界值,作出判断。(2 2)根据)根据2X22X2列联表与公式计算列联表与公式计算 的观测值的观测值k;k;9这种判断可能有错误,但是犯错误的不会超过这种判断可能有错误,但是犯错误的不会超过0.001,这是个小概率时间,我们有,这是个小概率时间,我们有99.9%的把的把握认为握认为
6、“吸烟与患癌症有关系吸烟与患癌症有关系”102/29/202411例例1 在在某某医医院院,因因为为患患心心脏脏病病而而住住院院的的665名名男男性性病病人人中中,有有214人人秃秃顶顶;而而另另外外772名名不不是是因因为为患患心心脏脏病病而而住住院院的的男男性性病病人人中中有有175人人秃秃顶顶。分分别别利利用用图图形形和和独独立立性性检检验验方方法法判判断断秃秃顶顶与与患患心心脏脏病是否有关系?你所得的结论在什么范围内有效?病是否有关系?你所得的结论在什么范围内有效?解:根据题目所给数据得到如下列联表:解:根据题目所给数据得到如下列联表:患心脏病患心脏病不患心脏病不患心脏病总计总计秃顶秃
7、顶214175389不秃顶不秃顶4515971048总计总计6657721437 根据联表根据联表1-13中的数据,得到中的数据,得到所以有所以有99%的把握认为的把握认为“秃顶患心脏病有关秃顶患心脏病有关”。12P(kk0)0.500.400.250.150.100.050.025 0.010 0.005 0.001k00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828有效有效无效无效合计合计口服口服585840409898注射注射646431319595合计合计1221227171193193解:设解:设H0:药的效果与
8、给药方式没有关系。:药的效果与给药方式没有关系。因当因当H0成立时,成立时,K21.3896的概率大于的概率大于15%,故不能否定假设,故不能否定假设H0,即不能作出药的效果与给药方式有关的结论。,即不能作出药的效果与给药方式有关的结论。例例4 4:为研究不同的给药方式(口服与注射)和药的效果(有效:为研究不同的给药方式(口服与注射)和药的效果(有效与无效)是否有关,进行了相应的抽样调查,调查的结果列与无效)是否有关,进行了相应的抽样调查,调查的结果列在表中,根据所选择的在表中,根据所选择的193193个病人的数据,能否作出药的效果个病人的数据,能否作出药的效果和给药方式有关的结论?和给药方式
9、有关的结论?13例例3.3.在在500500人人身身上上试试验验某某种种血血清清预预防防感感冒冒作作用用,把把他他们们一一年年中中的的感感冒冒记记录录与与另另外外500500名名未未用用血血清清的的人人的的感感冒冒记记录录作作比比较较,结结果果如如表表所所示。示。未感冒未感冒感冒感冒合计合计使用血清使用血清252248500未使用血清未使用血清224276500合计合计4765241000试画出列联表的条形图,并通过图形判断这种血清能否起到预试画出列联表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立性检验。防感冒的作用?并进行独立性检验。解:设解:设H0:感冒与是否使用该血
10、清没有关系。:感冒与是否使用该血清没有关系。因当因当H0成立时,成立时,K26.635的概率约为的概率约为0.01,故有,故有99%的把握认的把握认为该血清能起到预防感冒的作用。为该血清能起到预防感冒的作用。P(kk0)0.500.400.250.150.100.050.025 0.010 0.005 0.001k00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.82814P(kk0)0.500.400.250.150.100.050.025 0.010 0.005 0.001k00.455 0.708 1.323 2.072
11、2.706 3.841 5.024 6.635 7.879 10.828例例5:气管炎是一种常见的呼吸道疾病,医药研究人:气管炎是一种常见的呼吸道疾病,医药研究人员对两种中草药治疗慢性气管炎的疗效进行对比,员对两种中草药治疗慢性气管炎的疗效进行对比,所得数据如表所示,问:它们的疗效有无差异?所得数据如表所示,问:它们的疗效有无差异?有效有效无效无效合计合计复方江剪刀草复方江剪刀草18461245胆黄片胆黄片919100合计合计27570345解:设解:设H0:两种中草药的治疗效果没有差异。:两种中草药的治疗效果没有差异。因当因当H0成立时,成立时,K210.828的概率为的概率为0.001,故
12、有,故有99.9%的把握的把握认为,两种药物的疗效有差异。认为,两种药物的疗效有差异。15v【例1】某校对学生课外活动进行调查,结果整理成下表:v试用你所学过的知识进行分析,能否在犯错误的概率不超过0.005的前提下,认为“喜欢体育还是文娱与性别有关系”?体育 文娱 总计男生212344女生62935总计2752791617v且P(K27.879)0.005即我们得到的K2的观测值k8.106超过7.879,这就意味着:“喜欢体育还是文娱与性别没有关系”这一结论成立的可能性小于0.005,即在犯错误的概率不超过0.005的前提下认为“喜欢体育还是喜欢文娱与性别有关”18v【变式1】为研究学生的数学成绩与对学习数学的兴趣是否有关,对某年级学生作调查得到如下数据:v判断学生的数学成绩好坏与对学习数学的兴趣是否有关?成绩优秀 成绩较差 总计兴趣浓厚的643094 兴趣不浓厚的227395总计8610318919202/29/202421