1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1通过对典型案例的探究,了解独立性检验(只要求2,2列联表)的基本思想、方法及初步应用,2通过对数据的收集、整理和分析,增强学生的社会实践能力,培养学生分析问题、解决问题的能力,本节重点、难点:独立性检验的思想方法与初步应用,1两分类变量之间关联关系的定性分析,(1)分类变量:取不同的,“,值,”,表示个体所属不同类别的变量称为分类变量,说明:,对分类变量的正确理解:这里的,“,变量,”,和,“,值,”,都应作为广义的变
2、量和值进行理解如:对于性别变量,其取值为男、女两种,所以这里的,“,变量,”,指的是,“,性别,”,,这里的,“,值,”,指的是,“,男,”,和,“,女,”,故这里所说的,“,变量,”,和,“,值,”,不一定是具体的数值,分类变量是大量存在的,如吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别,(2)频率分析:通过对样本中每个分类变量的不同类别的事件发生的频率大小比较来分析分类变量之间是否有关联,(3)图形分析:利用三维柱形图及二维条形图来分析分类变量之间是否具有关联分析,图形的形象直观更能说明相关数据的总体状况,一般地,假设有两个分类变量,X,和,Y,,它们的可能取值分别为,x,1,,
3、x,2,和,y,1,,,y,2,,其样本频率列联表(即2,2列联表)如下表:,y,1,y,2,总计,x,1,a,b,a,b,x,2,c,d,c,d,总计,a,c,b,d,a,b,c,d,在三维柱形图中,主对角线上两个柱形高度的乘积,ad,与副对角线上的两个柱形高度的乘积,bc,相差越大,说明,X,与,Y,有关的可能性越大,当,ad,与,bc,的差趋近于零时,,X,与,Y,几乎没有关系,可以说,X,与,Y,是相互独立的,2独立性检验,(1)定义:利用随机变量,K,2,(其中,n,a,b,c,d,)来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验独立性检验的基本
4、思想类似于反证法,要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下随机变量,K,2,应该很小,如果由观测数据计算得到的,K,2,的观测值,k,很大,则在一定可信程度上说明假设不合理根据随机变量,K,2,的含义,可以通过概率,P,(,K,2,k,0,)的大小来评价该假设不合理的程度有多大,从而得出,“,两个分类变量有关系,”,这一结论成立的可信程度有多大,(2)如何用,K,2,的值判断,X,与,Y,之间是否有关?,首先列2,2列联表,当得到的观测数据,a,,,b,,,c,,,d,都不小于5时,由2,2列联表求出,K,2,
5、的观测值,k,.若,k,10.828,则我们有99.9%的把握认为,X,与,Y,有关,这种判断结果出错的可能性约为0.1%;若,k,6.635,则我们有99%的把握认为,X,与,Y,有关,这种判断结果出错的可能性约为1%;若,k,2.706,则我们有90%的把握认为,X,与,Y,有关,这种判断结果出错的可能性约为10%;若,k,2.706,则没有充分的证据显示,X,与,Y,有关,但也不能认为,X,与,Y,无关,3独立性检验的基本方法,一般地,假设有两个分类变量,X,和,Y,,它们的可能取值分别为,x,1,,,x,2,和,y,1,,,y,2,,其样本频数列联表(称为2,2列联表)为:,若要推断的
6、结论为:,H,1,:“,X,与,Y,有关系”,可以按如下步骤判断结论,H,1,成立的可能性:,y,1,y,2,总计,x,1,a,b,a,b,x,2,c,d,c,d,总计,a,c,b,d,a,b,c,d,(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度,在三维柱形图中,主对角线上两个柱形高度的乘积,ad,与副对角线上的两个柱形高度的乘积,bc,相差越大,,H,1,成立的可能性就越大,如果,k,10.828,就有99.9%的把握认为,“,X,与,Y,有关系,”,;,如果,k,7.879,就有99.5%的把握认为,“,X,与,Y,有
7、关系,”,;,如果,k,6.635,就有99%的把握认为,“,X,与,Y,有关系,”,;,如果,k,5.024,就有97.5%的把握认为,“,X,与,Y,有关系,”,;,如果,k,3.841,就有95%的把握认为,“,X,与,Y,有关系,”,;,如果,k,2.706,就有90%的把握认为,“,X,与,Y,有关系,”,;,如果,k,6.635,,又,P,(,K,2,6.635)0.01,,因此,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关.,例2为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下,问铅中毒病人和对照组的尿棕色素阳性数有无差别
8、组别,阳性数,阴性数,合计,铅中毒病人,29,7,36,对照组,9,28,37,合计,38,35,73,解析,由上述列联表可知,在铅中毒病人中尿棕色素为阳性的占80.56%,而对照组仅占24.32%.说明他们之间有较大差别,根据列联表作出三维柱形图(如图1),二维条形图(如图2),频率分布条形图(如图3所示),由上述三图可知,铅中毒病人中与对照组相比较,尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性存在关联关系,点评由两个分类变量之间频率大小差异可说明这两个变量之间是有关联关系的而利用三维柱形图、二维条形图、频率分布条形图都能形象直观地反映它们之间差异的关系,进而推断它们之间是否具
9、有关联关系其中作三维柱形图时应注意恰当的视角,使每个柱体都能看到而频率分布条形图由于是等高的,因此它与二维条形图相比较更能直观地反映它们之间的差异的大小,特别是当样本容量差异明显时更是如此,某学校对学生课外活动内容进行调查,结果整理成下表:,利用图形判断学生课外活动的类别与性别是否有关系?,体育,文娱,总计,男生,21,23,44,女生,6,29,35,总计,27,52,79,解析,某等高条形图如图所示,由图可以直观地看出喜欢体育还是喜欢文娱在性别上有较大差异,说明课外活动的类别与性别在某种程度上有关系,一、选择题,1调查男女学生购买食品时是否看出厂日期与性别有无关系时,最有说服力的是,(),
10、A期望B方差,C正态分布 D独立性检验,答案,D,则x与y之间有关系的概率约为_,4利用随机变量K2来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的,(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上的两个柱形高度的乘积bc相差越大,H1成立的可能性就越大,(1)通过三维柱形图和二维条形图,可以粗略地判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度在三维柱形图中,主对角线上两个柱形高度的乘积ad与副对角线上的两个柱形高度的
11、乘积bc相差越大,H1成立的可能性就越大,9%的把握认为“X与Y有关系”;,分类变量是大量存在的,如吸烟变量有吸烟与不吸烟两种类别,而国籍变量则有多种类别,由列联表中的数据,可以得到:,6为调查学生对国家大事关心与否是否与性别有关,在学生中进行随机抽样调查,结果如下表,根据统计数据作出合适的判断分析.,1两分类变量之间关联关系的定性分析,解析依题意可知:,C方差 D独立性检验,例2为了解铅中毒病人是否有尿棕色素增加现象,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下,问铅中毒病人和对照组的尿棕色素阳性数有无差别?,001的前提下认为对这一问题的看法与性别有关系?(P(K210.,如果由
12、观测数据计算得到的K2的观测值k很大,则在一定可信程度上说明假设不合理根据随机变量K2的含义,可以通过概率P(K2k0)的大小来评价该假设不合理的程度有多大,从而得出“两个分类变量有关系”这一结论成立的可信程度有多大,3下面是一个22列联表,根据列联表作出三维柱形图(如图1),二维条形图(如图2),频率分布条形图(如图3所示),由上述三图可知,铅中毒病人中与对照组相比较,尿棕色素为阳性差异明显,因此铅中毒病人与尿棕色素为阳性存在关联关系,由图可以直观地看出喜欢体育还是喜欢文娱在性别上有较大差异,说明课外活动的类别与性别在某种程度上有关系,1两分类变量之间关联关系的定性分析,210名学生在一次数
13、学考试中的成绩如下表:,要研究这10名学生成绩的平均情况,则最能说明问题的是,(),A概率 B期望,C方差 D独立性检验,答案,B,分数,100,115,120,125,人数,2,4,3,1,3下面是一个2,2列联表,则表中,a,、,b,处的值分别为(),A94、96 B52、50,C52、59 D54、52,答案,C,y,1,y,2,合计,x,1,a,21,73,x,2,7,20,27,合计,b,41,100,二、填空题,4用,K,2,统计量进行独立性检验时,使用的表称为_,要求表中的四个数据_,答案,2,2列联表均大于5,5若两个分类变量,x,和,y,的列联表为:,则,x,与,y,之间有关系的概率约为_,答案,99%,y,1,y,2,x,1,6,15,x,2,40,10,三、解答题,6为调查学生对国家大事关心与否是否与性别有关,在学生中进行随机抽样调查,结果如下表,根据统计数据作出合适的判断分析.,关心,不关心,合计,男生,182,18,200,女生,176,24,200,合计,358,42,400,点评根据随机变量,K,2,的值判断两分类变量是否有关的步骤:第一,假设两分类变量无关,第二,由数据及公式计算,K,2,的观测值,k,,第三,将,k,的值与临界值比较得出结论,






