资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,1,.,2,独立性检验的基本思想及其初步应用,(,一,),1,问题,:,数学家庞加莱每天都从一家面包店买一块,1000g,的面包,并记录下买回的面包的实际质量,.,一年后,这位数学家发现,所记录数据的均值为,950g,.,于是庞加莱推断这家面包店的面包分量不足,.,假设“面包份量足”,则一年购买面包的质量数据的平均值应该不少于,1000g,;,“这个平均值不大于,950g,”,是一个与假设“面包份量足”矛盾的小概率事件;,这个小概率事件的发生使庞加莱得出推断结果,.,2,一,:,假设检验问题的原理,假设检验问题由两个互斥的假设构成,其中一个叫做原假设,用,H,0,表示;另一个叫做备择假设,用,H,1,表示,.,例如,在前面的例子中,,原假设,为:,H,0,:面包份量足,,备择假设,为:,H,1,:面包份量不足,.,这个假设检验问题可以表达为:,H,0,:面包,份,量足,H,1,:面包,份,量不足,3,二,:,求解假设检验问题,考虑假设检验问题:,H,0,:面包分量足,H,1,:面包分量不足,在,H,0,成立的条件下,构造与,H,0,矛盾的小概率事件;,如果样本使得这个小概率事件发生,就能以一定把握断言,H,1,成立;否则,断言没有发现样本数据与,H,0,相矛盾的证据,.,求解思路:,4,独立性检验,本节研究的是,两个分类变量的独立性检验问题,.,在日常生活中,我们常常关心,分类变量之间是否有关系,:,例如,吸烟是否与患肺癌有关系?,性别是否对于喜欢数学课程有影响?等等,.,5,吸烟与肺癌列联表,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机地调查了,9965,人,得到如下结果,(,单位:人,),列联表,在不吸烟者中患肺癌的比重是,在吸烟者中患肺癌的比重是,说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患肺癌的可能性大,.,0,.,54,%,2,.,28,%,探究,6,不患肺癌,患肺癌,总计,不吸烟,7775,42,7817,吸烟,2099,49,2148,总计,9874,91,9965,1,、列联表,2,、三维柱形图,3,、二维条形图,不患肺癌,患肺癌,吸烟,不吸烟,不患肺癌,患肺癌,吸烟,不吸烟,0,8000,7000,6000,5000,4000,3000,2000,1000,从三维柱形图能清晰看出,各个频数的相对大小,.,从二维条形图能看出,吸烟者中,患肺癌的比例高于不患肺癌的比例,.,通过图形直观判断两个分类变量是否相关:,7,不吸烟,吸烟,患肺癌,比例,不患肺癌,比例,4,、等高条形图,等高条形图更清晰地表达了两种情况下患肺癌的比例,.,8,上面我们通过分析数据和图形,得到的直观印象是吸烟和患肺癌有关,那么事实是否真的如此呢?,这需要用统计观点来考察这个问题,.,现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”,,为此先假设,H,0,:吸烟与患肺癌没有关系,.,不患肺癌,患肺癌,总计,不吸烟,a,b,a,+,b,吸烟,c,d,c,+,d,总计,a,+,c,b,+,d,a,+,b,+,c,+,d,把表中的数字用字母代替,得到如下用字母表示的列联表,用,A,表示不吸烟,,B,表示不患肺癌,则“吸烟与患肺癌没有关系”等价于“吸烟与患肺癌独立”,即假设,H,0,等价于,P,(,AB,),=,P,(,A,),P,(,B,).,9,因此,|,ad,-,bc,|,越小,说明吸烟与患肺癌之间关系越弱;,|,ad,-,bc,|,越大,说明吸烟与患肺癌之间关系越强,.,不患肺癌,患肺癌,总计,不吸烟,a,b,a,+,b,吸烟,c,d,c,+,d,总计,a,+,c,b,+,d,a,+,b,+,c,+,d,在表中,,a,恰好为事件,AB,发生的频数;,a,+,b,和,a,+,c,恰好分别为事件,A,和,B,发生的频数,.,由于频率接近于概率,所以在,H,0,成立的条件下应该有,10,为了使不同样本容量的数据有统一的评判标准,基于上述分析,我们构造一个随机变量,-,卡方统计量,(,1,),若,H,0,成立,即“吸烟与患肺癌没有关系”,则,K,2,应很小,.,根据表,3,-,7,中的数据,利用公式,(,1,),计算得到,K,2,的观测值为:,那么这个值到底能告诉我们什么呢?,(,2,),独立性检验,11,在,H,0,成立的情况下,统计学家估算出如下的概率,即在,H,0,成立的情况下,,K,2,的值大于,6,.,635,的概率非常小,近似于,0,.,01,.,也就是说,在,H,0,成立的情况下,对随机变量,K,2,进行多次观测,观测值超过,6,.,635,的频率约为,0,.,01,.,思考,答:判断出错的概率为,0,.,01,.,12,判断,是否成立的规则,如果,,就判断,不成立,即认为吸烟与患肺癌有关系;否则,就判断,成立,即认为吸烟与患肺癌有关系,.,独立性检验的定义,上面这种利用随机变量,K,2,来确定在多大程度上可以认为“两个分类变量有关系”的方法,称为两个分类变量的,独立性检验,.,在该规则下,把结论“,成立”错判成“,不成立”的概率不会差过,即有,99,%,的把握认为,不成立,.,13,独立性检验的基本思想,(,类似,反证法,),(,1,),假设结论不成立,即,“两个分类变量没有关系,”,.,(,2,),在此假设下我们所构造的随机变量,K,2,应该很小,如果由观测数据计算得到,K,2,的观测值,k,很大,则在一定可信程度上说明,不成立,.,即在一定可信程度上认为“两个分类变量有关系”;如果,k,的值很小,则说明由样本观测数据没有发现反对,的充分证据,.,(,3,),根据随机变量,K,2,的含义,可以通过评价该假设不合理的程度,由实际计算出的,说明假设合理的程度为,99,%,,即“两个分类变量有关系”这一结论成立的可信度为约为,99,%.,14,怎样判断,K,2,的观测值,k,是大还是小呢?,这仅需要确定一个正数,,当,时就认为,K,2,的观测值,k,大,.,此时相应于,的判断规则为:,如果,,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”,.,-,临界值,按照上述规则,把“两个分类变量之间有没关系”错误的判断为“两个分类变量之间有关系”的概率为,P,(,).,在实际应用中,我们把,解释为有,的把握认为“两个分类变量之间有关系”;把,解释为不能以,的把握认为“两个分类变量之间有关系”,或者样本观测数据没有提供“两个分类变量之间有关系”的充分证据,.,15,思考:,利用上面的结论,你能从列联表的三维柱形图中看出两个分类变量是否相关呢?,表,1,-,11 2,x,2,联表,一般地,假设有两个分类变量,X,和,Y,,它们的值域分别为,x,1,,,x,2,和,y,1,,,y,2,,其样本频数列联表,(,称为,2,x,2,列联表,),为:,y,1,y,2,总计,x,1,a,b,a,+,b,x,2,c,d,c,+,d,总计,a,+,c,b,+,d,a,+,b,+,c,+,d,16,若要判断的结论为:,H,1,:“,X,与,Y,有关系”,可以按如下步骤判断,H,1,成立的可能性:,2,、可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度,.,1,、通过三维柱形图和二维条形图,可以粗略地判断两个变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度,.,(,1,),在三维柱形图中,,主对角线上两个柱形高度的乘积,ad,与副对角线上两个柱形高度的乘积,bc,相差越大,,H,1,成立的可能性就越大,.,(,2,),在二维条形图中,可以估计满足条件,X,=,x,1,的个体中具有,Y,=,y,1,的个体所占的比例,,也可以估计满足条件,X,=,x,2,的个体中具有,Y,=,y,1,的个体所占的比例,.,两个比例相差越大,,H,1,成立的可能性就越大,.,17,在实际应用中,要在获取样本数据之前通过下表确定临界值:,0,.,50,0,.,40,0,.,25,0,.,15,0,.,10,0,.,455,0,.,708,1,.,323,2,.,072,2,.,706,0,.,05,0,.,025,0,.,010,0,.,005,0,.,001,3,.,841,5,.,024,6,.,636,7,.,879,10,.,828,具体作法是:,(,1,),根据实际问题需要的可信程度确定临界值,;,(,2,),利用公式,(,1,),,由观测数据计算得到随机变量,的观测值;,(,3,),如果,,就以,的把握认为“,X,与,Y,有关系”;否则就说样本观测数据没有提供“,X,与,Y,有关系”的充分证据,.,18,例,1,.,在,500,人身上试验某种血清预防感冒作用,把他们一年中的感冒记录与另外,500,名未用血清的人的感冒记录作比较,结果如表所示,.,未感冒,感冒,合计,使用血清,252,248,500,未使用血清,224,276,500,合计,476,524,1000,试画出列联表的条形图,并通过图形判断这种血清能否起到预防感冒的作用?并进行独立性检验,.,19,
展开阅读全文