1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,1.,判断分类变量及其关系的方法:,(1),利用数形结合思想,借助等高条形图来判断两个分类变量,是否相关是判断变量相关的常见方法,.,(2),一般地,在等高条形图中,与 相差越大,两个,分类变量有关系的可能性就越大,.,分类变量关系的分析,2.,分析分类变量关系的步骤:,(1),作大量的调查、研究,统计出结果,.,(2),列出列联表利用频率粗略估计,.,(3),作出等高条形图,从直观上进一步判断分类变量之间的关联关系,.,通过等高条形图可以粗略地判断两个分类变量是否有关系,但无法精确地给出所得结论的可靠程度,.
2、例,1】,从发生交通事故的司机中抽取,2 000,名司机作随机样本,根据他们血液中是否含有酒精以及他们是否对事故负有责任将数据整理如下:,试分析血液中含有酒精与对事故负有责任是否有关系,.,【,审题指导,】,题目已给出了,22,列联表,可利用等高条形图定性分析两个分类变量之间的相关性,.,【,规范解答,】,作等高条形图如下,图中阴影部分表示有酒精负责任与无酒精负责任的比例,从图中可以看出,两者差距较大,由此我们可以在某种程度上认为“血液中含有酒精与对事故负有责任”有关系,.,【,变式训练,】,某学校对在校部分学生课外活动内容进行调查,结果整理成下表:,学生喜欢课外活动的类别与性别有关系吗
3、试用学过的知识进行分析,.,【,解析,】,作出等高条形图如下:,由图可以直观地看出喜欢体育还是喜欢文娱,在性别上有较大差异,说明学生喜欢课外活动的类别与性别在某种程度上有关系,.,有关“相关性检验”,解决一般的独立性检验问题的步骤:,(1),根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界,,然后查下表确定临界值,k,0,.,(2),根据,22,列联表,利用公式,计算随机变量,K,2,的观测值,k.,(3),如果,kk,0,,就推断“,X,与,Y,有关系”,这种推断犯错误的,概率不超过,;否则,就认为在犯错误的概率不超过,的前,提下不能推断“,X,与,Y,有关系”,或者在
4、样本数据中没有发现,足够证据支持结论“,X,与,Y,有关系”,.,通常认为,k10.828,所以在犯错误的概率不超过,0.001,的前提下认为“生产合格品,与设备改造有关系”,.,【,变式训练,】,为了调查患慢性气管炎是否与吸烟有关,调查了,339,名,50,岁以下的人,调查结果如下表:,根据上表分析患慢性气管炎是否与吸烟有关?,【,解析,】,a=43,b=162,c=13,d=121,a+b=205,c+d=134,a+c=56,b+d=283,n=339,代入公式得,K,2,的观测值:,7.468 86.635.,所以在犯错误的概率不超过,0.01,的前提下认为“患慢性气管,炎与吸烟有关”
5、例,】,为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了,500,位老年人,结果如下:,(1),估计该地区老年人中,需要志愿者提供帮助的老年人的比例;,(2),能否在犯错误的概率不超过,0.01,的前提下认为该地区的老年人是否需要志愿者提供帮助与性别有关?,(3),根据,(2),的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由,.,附:,【,审题指导,】,解答第,(2),问时,可先计算,K,2,的值,再对照表格作出判断,.,【,规范解答,】,(1),调查的,500,位老年人中有,70,位需要志愿者提,供帮助,因
6、此该地区老年人中,需要志愿者提供帮助的老年,人的比例的估计值为,(2)9.967.,由于,9.9676.635,所,以在犯错误的概率不超过,0.01,的前提下认为该地区的老年人,是否需要志愿者提供帮助与性别有关,.,(3),由,(2),的结论知,该地区的老年人是否需要志愿者提供帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,这比采用简单随机抽样方法更好,.,【,变式备选,】,用两种检验方法对某食品做沙门氏菌检验,结果如下表,能否在犯错误的概率不超过,0.001
7、的前提下认为两种方法和阳性结果有关系?,【,解题提示,】,由于题目要求“犯错误的概率不超过,0.001”,,故需求解,K,2,的观测值,再利用临界值的大小来判断假设是否成立,.,【,解析,】,由等高条形图,(,如图,),可知,采用荧光抗体法与检验,结果呈阳性有关系,而通过计算可知:,查表可知,,P(K,2,10.828)0.001,而,113.185,远大于,10.828,,所以它们之间有关系的概率大于,0.999,也就是说,,在犯错误的概率不超过,0.001,的前提下认为它们之间有关系,.,独立性检验的综合应用,判断变量,X,与,Y,有无关系的三种方法:,(1)22,列联表:由,22,列联
8、表中,ad-bc,的大小判断,.,(2),等高条形图:观察条形图中的阴影比例大小判断,.,(3),独立性检验:计算,K,2,的观测值,k,,再利用临界值的大小判断,.,其中独立性检验的方法相对较准确,.,【,例,3】,为了调查某生产线上质量监督员甲对产品质量好坏有无影响,现统计数据如下:甲在生产现场时,,990,件产品中有合格品,982,件,次品,8,件;甲不在生产现场时,,510,件产品中有合格品,493,件,次品,17,件,.,试分别用列联表、等高条形图、独立性检验的方法分析监督员甲对产品质量好坏有无影响,.,能否在犯错误的概率不超过,0.001,的前提下,认为质量监督员甲是否在生产现场与
9、产品质量有关?,【,审题指导,】,本题要求分别用列联表、等高条形图、独立性检验的方法分析,要注意三种方法的判断思路,.,【,规范解答,】,(1)22,列联表如下:,由列联表可得,ad-bc|=|98217-4938|=12 750.,相差较大,可在某种程度上认为“质量监督员甲是否在现场与产品质量有关系”,.,(2),画等高条形图,.,如图可知,在某种程度上认为“质量监督员甲是否在生产现场与产品质量有关系”,.,(3),由,22,列联表中数据,计算得到,K,2,的观测值为,因此,在犯错误的概率不超过,0.001,的前提下,认为质量监,督员甲在不在生产现场与产品质量好坏有关系,.,【,互动探究,】
10、将本题中的产品质量问题改为成绩优秀问题,.,某校高三年级在一次全年级的大型考试中,数学成绩优秀和非优秀的学生中物理、化学、总分也为优秀的人数如下表所示,则数学成绩优秀分别与物理、化学、总分也优秀哪个关系较大?,注:该年级此次考试中数学成绩优秀的有,360,人,非优秀的有,880,人,.,【,解析,】,(1),列出数学与物理优秀的,22,列联表,将表中数据代入公式,得观测值,k,1,270.114 3.,(2),列出数学与化学优秀的,22,列联表,将表中数据代入公式计算得观测值,k,2,240.611 2.,(3),列出数学与总分优秀的,22,列联表:,将表中数据代入公式计算得观测值,k,3,
11、486.122 5.,由上面分析可知,数学成绩优秀分别与物理、化学、总分优秀都有关系,经计算观测值都大于,6.635,说明在犯错误的概率不超过,0.01,的前提下,认为数学优秀分别与物理、化学、总分优秀都有关系,,k,3,k,1,k,2,,与总分关系最大,物理次之,.,【,典例,】(12,分,)(1),下表是某地区的一种传染病与饮用水的,调查表:,这种传染病是否与饮用水的卫生程度有关,请说明理由;,(2),若饮用干净水得病,5,人,不得病,50,人,饮用不干净水得病,9,人,不得病,22,人,.,按此样本数据分析这种疾病是否与饮用水有关,并比较两种样本在反映总体时的差异,.,【,审题指导,】,
12、1),根据表中的信息计算,K,2,的观测值,并根据临界值表来分析相关性的大小,对于,(2),要列出,22,列联表,方法同,(1).,【,规范解答,】,(1),假设,H,0,:传染病与饮用水无关,.,把表中数据代入公式得:,K,2,的观测值 ,54.21,3,分,54.2110.828,,所以拒绝,H,0,.,因此在犯错误的概率不超过,0.001,的前提下认为该地区这种传染病与饮用不干净水有关,.,5,分,(2),依题意得,22,列联表:,此时,,K,2,的观测值 ,5.785.,9,分,由于,5.7852.706,所以在犯错误的概率不超过,0.1,的前提下认为该种疾病与饮用,不干净水有关,.
13、10,分,两个样本都能统计得到传染病与饮用不干净水有关这一相同结论,但,(1),中在犯错误的概率不超过,0.001,的前提下肯定结论的正确性,,(2),中在犯错误的概率不超过,0.1,的前提下肯定结论的正确性,.,12,分,【,误区警示,】,对解答本题时易犯错误具体分析如下:,【,即时训练,】,某高校“统计初步”课程的教师随机调查了一些学生的专业情况,得到如下,22,列联表,(,单位:名,),:,为了判断主修统计专业是否与性别有关系,根据表中的数据计算得到,K,2,的观测值,k4.84.,因为,k3.841,,所以认为“主修统计专业与性别有关系”,.,这种判断出错的可能性为,_.,【,解析,
14、由,k4.84,可知我们有,95%,的把握认为“主修统计专业与性别有关系”,故判断出错的可能性为,5%.,答案,:,5%,1.,在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率不超过,0.01,的前提下认为这个结论是成立的,下列说法中正确的是,(),(A)100,个吸烟者中至少有,99,人患有肺癌,(B)1,个人吸烟,那么这个人有,99%,的概率患有肺癌,(C),在,100,个吸烟者中一定有患肺癌的人,(D),在,100,个吸烟者中可能一个患肺癌的人也没有,【,解析,】,选,D.,独立性检验的结果与实际问题有差异,即独立性检验的结论是一
15、个数学统计量,它与实际问题中的确定性存在差异,.,2.,分类变量,X,和,Y,的列联表如下,则,(),(A)ad-bc,越小,说明,X,与,Y,的关系越弱,(B)ad-bc,越大,说明,X,与,Y,的关系越强,(C)(ad-bc),2,越大,说明,X,与,Y,的关系越强,(D)(ad-bc),2,越接近于,0,,说明,X,与,Y,的关系越强,【,解析,】,选,C.,由,K,2,的计算公式可知,,(ad-bc),2,越大,则,K,2,越大,故相关关系越强,.,3.,若由一个,22,列联表中的数据计算得,K,2,4.013,则两个变量有关系的概率为,_.,【,解析,】,因随机变量,K,2,的观测值
16、k=4.0133.841.,所以在犯错误的概率不超过,0.05,的前提下,认为两个变量有关系,.,答案,:,0.95,4.,根据下表计算,k_.,【,解析,】,根据列联表中的数据得,K,2,的观测值,1.78.,答案,:,1.78,5.,运动员参加比赛前往往做热身运动,下表是一体育运动的研究机构对,160,位专业运动员追踪而得的数据,试问:由此数据,你认为运动员受伤与不做热身运动有关吗?,思考题,4,在对人们的休闲方式的一次调查中,共调查了,124,人,其中女性,70,人,男性,54,人,女性中有,43,人主要的休闲方式是看电视,另外,27,人主要的休闲方式是运动;男性中有,21,人主要的休闲方式是看电视,另外,33,人主要的休闲方式是运动,(1),根据以上数据建立一个,22,的列联表;,(2),试判断性别与休闲方式是否有关系,Thank you!,






