收藏 分销(赏)

生物统计学第五章-卡方检验.ppt

上传人:精*** 文档编号:12568904 上传时间:2025-11-01 格式:PPT 页数:40 大小:607.54KB 下载积分:12 金币
下载 相关 举报
生物统计学第五章-卡方检验.ppt_第1页
第1页 / 共40页
生物统计学第五章-卡方检验.ppt_第2页
第2页 / 共40页


点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第五章 卡方检验,教学目的要求,掌握:卡方检验的适用条件和计算公式;适合性检验的基本原理和方法;独立性检验的原理和方法。,熟悉:适合性检验和独立性检验的应用。,了解:适合性检验在遗传学及其他生物学科中上的应用。,讲授内容,一、卡方检验的原理和方法,二、适合性检验,三、独立性检验,一、卡方检验的原理和方法,1、卡方检验的原理,应用理论值(expected value,E)与观测值(observed value,O)之间的偏离程度来决定卡方值的大小。,2、卡方检验的程序,将观测值分为k组,计算n次观测值中每组的观测频数,记为O,i,根据变量的分布规律或概率运算法则,计算每组的理论频率为P,i,计算每组的理论频数E,i,检验O,i,与E,i,的差异显著性,判断两者之间的不符合度,a、零假设:H,0,:O-E=0;备择假设:O-E,0(这里检验的不是参数,而是判断观测数是否符合理论分布),b、检验统计量:,这里要求n充分的大,当n50时(最好100),所定义的检验统计量近似服从卡方分布,E,i,=nP,i,不得小于5,若小于5,将尾区相邻的组合并,直到合并后的组的E,i,5,合并后再计算卡方值。,(一)总体参数未知的正态性检验,155,153,159,155,150,159,157,159,151,152,159,158,153,153,144,156,150,157,160,150,150,150,160,156,160,155,160,151,157,155,159,161,156,141,156,145,156,153,158,161,157,149,153,153,155,162,154,152,162,155,161,159,161,156,162,151,152,154,157,162,158,155,153,151,157,156,153,147,158,155,148,163,156,163,154,158,152,163,158,154,164,155,156,158,164,148,164,154,157,165,158,166,154,154,157,167,157,159,170,158,例1 高粱“三尺三”株高测定结果(cm),题解,组号,组限/cm,组界/cm,中值,频数,频率,1,141143,140.5143.5,142,1,0.01,2,144146,143.5146.5,145,2,0.02,3,147149,146.5149.5,148,4,0.04,4,150152,149.5152.5,151,13,0.13,5,153155,152.5155.5,154,23,0.23,6,156158,155.5158.5,157,28,0.28,7,159161,158.5161.5,160,15,0.15,8,162164,161.5164.5,163,10,0.10,9,165167,164.5167.5,166,3,0.03,10,168170,167.5170.5,169,1,0.01,总计,100,1,高粱“三尺三”株高频数分布表,(1)将观测值分为k组;按照分组原理分成10组,制成频数分布表,(2)获得的n次观测值中,第i组的观测频数记为Oi,,(3)第i组的理论频率为Pi,其计算方法如下:,先计算样本平均数和标准差,假设高粱“三尺三”符合正态分布 。根据参数估计原理,,用 估计,,,用,s/c,4,=4.98/0.9975=4.99估计(,样本标准差分布的矩系数C4、C5表,)。即假设高粱的株高x服从正态分布,根据正态分布概率的计算关系,查附表1,计算各组组界的理论频率,组号,组界/cm,观察频数(Oi),观察频率(Pi),理论频率(P),理论频数(Ei),1,140.5143.5,1,0.01,0.005,0.5,2,143.5146.5,2,0.02,0.022,2.2,3,146.5149.5,4,0.04,0.066,6.6,4,149.5152.5,13,0.13,0.142,14.2,5,152.5155.5,23,0.23,0.216,21.6,6,155.5158.5,28,0.28,0.232,23.2,7,158.5161.5,15,0.15,0.176,17.6,8,161.5164.5,10,0.10,0.094,9.4,9,164.5167.5,3,0.03,0.035,3.5,10,167.5170.5,1,0.01,0.009,0.9,100,1.00,1.00,100,高粱“三尺三”株高观察频数和理论频数表,(,4,)计算各组的理论频数为,E,i,=,np,i,填入下表,组号,组界/cm,观察频数(Oi),观察频率(Pi),理论频率(P),理论频数(Ei),卡方值,13,140.5149.5,7,0.07,0.093,9.30,0.569,4,149.5152.5,13,0.13,0.142,14.2,0.101,5,152.5155.5,23,0.23,0.216,21.6,0.091,6,155.5158.5,28,0.28,0.232,23.2,0.993,7,158.5161.5,15,0.15,0.176,17.6,0.384,810,161.5164.5,14,0.14,0.138,13.8,0.003,总计,100,1.00,1.00,100,2.141,(5)O,i,与E,i,进行比较,判断两者之间的不符合度,检验程序如下:,零假设:,H,0,:O-E=0;H,A,:O-E0,检验统计量:,高粱“三尺三”株高观察频数和理论频数表(合并后),卡方值的自由度df=k-1-a,其中k为合并后的组数,a为需要由样估计的总体参数的个数;合并后的组数k=6,由样本估计了总体的平均数和标准差,故a=2,df=3,不用校正,计算卡方值,建立拒绝域,结论:高粱株高服从正态分布,(二)总体参数已知的正态性检验,例2 自动包装的袋装食盐的重量是否服从正态分布?已知每袋标准重量为500g,调查了100袋,结果如下表所示。,袋装食盐重量调查表,500,512,515,542,522,514,488,497,475,487,497,500,518,508,530,508,500,479,506,504,493,491,506,487,486,491,505,478,492,512,498,494,482,482,512,527,522,470,493,548,502,496,494,494,488,505,472,482,506,478,494,518,503,503,503,485,529,476,496,500,499,484,517,517,506,500,503,527,500,499,490,496,491,491,490,520,512,482,488,509,488,518,516,516,530,508,492,486,492,536,494,500,511,511,506,493,522,524,492,478,题解,(1)零假设:H,0,:O-E=0;备择假设H,A,:O-E0,(2)分组:样本容量n=100,取组数m=10,组距为8g,(3)计算理论频率p,i,和理论频数E,i,(4)检验统计量的计算,(5)自由度df=k-1-a=8-1-1=6,(6)拒绝域的建立,(7)接受H,0,,服从正态分布,(三)总体参数未知的二项分布检验,例3 检验烟草种子的发芽率,每个培养皿放10粒种子,共100个培养皿,实验结果如下表所示。1000粒种子有590粒发芽,检验发芽的种子数是否符合二项分布。,每皿发芽种子数Xi,观察频数(Oi),0,0,1,0,2,0,3,4,4,14,5,22,6,27,7,19,8,9,9,5,10,0,总计,100,烟草种子发芽率的观察频数,每皿发芽种子数Xi,观察频数(Oi),OiXi,理论频率(P),理论频数(Ei),卡方值,0,0,0,0.0001,6.25,0.81,1,0,0,0.0019,2,0,0,0.0125,3,4,12,0.0480,4,14,56,0.1209,12.09,0.302,5,22,110,0.2087,20.87,0.061,6,27,162,0.2503,25.03,0.155,7,19,133,0.2058,20.58,0.121,8,9,72,0.1111,15.71,0.09,9,5,45,0.0355,10,0,0,0.0051,总计,100,590,1,100,1.539,烟草种子发芽率的观察频数和理论频数表,题解,1、提出假设 H,0,:O-E=0;H,A,:O-E0,2、总体参数未知,需要由样本比例估计P=590/1000=0.59,3、计算理论值和卡方值,理论频率P,i,按照二项分布公式计算n=10,0,k,10,理论数E,i,=NP,i,4、拒绝域的建立,5、结论:种子发芽率服从二项分布,(四)总体参数已知的二项分布检验,例4 水稻植株中对白叶枯病有抗性的纯合体的基因型为SS,对白叶枯病敏感的纯合体为ss,杂合体的基因型为Ss。其中抗性为显性性状,敏感为隐性性状,将Ss与ss进行杂交,20个后代中有14株抗性植株,6株敏感植株。问后代的分离比是否符合孟德尔分离定律?,表型,观察频数(Oi),理论频数(Ei),卡方值,抗性植株,14,10,1.225,敏感植株,6,10,1.225,总计,20,20,2.45,题解,按照孟德尔分离定律,Ss与ss的杂交后代代表型的比例应该为1:1,即10个抗性植株和10个敏感植株,(1)提出假设,H,0,:,O-E=0;H,A,:O-E0,(2)计算理论值和卡方值:理论值就是根据孟德尔遗传定律计算得到的后代分离理论数量,(3)检验统计量的计算:本例是两组数据,没有估计参数,k=2,a=0,df=1,样本统计量需要连续矫正,(4)拒绝域的建立,(5)结论:符合孟德尔分离定律,适合性检验的自动程序:P=Chitest(O,i,,E,i,):O,i,表示观察值区域;E,i,表示理论值区域;用于适合性检验,三、独立性检验,原理:通过观测数与理论数之间的一致性判断事件之间的独立性,即判断两个事件是否是独立事件或处理间差异是否显著。,方法:将数据列成列联表,也称列联表卡方检验。,一、2,2列联表卡方检验,(一)原理:例5,青霉素可以注射,也可以口服,每天给感冒患者口服或注射80万单位的青霉素,调查两种给药方式的药效,结果如下表所示,试分析青霉素的两种给药方式的药用效果是否有差异?,两种青霉素的给药方式的药用效果调查表,给药方式,有效(A),无效(,),总数,有效率,口服(B),58,40,98,59.20%,注射(),64,31,95,67.40%,总计,122,71,193,一般考虑样本中各处理之间是否有关联,处理间是否是独立事件,检验时以各处理间无关联或者各处理是独立事件作为零假设,在一定自由度下和显著水平下进行卡方检验,独立检验(,independence test,),(二)检验程序,1、提出假设 H,0,:O-E=0;H,A,:O-E,0,2、根据概率的乘法法则计算理论数:理论数的计算方法,给药方式,有效(A),无效(,),总数,口服(B),O1=58 E,1,=98,122/193=61.95,O2=40 E,2,=98,71/193=36.05,98,注射(),O3=64 E,1,=95,122/193=60.05,O4=31 E,1,=95,71/193=34.95,95,总计,122,71,193,两种青霉素的给药方式的药用效果调查的观测值和理论值,3、检验统计量:,4、确定自由度:2,2列联表的自由度,df,=(r-1)(c-1),r是列联表的行数,c是列联表的列数,若自由度=1,则应做连续性校正,校正后的统计量为:,5、拒绝域的建立:,6、结论 青霉素口服效果与注射效果差异不大。,注意:22列联表卡方检验与之前讲的吻合度检验一样,要求理论数不得小于5;当理论数小于5时,应使用22列联表精确检验法。,二、rc列联表,行数和列数都大于2时的情况称为rc列联表,其理论数的计算仍为,例6 植物转基因方法常用的有三种:基因枪介导转化法、农杆菌介导转化法和花粉管通道法,三种方法转化烟草的成功率(种子数)如表所示,问三种转基因方法的转基因成功率差异是否显著?,转基因方式,阳性种子,假阳性种子,总数,基因枪法,192,3378,3570,农杆菌法,319,3297,3616,花粉管法,194,3620,3814,总数,705,10295,11000,三种方法转化烟草的实验结果,题解,1、提出假设 H,0,:O-E=0;H,A,:O-E,0,2、根据概率的乘法法则计算理论数:理论数,转基因方式,阳性种子,假阳性种子,总数,基因枪法,O,1,=192 E,1,=228.8,O,2,=3378 E,2,=3341.2,3570,农杆菌法,O,3,=319 E,3,=231.8,O,4,=3297 E,4,=3384.2,3616,花粉管法,O,5,=194 E,5,=244.4,O,6,=3620 E,6,=3569.6,3814,总数,705,10295,11000,三种方法转化烟草的实验结果的理论数,3、检验统计量:,4、确定自由度:,列联表的自由度,df,=(r-1)(c-1),r是列联表的行数,c是列联表的列数,,df,=(3-1)(2-1)=2,不用做连续性校正,5、拒绝域的建立:,6、结论 三种转基因方法的成功率显著不同。,三、2,2列联表精确检验法,a,b,a+b,c,d,c+d,a+c,b+d,N=a+b+c+d,检验程序:,1、求组合概率:p值表示的是在行总数和列总数保持不变的情况下,上述列联表出现的概率,2、提出假设:列联表精确检验的零假设仍为不存在处理效应,显著水平为,3、检验统计量:即p值,若a、b、c、d中任何一个出现0时,可直接用上述公式计算p值,反之则应当保证行总数和列总数不变的条件下,将4格中最小的那个数再逐个(每次降1)降低到0,得到2个或多个2,2列联表,并计算每种,2,2列联表的p值,并将多个p值之和作为总概率p,4、拒绝域的建立,5、结论,两种农药灭杀棉铃虫效果的差异,农药,存活,死亡,总计,氧化乐果,2,3,5,一扫光,0,6,6,总计,2,9,11,人类性别对白酒香味反应的差异,性别,有,无,总计,男,4,1,5,女,3,6,9,总计,7,7,17,1、p=0.181820.05 两种农药的杀虫效果差异不显著,2、(1)因为4个观测值中没有0出现,先计算本表的概率:p,1,=0.122,(2)因为观测值中最小数是1,在保证行总数和列总数都不变的条件下,将1降到0的情况只有一种,P,2,=0.010,人类性别对白酒香味反应的差异(降序后),性别,有,无,总计,男,5,0,5,女,2,7,9,总计,7,7,17,P=p,1,+p,2,=0.1320.05,结论:男女对该酒精香味的反应没有区别,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 教育专区 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服