1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,次数分布,7.4,独立性测验,7.4,独立性测验,独立性测验,(test for independence),主要为探求两个变数间是否独立,这是次数资料的一种相关性研究。,7.4,独立性测验,独立性测验,(test for independence),计算过程,:,将所得次数资料按两个变数作两向分组,排列成相依表,根据两个变数相互独立的假设,算出每一组格的理论次数,由 算得 值,7.4,独立性测验,独立性测验,(test for independence),H,0,:两个变数相互独立;,H,A,:两个变数彼
2、此相关,自由度,DF,(,r-1,),(c-1),当观察的,2,时,接受,H,0,,即两个变数相互独立,当观察的,2,时,接受,H,0,,即两个变数相互独立,6.4.1 22表的独立性测验,22,相依表,指横行和纵行皆分为两组的资料,其,=(2-1)(2-1)=1,计算的,2,值需作连续性矫正,a,11,a,12,R,1,a,21,a,22,R,2,C,1,C,2,n,表,7.8 22,表的一般化形式,6.4.1 22表的独立性测验,调查经过种子灭菌处理与未经种子灭菌处理的小麦发生散黑穗病的穗数,得相依表如下,试分析种子灭菌与否和散黑穗病穗多少是否有关,处理项目,发病穗数,未,发病穗数,总数,
3、种子灭菌,26(34.7),50(41.3),76,种子未灭菌,184(175.3),200(208.7),384,总数,210,250,460,6.4.1 22表的独立性测验,H,0,:种子灭菌与否和散黑穗病病穗多少无关;,H,A,:种子灭菌与否和散黑穗病病穗多少有关。,显著水平,=0.05,。,测验计算,6.4.1 22表的独立性测验,在,H,0,为正确的假设下,对于,11,细格,由于它是属于种子灭菌的,故种子作灭菌处理的概率为,76/460,它又是属于发病穗数的,发病穗数的概率为,210/460,因此,任一经种子作灭菌处理而又发病的麦穗的概率为,p,11,=(76/460)(210/46
4、0),,,6.4.1 22表的独立性测验,因此格子,11,的理论次数为:,E,11,=,p,11,n,=(76/460)(210/460)460=34.7,用同样的方法算出其余格子的理论次数,=(2-1)(2-1)=1,6.4.1 22表的独立性测验,查附表,6,,现实得,故,P1,,故无需作连续性矫正,横行因素,纵 行 因 素,总 计,1,2,i,c,1,a,11,a,12,a,1,i,a,1,c,R,1,2,a,21,a,22,a,2,i,a,2,c,R,2,总 计,C,1,C,2,C,i,C,c,n,2,C,表的一般化形式,6.4.2 2c表的独立性测验,例,:,进行大豆等位酶,Aph,
5、的电泳分析,,193,份野生大豆、,223,份栽培大豆等位基因型的次数列于下表,试分析大豆,Aph,等位酶的等位基因频率是否因物种而不同。,物种,等位,基因,总计,1,2,3,野生大豆,29(23.66),68(123.87),96(45.47),193,栽培大豆,22(27.34),199(143.13),2(52.53),223,总计,51,267,98,416,6.4.2 2c表的独立性测验,假设,H,0,:等位基因频率与物种无关,H,A,:不同物种等位基因频率不同,显著水平,=0.05,否定,H0,,接受,HA,。不同物种,Aph,等位基因频率有显著相关,6.4.3,rc表的独立性测验
6、若横行分,r,组,纵行分,c,组,且,r,3,,,c,3,,则为,r,c,相依表,其,=(,r,-1)(,c,-1),横行因素,纵 行 因 素,总 计,1,2,i,c,1,a,11,a,12,a,1,i,a,1,c,R,1,2,a,21,a,22,a,2,i,a,2,c,R,2,j,a,j,1,a,j,2,a,ji,a,jc,R,j,r,a,r,1,a,r,2,a,ri,a,rc,R,r,总 计,C,1,C,2,C,i,C,c,n,r,c,表的一般化形式,6.4.3,rc表的独立性测验,例,:,下表为不同灌溉方式下水稻叶片衰老情况的调查资料。试测验稻叶衰老情况是否与灌溉方式有关。,灌溉方式,
7、绿叶数,黄叶数,枯叶数,总计,深水,146(140.69),7(8.78),7(10.53),160,浅水,183(180.26),8(11.24),13(13.49),205,湿润,152(160.04),14(9.98),16(11.98),182,总计,481,30,36,547,6.4.3,rc表的独立性测验,假设,H,0,:稻叶衰老情况与灌溉方式无关;对,H,A,:稻叶衰老情况与灌溉方式无关,取,=0.05,接受,H,0,:不同的灌溉方式对水稻叶片的衰老情况没有显著影响,6.5,的可加性和联合分析,6.5,的可加性和联合分析,例,7.11,表,7.13,给出三个大豆组合,F,3,家系
8、世代对豆秆黑潜蝇抗性家系与感性家系的分离数据,每一家系由,1,个,F,2,单株衍生,抗性家系中包括有全抗家系及抗感分离的家系。,经对三个组合分别的 测验,均符合,3,抗,1,感理论分离比例,。,现要求进一步检测三组合综合起来是否符合,31,分离比例,,,三组合间是否一致符合,31,分离比例,或三组合是否具同质性,。,组 合,母本,P,1,父本,P,2,F,3,P,O,E,江宁剌文豆,邗江秋稻黄乙,抗,20,0,73,75,感,0,20,27,25,0.21,0.12,0.50,0.75,合计,20,20,100,100,无锡长箕光甲,邳县天鹅蛋,抗,20,0,62,68.25,感,0,20,2
9、9,22.75,2.29,1.94,0.10,0.25,合计,20,20,91,91,邳县天鹅蛋,南农,1138-2,抗,0,20,90,95.25,感,20,0,37,31.75,1.16,0.96,0.25,0.50,合计,20,20,127,127,三组合综合,抗,225,238.5,3.06,2.83,0.05,0.10,感,93,79.5,合计,318,318,三组合累计,3.66,三个大豆组合,F,3,家系世代对豆秆黑潜蝇抗性的分离数据,(,理论分离比为,3,抗,1,感,),H,0,:三组合综合起来符合,3,抗,1,感分离比例,,H,A,:综合群体不符合,31,分离比例,及,H,0
10、三组合的分离比表现同质,一致为,31,,,H,A,:三组合分离比例不同质。,要测验上列假设,必须计算出相应的 值,因为 不具可加性,只有 值具有可加性。,6.5,的可加性和联合分析,三个组合综合为一群体时的 值,或称为,=3.06,,亦具,1,个自由度,这一值可用以测验第一个无效假设,根据其概率为,0.05,0.10,,可推论三合一的群体总的分离比例亦符合,31,。,6.5,的可加性和联合分析,三组合各 的总和,=3.66,,具有,3,个自由度,若将这,3,个自由度分解,1,个归属于三组合间的共性,2,个归属于三组合间的个性,,可用以测验第二个无效假设,三个组合的同质性,6.5,的可加性和
11、联合分析,三个组合的同质性,=0.60,时,P=0.50,0.75,说明符合同质性假设的概率甚大,接受此假设,因而三个组合表现一致的,31,分离比例是确实的,可推论大豆对豆秆黑潜蝇的抗性是由,1,对显性基因控制的,组合间表现出一致的结果,6.5,的可加性和联合分析,本例中因试验结果很一致,因而引出了共同的结论,若各个 的结果出入较大,与个别组合的结果不一致,表现出显著性,那么将着重分析各组合间的非同质性及各组合的特异性,6.5,的可加性和联合分析,次数分布,第九章 直线回归和相关,9.1,回归和相关的概念,前面几章讨论的资料和统计方法只着重,一个单独变数,,例如产量等变数的分布及其特征,在农业
12、试验工作中,大部分问题是包括,两个或两个以上变数,在一起变异的问题,例如降雨量、温度和光照等气候因子对番茄产量的影响等。,9.1,回归和相关的概念,把许多种变数摆在一起的研究,目的在于发现它们之间存在的规律性,以,预测或估计变数间的变异趋向,,在统计上称作回归与相关研究,研究两个变数之间关系时,因变数不同而有两种不同的研究方法。,9.1,回归和相关的概念,1.,变数之间的关系,9.1,回归和相关的概念,函数关系,是一种一一对应的确定关系,不包含误差的干扰,x,y,9.1,回归和相关的概念,统计关系,一种非确定的关系,一个变数取值受到另一个变数的影响,两者之间既有关系,但又不是完全确定的函数关系
13、变数之间的关系受到误差的干扰,x,y,9.1,回归和相关的概念,2.,自变数和依变数,9.1,回归和相关的概念,3.,回归分析和相关分析,回归分析,对具有因果关系的两个变数,可以推算出,Y,随,X,改变的方程,此时的方程称为,Y,依,X,的回归方程(,regression equation of Yon X,),以计算回归方程为基础的分析方法称为回归分析,原则上两个变数中,Y,含有试验误差而,X,不含有试验误差时着重进行回归分析,9.1,回归和相关的概念,3.,回归分析和相关分析,回归分析的类型,一个自变量,两个及两个以上自变量,回归模型,多元回归,一元回归,线性回归,非线性回归,线性回归,
14、非线性回归,9.1,回归和相关的概念,3.,回归分析和相关分析,相关分析,对具有相关关系的两个变数,可以计算出表示相关密切程度的统计数,并检验其显著性,通常在,Y,和,X,均含有误差时着重进行相关分析,9.1,回归和相关的概念,3.,回归分析和相关分析,相关分析,在直线相关时,这一统计数称为相关系数,(correlation coefficient),记为,r,在多元相关时称为复相关系数(,multiple correlation,)记为,R,y.1.2m,曲线相关时称为相关指数,(correlation index),记为,R,9.1,回归和相关的概念,3.,回归分析和相关分析,相关系数的种
15、类,9.1,回归和相关的概念,回归分析和相关关系,对具有因果关系的两个变数,统计分析的任务是由试验数据推算一个方程为,y,依,x,的回归方程,对具有相关关系的两个变数,统计分析的目标是计算表示,y,和,x,相关密切和程度的统计数并测其显著性,9.1,回归和相关的概念,回归分析和相关关系,原则上,y,含有试验误差而,x,不含试验误差时着重进行回归分析;,y,和,x,均含有试验误差时则着重去进行相关分析,但没有明显的界限,而实际它们的分析包括着相互的信息,9.1,回归和相关的概念,两个变数资料的散点图,对具有统计关系的两个变数资料,将其观测值分别以坐标点的形式标记与同一直角坐标平面上,获得散点图(
16、scatter diagram),通过散点图可以初步判定变数之间的关系,相关的性质和密切程度,变数的关系是直线型,还是非直线型,是否有一些特殊的点表示着其他因素的干扰,9.1,回归和相关的概念,1,2,3,4,x,生物产量,(g),0.0,0.5,1.0,1.5,2.0,y,稻谷产量,(g),水稻单株生物产量与稻谷产量的散点图,9.1,回归和相关的概念,3.2,3.6,4,4.4,4.8,x,每平方米颖花数,(,万,),0,55,60,65,70,75,y,结实率,(%),水稻每平方米颖花数和结实率的散点图,9.1,回归和相关的概念,3,4,5,6,7,8,9,0,250,300,350,4
17、00,450,x,最高叶面积指数,y,产量,(kg/,亩,),水稻最高叶面积指数和亩产量的散点图,9.2,直线回归,9.2.1,直线回归方程,1.,直线回归方程式,在散点图上呈直线趋势的两个变数,如果要概括其在数量上的互变规律,即从,X,的变化来预测或估计,Y,的变化,则要采用直线回归方程来描述,linear regression equation,是和,x,对应的依变数的点估计值,a,是回归截距,(regression intercept),b,是回归系数,(regression coefficient),要使 能够最好地代表,y,和,x,在数量上的互变关系,必须使,X,Y,9.2.1,直线
18、回归方程,1.,直线回归方程式,分别对,a,和,b,求偏导数并另其为,0,,即可获得,正规方程组,(normal equations):,9.2.1,直线回归方程,1.,直线回归方程式,正规方程组,解之得:,9.2.1,直线回归方程,1.,直线回归方程式,是,x,的离均差和,y,的,离均差的乘积和,简称为乘积和,(sum of products),,记作,SP,分母是,x,的离均差平方和,记作,SS,x,9.2.1,直线回归方程,1.,直线回归方程式,a,、,b,的取值及意义,A,、,b,皆可正可负,若,b,0,或和,0,的差异不显著,表明,y,的变异和,x,的取值大小无关,,直线回归关系不能
19、成立,9.2.1,直线回归方程,X,Y,9.2.1,直线回归方程,2.直线回归的计算,例,一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续,9,年测定,3,月下旬至,4,月中旬旬平均温度累积值,(x,旬,.,度,),和水稻一代三化螟盛发期,(y,以,5,月,10,日为,0),的关系,得结果于下表。试计算其直线回归方程。,Y,12,16,9,2,7,3,13,9,-1,X,35.5,34.1,31.7,40.3,36.8,40.2,31.7,39.2,44.2,9.2.1,直线回归方程,由观察值计算一级数据,9.2.1,直线回归方程,由,一级数据计算二级数据,9.2.1,直线回归方程,因
20、而有:,从而得到回归方程:,9.2.1,直线回归方程,对回归方程的解析,回归系数的意义:当,3,月下旬至,4,月中旬的积温每提高,1,旬,.,度时,一代三化螟虫的盛发期平均将提早,1.1,天,截距的意义:若积温为,0,,则一代三化螟虫的盛发期将在,6,月,27,28,日,由于,x,的实测区间为,31.7,44.2,根据回归方程对,Y,的预测只能内插而不能外延,9.2.1,直线回归方程,三、直线回归方程的图示,30,34,38,42,5/5 -5,5/10 0,5/15 5,5/20 10,5/25 15,(,月,/,日,),x,3,月下旬至,4,月中旬平均温度累积值,y,一代三化螟盛发期,9.
21、2.1,直线回归方程,例,.,在粉皮冬瓜雌花谢花后,7,11,天测量果实纵径,获得如下数据,试作回归分析,谢花后天数,x,7,8,9,10,11,果实纵径,y,14.3,16.8,17.2,17.6,18.5,9.2.1,直线回归方程,9.2.1,直线回归方程,例,.,测得大红番茄果实横径与果重的一组数据资料,试作横径与果重两个变数间的回归分析。,果实横径,x,10,9.6,9.2,8.9,8.5,8,7.8,7.7,7.4,7,果重,y,140,132,130,121,116,108,105,106,95,90,9.2.1,直线回归方程,9.2.1,直线回归方程,四、直线回归的估计标准误,满
22、足 为最小的直线回归方程和实测的观察点并不重合,表明该回归方程仍然存在随机误差。,Q,就是误差的一种度量,称之为,离回归平方和,(sum of squares to deviation from regression),或,剩余平方和,9.2.1,直线回归方程,四、直线回归的估计标准误,满足 为最小的直线回归方程和实测的观察点并不重合,表明该回归方程仍然存在随机误差。,Q,就是误差的一种度量,称之为,离回归平方和,(sum of squares to deviation from regression),或,剩余平方和,9.2.1,直线回归方程,四、直线回归的估计标准误,由于在建立回归方程时用
23、了,a,和,b,两个统计数,故,Q,的自由度,=,n,-2,因而,可定义回归方程的估计标准误为:,越小,各观测值点越靠近回归曲线,反之,越远,9.2.1,直线回归方程,四、直线回归的估计标准误,Q,值的计算:,9.2.1,直线回归方程,四、直线回归的估计标准误,Q,值的计算:,9.2.1,直线回归方程,四、直线回归的估计标准误,Q,值的计算:,使用,EXCEL,中,STEYX,函数计算,返回通过线性回归法计算每个,x,的,y,预测值时所产生的标准误差。标准误差用来度量根据单个,x,变量计算出的,y,预测值的误差量。,语法,STEYX,(,known_ys,known_xs,),Known_ys
24、为因变量数据点数组或区域。,Known_xs,为自变量数据点数组或区域。,9.2.1,直线回归方程,五、直线回归的数学模型和基本假定,数学模型,样本的线性组成为:,9.2.1,直线回归方程,五、直线回归的数学模型和基本假定,基本假定:,Y,是随机变数,而,X,是没有误差的固定变数,至少和,Y,比较起来,X,的误差小到可以忽略,在任一,X,上都存在一个,Y,的总体,是作正态分布的,其平均数是,X,的线形函数,9.2.1,直线回归方程,五、直线回归的数学模型和基本假定,基本假定:,所有,Y,总体都具有共同的方差 ,这一方差不因,X,的不同而不同,直线回归总体具有,随机误差项 相互独立,并作正态分布,具有,9.2.1,直线回归方程,






