1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第九章 直线回归和相关,第一节 回归和相关的概念,第二节 直线回归,第三节 直线相关,第四节 直线回归与相关的内在关系,和应用要点,第五节 协方差分析,前面各章介绍的统计方法都只涉及一个变量,主要是比较它的各组值之间的差异。,但生物学所涉及的问题是多种多样的,对许多问题的研究需要考虑不只一个变量,,例如:,农作物产量与施肥量之间的关
2、系,;,生物的生长发育进度与温度,营养,湿度,等许多变数因素有关,我们常常需要研究类似的多个变量之间的关系。,本章研究对象:,由,一个变量,两个或多个变量,第一节 回归和相关的概念,1.,函数关系与统计关系,2.,自变数与依变数,3.,回归分析和相关分析,4.,两个变数资料的散点图,函数关系 有精确的数学表达式,(,确定性关系,),直线回归分析,一元回归分析,因果关系 曲线回归分析,(,回归分析,),多元回归分析 多元线性回归分析,统计关系 多元非线性回归分析,(,非确定性关系,),简单相关分析,直线相关分析,相关关系 复相关分析,(,相关分析,),多元相关分析,偏相关分析,变量间的关系,函数
3、关系,是一种确定性的关系,例如圆面积与半径的关系为 。其不包含误差的干扰。,统计关系,是一种非确定性的关系。例如,作物的产量与施肥量的关系,两类变数受误差的干扰表现为统计关系。,因果关系,:两个变数间的关系若具有原因和反应,(,结果,),的性质。,相关关系,:呈现一种共同变化的特点,则称这两个变数间存在。,回归分析,:计算回归方程为基础的统计分析方法。,为,Y,依,X,的回归方程。,相关分析,:计算相关系数,并测验其显著性的统计分析方法。相关系数为表示,Y,和,X,相关密切程度的统计数。,这个统计数在两个变数为直线相关时称为,相关系数,,记为,r,;在多元相关时称为,复相关系数,,记作,R,y
4、12,m,;在两个变数曲线相关时称为,相关指数,(correlation index),,记作,R,。,一般规则,:,当两个变数中,Y,含有试验误差而,X,不含试验误差时着重进行回归分析;而当,Y,和,X,均含有试验误差时则着重去进行相关分析。,4.,两个变数资料的散点图,在直角坐标平面上绘制两个变数,X,和,Y,的散点图,(scatter diagram),是考查两个变数之间关系的有效方法。,根据,散点图可初步判定双变数,X,和,Y,间的关系,包括:,X,和,Y,相关的性质,(,正或负,),和密切程度;,X,和,Y,的关系是直线型的还是非直线型的;,是否有一些特殊的点表示着其他因素的干扰等
5、例如图,9.1,是水稻方面的,3,幅散点图,图,9.1A,是单株的生物产量,(,X,),和稻谷产量,(,Y,),,图,9.1B,是每平方米土地上的总颖花数,(,X,),和结实率,(,Y,),,图,9.1C,是最高叶面积指数,(,X,),和每亩稻谷产量,(,Y,),。,从中可以看出:图,9.1A,和,9.1B,都是直线型的,但方向相反;前者,Y,随,X,的增大而增大,表示两个变数的关系是正的,后者,Y,随,X,的增大而减小,表示关系是负的。图,9.1A,的各个点几乎都落在一直线上,图,9.1B,则较为分散;因此,图,9.1A,中,X,和,Y,相关的密切程度必高于图,9.1B,。图,9.1C,
6、中,X,和,Y,的关系是非直线型的;大约在,x,(67),时,,Y,随,X,的增大而增大,而当,x,(67),时,,Y,随,X,的增大而减小。,x,,生物产量,(g),水稻单株生物产量与稻谷产量的散点图,x,,每,m,2,颖花数,(,万,),水稻每,m,2,颖花数和结实率的散点图,x,,最高叶面积指数水稻最高叶面积指数和亩产量的散点图,第二节 直线回归,一、直线回归方程,二、直线回归的假设测验和区间估计,三、直线回归的矩阵求解,一、直线回归方程,(,一,),直线回归方程式,(91),回归截距,(regression intercept,),:,a,是,x,=0,时的值,即回归直线在,y,轴上的
7、截距。,回归系数,(regression coefficient,),:,b,是,x,每增加一个单位,数时,平均地将要增加,(,b,0,时,),或减少,(,b,0,时,),的单位数。,参数,a,和,b,的估计,选取什么样的,a,和,b,可以最好地反映,X,和,Y,之间的关系呢?,一个合理的想法是使残差 最小。,为了避免使正负,e,i,互相抵消,同时又便于数学处理,根据,最小二乘法,我们定义使,残差平方和,达到最小的直线为回归直线,即令,分别对,a,和,b,求偏导数并令其为,0,,,整理后,得正规方程组,(normal equations):,(1),(2),解此方程,先用,(2)-(1),x,
8、/,n,得:,(93),将,(92),代入,(91),可得:,(94),直线回归方程一定通过点,。,再将,(1)/,n,得:,(92),x,y,a,0,b,0,b,0,a,0,图,9.2,直线回归方程的图象,(,二,),直线回归方程的计算,例,9.1,一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续,9,年测定,3,月下旬至,4,月中旬旬平均温度累积值,(,x,,旬,度,),和水稻一代三化螟盛发期,(,y,,以,5,月,10,日为,0),的关系,得结果于表,9.1,。试计算其直线回归方程。,x,累积温,y,盛发期,35.5,34.1,31.7,40.3,36.8,40.2,31.7,3
9、9.2,44.2,12,16,9,2,7,3,13,9,-1,表,9.1,累积温和一代三化螟盛发期的关系,然后,由一级数据算得,5,个二级数据:,首先计算,6,个一级数据,(,即由观察值直接算得的数据,),:,因而有:,故得表,9.1,资料的回归方程为:,上述方程中回归系数,b,的意义为:当,3,月下旬至,4,月中旬的积温,(,x,),每升高,1,旬,度,一代三化螟的盛发期平均将提早,1.1,天;,回归,截距,a,的意义为:若积温为,0,,则一代三化螟的盛发期将在,6,月,2728,日,(,x,=0,时,;因,y,是以,5,月,10,日为,0,,故,48.5,为,6,月,2728,日)。,由于
10、x,的实测区间为,31.7,44.2,,当,x,31.7,或,44.2,时,,y,的变化是否还符合 的规律,观察数据中未曾得到任何信息。,所以,在应用 于预测时,需限定,x,的区间为,31.7,,,44.2,;如要在,x,31.7,或,44.2,的区间外延,则必须有新的依据。,(,三,),直线回归方程的图示,直线回归图包括回归直线的图象和散点图,它可以醒目地表示,x,和,y,的数量关系。,方法:,制作直线回归图时,首先以,x,为横坐标,以,y,为纵坐标构建直角坐标系,(,纵、横坐标皆需标明名称和单位,),;然后取,x,坐标上的一个小值,x,1,代入回归方程得 ,取一个大值,x,2,代入回归方
11、程得 ,连接坐标点 和 即成一条回归直线。如例,9.1,资料,以,x,1,=31.7,代入回归方程得 ;,以,x,2,=44.2,代入回归方程得,=-0.05,。在图,9.3,上确定,(31.7,,,13.69),和,(44.2,,,-0.05),这两个点,再连接之,即为,=48.5485-1.0996,x,的直线图象。,注意:此直线必通过点 ,它可作为制图是否正确的核对。最后,将实测的各对,(,x,i,,,y,i,),数值也用坐标点标于图,9.3,上。,x,,,3,月下旬至,4,月中旬旬平均温度累积值图,图,9.3,旬平均温度累积值和一代三化螟盛发期的关系,图,9.3,的回归直线是,9,个观
12、察坐标点的代表,它不仅表示了例,9.1,资料的基本趋势,也便于预测。,如某年,3,月下旬至,4,月中旬的积温为,40,旬,度,则在图,9.3,上可查到一代三化螟盛发期的点估计值在,5,月,1415,日,这和将,x,=40,代入原方程得到,=48.5485-(1.099640)=4.6,是一致的。因为回归直线是综合,9,年结果而得出的一般趋势,所以其代表性比任何一个实际的坐标点都好。当然,这种估计仍然有随机误差,下文再作讨论。,(,四,),直线回归的估计标准误,Q,就是误差的一种度量,称为,离回归平方和,(sum of squares due to deviation from regressi
13、on),或剩余平方和、残差平方和,。,建立回归方程时用,了,a,和,b,两个统计数,故,Q,的自由度,n,2,回归方程的估计标准误,s,y/x,为,(95),Q,值的计算,=,SS,y,-,b,(,SP,),=,SS,y,-,b,2,(,SS,x,),=,y,i,2,-,a,y,i,-,b,x,i,y,i,(96A),(96B),(96C),(96D),上述公式以,9.6A,计算,Q,值较为准确,。,(,五,),直线回归的数学模型和基本假定,直线回归模型中,,Y,总体的每一个值由以下三部分组成:,回归截距,,,回归系数,,,Y,变数的随机误差,。,总体直线回归的数学模型:,。相应的样本线性组成
14、为:,(97),(98),回归分析时的假定,:,(1),Y,变数是随机变数,而,X,变数则是没有误差的固定变数,至少和,Y,变数比较起来,X,的误差小到可以忽略。,(2),在任一,X,上都存在着一个,Y,总体,(,可称为条件总体,),,它是作正态分布的,其平均数,Y,/,X,是,X,的线性函数:,(99),Y,/,X,的样本估计值 与,X,的关系就是,线性回归方程,(91),。,(3),所有的,Y,总体都具有共同的方差,2,,而直线回归总体具有,N,(,X,2,),。试验所得的一组观察值,(,x,i,,,y,i,),只是,N,(,X,2,),中的一个随机样本。,(4),随机误差,相互独立,并作
15、正态分布,具有,N,(,0,2,),。,二、直线回归的假设测验和区间估计,(,一,),直线回归的假设测验,1,回归关系的假设测验,(1),t,测验,H,0,:,=0,对,H,A,:,0,回归系数,b,的标准误,s,b,为,(910),遵循,n,2,的,t,分布,故由,t,值即可知道样本回归系数,b,来自,=0,总体的概率大小。,例,9.3,试测验例,9.1,资料回归关系的显著性。,已计算出,b,=,-,1.0996,SS,x,=144.6356,s,y/x,=3.266,,故有:,故接受,H,A,:,0,,即回归关系是极显著的。,(911),(,2,),F,测验,当仅以 表示,y,资料时(不考
16、虑,x,的影响),,y,变数具有平方和,和自由度,当以 表示,y,资料时,(,考虑,x,的影响,),,,y,i,的离均差 可分解为两个部分:,总的差异,残差,(,估计误差,),回归引起的偏离,于是,SS,y,可被分解成两个部分,即:,可以证明,故:,Q,:,残差平方和,(,离回归平方和,),n,2,U,:,回归平方和,1,记:,回归和离回归方差的比遵循,1,1,2,n,2,的,F,分布,P,=,FDIST,(16.40,1,7)=0.004876,0.01,故接受,H,A,:,0,,即回归关系是极显著的。,例,9.4,试用,F,检验法测验例,9.1,资料回归关系的显著性。,SS,y,=249.
17、5556,U,=(,SP,),2,/,SS,x,=(-159.044),2,/144.636=174.8886,Q,=249.5556,174.8886=74.6670,表,9.3,例,9.1,资料回归关系的方差,分析,变异来源,DF,SS,MS,F,F,0.01,回归,1,174.8888,174.8888,16.40,12.25,离回归,7,74.6668,10.6667,总变异,8,249.5556,对回归关系进行显著性检验的,F,测验和,t,测验是完全等价的,F,检验为,:,1,1,2,n,2,的,F,分布右尾,P,值,t,检验为,:,n,2,的,t,分布两尾,P,值,2,两,个回归系
18、数比较时的假设测验,H,0,:对,H,A,:,(914),(915),例,9.5,测定两玉米品种叶片长宽乘积,(,x,),和实际叶面积,(,y,),的关系,得表,9.4,结果,试测验两回归系数间是否有显著差异。,表,9.4,玉米叶片长宽乘积和叶面积关系的计算结果,由表,9.4,可得,:,品 种,n,SS,x,SS,y,SP,b,Q,七叶白,22,1351824,658513,942483,0.69718,1420,石榴子,18,1070822,516863,743652,0.69447,420,这一结果是完全不显著的,所以应接受,H,0,:即认为叶片长宽乘积每增大,1,cm,2,,叶面积平均要
19、增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为,:,(二)直线回归的区间估计,1,直线回归的抽样误差,在直线回归总体 中抽取若干个样本时,由于 ,各样本的,a,、,b,值都有误差。因此,由,=,a,+,bx,给出的点估计的精确性,决定于 和,a,、,b,的误差大小。比较科学的方法应是考虑到误差的大小和坐标点的离散程度,给出一个区间估计,即给出对其总体的 、等的置信区间。,2,回归截距的置信区间,由,(9,2),,样本回归截距,a,,,而 和,b,的误差方差分别为:。故根据误差合成原理,,a,的标准误为:,由 是遵循 的,t,分布的。总,体 回归截距有,95,可靠度的置信区间为:,L,
20、1,=,a,-,t,0.05,,,L,2,=,a,+,t,0.05,(917),(918),3,回归系数的置信区间,由,(911),可推得总体回归系数 的,95%,可靠度的置信区间为:,L,1,=,b,-,t,0.05,,,L,2,=,b,+,t,0.05,4,条件总体平均数 的置信区间,由 ,故 的标准误为,:,条件总体平均数,的,95%,置信区间为,:,L,1,=,-,t,0.05,,,L,2,=,+,t,0.05,(921),(920),(919),5,条件总体观察值,Y,的预测区间,将,(9,4),代入,(9,8),y,i,=,+,e,i,,,(922),保证概率为,0.95,的,Y,
21、或,y,的预测区间为,:,L,1,=,-,t,0.05,,,L,2,=,+,t,0.05,(923),6,置信区间和预测区间的图示,首先取若干个等距的,x,值,(,x,取值愈密,作图愈准确),算得与其相应的 、和 、,的值;然后再由 和 算得各,x,上的,L,1,和,L,2,,并标于图上;最后将各个,L,1,和,L,2,分别连成曲线即可。,例,9.10,试制作例,9.1,资料的,y,估计值包括和,y,在内有,95,%,可靠度的置信区间图。,表,9.6,例,9.1,资料的置信区间和,y,的预测区间的计算,(2),(3),(4),(6),(7),(8),(1),x,的,95,置信区间计算,y,的,
22、95,预测区间计算,(5),L,1,,,L,2,30,32,34,36,37,38,40,42,44,46,15.6,13.4,11.2,9.0,7.9,6.8,4.6,2.4,0.2,-2.0,2.21,1.75,1.37,1.13,1.09,1.12,1.35,1.72,2.17,2.66,5.2,4.1,3.2,2.7,2.6,2.6,3.2,4.1,5.1,6.3,10.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.8,17.5,14.4,11.7,10.5,9.4,7.8,6.5,5.3,4.3,3.95,2.72,3.53,3.46,3.4
23、3,3.46,3.53,3.69,3.92,4.21,9.3,8.8,8.3,8.2,8.1,8.2,8.3,8.7,9.3,9.9,6.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.9,22.2,19.5,17.2,16.0,15.0,12.9,11.1,9.5,7.9,一代三化螟盛发期估计及其,95%,置信限,画出,的图像,依次标出,(,x,,,L,1,),和,(,x,,,L,2,),坐标点,,再,连接各,(,x,,,L,1,),得 线,,连接各,(,x,,,L,2,),得 线。连,接各,(,x,,,L,2,),得 线。和,所夹的区间即包括
24、在内有,95,可靠度的置信区间。,称,(,x,,,),的连线 ,,(,x,,,),的连线 。其所夹的区间即,为,y,的,95,的预测区间或预测带。,3,月下至,4,月中旬平均温度累积值,例,9.1,资料的,y,估计值及其,95%,置信带,三、直线回归的矩阵求解,回归分析的,计算程序,可概括为:,算得,6,个一级数据,即,n,、和,由一级数据算得,5,个二级数据,即,SS,x,、,SS,y,、,SP,、和 ;,由二级数据计算,U,和,Q,并进行,F,测验,显著后进一步算出,b,和,a,,获得直线回归方程。,(,一,),直线回归方程的矩阵解法,一个直线回归的样本线性方程,(9,8),可改写为:,
25、n,对观察值可按,(924),写成,n,个等式:,若定义:,(925),(924),X,为系数矩阵或结构矩阵。则,(9,25),可写成矩阵形式:,即:,Y=,Xb+e,(926),要使,(9,26),中的,b,成为回归统计数,必须满足,为最小,。,故由,解得:,即,因此,b,=,(927),其中:为,(),的逆矩阵。的元素用,c,ij,表示,在统计上又称,c,ij,为,高斯乘数,(Gauss multiplier),。,(,二,),直线回归假设测验的矩阵解法,用矩阵方法可以求得,b,向量的方差为:,因而,b,的显著性测验可表示为,:,这一,t,值的自由度为 。,b,i,=,b,0,时即为回归截
26、距的测验;,b,i,=,b,1,时即为回归系数的测验。,(930),(929),在计算,(9,30),中离回归的标准误 时要用到,Q,,其矩阵计算式为:,(931),总平方和,SS,y,及回归平方和,U,的矩阵计算式为:,(,932,),(,932,),中的,1,为由,n,个,1,组成的列向量:,第三节 直线相关,一、相关系数和决定系数,二、相关系数的假设测验,一、相关系数和决定系数,(一)相关系数,有,N,对,(,X,Y,),,在直角坐标平面上绘出散点图;,若将坐标原点平移到,(,X,Y,),处,则各个点的坐标变为,(,X,-,X,Y,-,Y,),;,在第,、,象限,,(,X,-,X,)(,
27、Y,-,Y,)0,在第,、,象限,,(,X,-,X,)(,Y,-,Y,)0,当,(,X,,,Y,),总体呈负相关时,则落在象限,、,的点一定比落在象限,、,的为多,故 一定为负;且落在象限,、,的点所占的比率愈大,此负值的绝对值也愈大。,X,Y,负相关,0,表示正相关,,r,t,0.01,7,P,r,0.01,,故,r,是极显著的。,P376,:,附表,10,列出了,=0.05,和,=0.01,的临界,r,值。,(,二,),=,C,的假设测验,测验一个实得的,r,与某个理论相关系数,C,是否有显著差异,其统计假设为,H,0,:,=,C,对,H,A,:,C,。,在,0,时,,r,的抽样分布具有很
28、大的偏态,(,图,9.6,),且随,n,和,的取值而异,类似,(937),的转换已不再能由,t,分布逼近。,可将,r,转换为,z,值:,(939),图,9.6,不同时的,r,的抽样分布,(,n,=8,),则,z,近似于正态分布,具有平均数,z,和标准差,z,:,(940),(941),由,可测验,H,0,:,=,C,。,(942),例,9.13,已经算得例,9.1,资料的,r,=,-,0.8371,,试测验其与,=,-,0.30,的差异显著性。,u,0.05,=1.96,|,u,|,u,0.05,所以接受,H,A,,即在,=0.05,的显著性水平上,r,=,-,0.8371,不可能取自,=,-
29、0.30,的总体。,(,三,),1,=,2,的假设测验,测验两个样本相关系数,r,1,和,r,2,所分别来自的总体相关系数,1,和,2,是否相等,因此有,H,0,:,1,=,2,对,H,A,:,1,2,。,由于,r,转换成,z,后才近似正态分布,故这一测验也必须经由,(9,39),和,(9,40),的,z,转换进行。,两个,z,值的差数标准误为:,(943),由,可测验,H,0,:,,亦即测验,H,0,:,1,=,2,。,在,H,0,:,1,=,2,被接受时,应将,r,1,和,r,2,合并为一个,r,来,表示整个资料的相关情况。合并的方法是将两样 本的平方和、乘积和分别相加后再代入,(9,3
30、4),。,即,(944),第四节 直线回归与相关的内在关系和应用要点,一、直线回归与相关的内在关系,二、直线回归和相关的应用要点,一、直线回归与相关的内在关系,(1),相关系数是标准化的回归系数,回归系数,b,是有单位的,但若对,b,作消去单位的标准化处理,即对,b,中,x,和,y,的离均差以各自的标准差,s,x,和,s,y,为单位,则有:,所以,有时把相关系数称为标准回归系数。,(2),相关系数,r,是,y,依,x,的回归系数,b,y,/,x,和,x,依,y,的回归系数,b,x,/,y,的几何平均数。,若对同一资料计算,x,依,y,的回归,则有,b,x,/,y,=,SP,/,SS,y,,因此
31、3),线性回归方程也可用相关系数表示,因为,所以由,(9,4),表示的回归方程可改写成:,(4),回归平方和,U,、离回归平方和,Q,也可用相关系数表示。,二、直线回归和相关的应用要点,(1),回归和相关分析要有学科专业知识作指导。,(2),要严格控制研究对象,(,X,和,Y,),以外的有关因素,即要在,X,和,Y,的变化过程中尽量使其它因素保持稳定一致。,(3),直线回归和相关分析结果不显著,并不意味着,X,和,Y,没有关系,而只说明,X,和,Y,没有显著的线性关系,它并不能排除两变数间存在曲线关系的可能性。,(4),一个显著的,r,或,b,并不代表,X,和,Y,的关系就一定是线性的,因
32、为它并不排斥能够更好地描述,X,和,Y,的各种曲线的存在。,(5),在,X,和,Y,的一定区间内,用线性关系作近似描述是允许的,它的精确度至少要比仅用 描述,y,变数有显著提高。但是研究结果的适用范围应加以限制,一般应以观察区间为准;外推到这一区间之外是危险的,因为该区间之外,X,和,Y,的关系是否仍为线性,试验未给出任何信息。,(6),一个显著的相关或回归并不一定具有实践上的预测意义。,(7),为了提高回归和相关分析的准确性,两个变数的样本容量,n,(,观察值对数,),要尽可能大一些,至少应有,5,对以上。,作业,P190,第,5,题,第五节 协方差分析,一、协方差分析的意义和功用,二、单向
33、分组资料的协方差分析,三、两向分组资料的协方差分析,一、协方差分析的意义和功用,(,一,),协方差分析的意义,协方差,(covariance),是两个变数的互变异数。,对于一个具有,N,对,(,X,,,Y,),的有限总体,其定义为:,(945),对于由,n,对,(,x,,,y,),组成的样本,则可定义:,样本协方差是乘积和与自由度的商,即平均的乘积和。一般又称为,均积,(mean products),或协方,,记作,MP,,它是总体协方差,cov,的估值。,协方差分析,(analysis of covariance),是将,回归分析,和,方差分析,综合起来的一种统计方法。,(946),(,二,
34、),协方差分析的功用,1.,当(,x,,,y,)为,因果关系,时,,可利用,y,依,x,的回归系数矫正,y,变数的处理平均数,,提高精确度。,2.,当(,x,,,y,)为,相关关系,时,,可通过估计不同变异来源的总体方差和协方差,,作出相应的相关分析。,二、单向分组资料的协方差分析,(,一,),资料模式与线性组成,设有,k,组回归样本,每组各有,n,对观察值,则该资料共有,kn,对数据,其模式如表,9.8,。,组 别,观,察,值,总和,平均,1,x,11,x,12,x,13,x,1,n,y,11,y,12,y,13,y,1,n,2,x,21,x,22,x,23,x,2,n,y,21,y,22,
35、y,23,y,2,n,k,单向分组资料协方差分析的样本线性组成为:,(9,47,A,),将,(9,47A),移项得:,(947B),和,(9,47C),(,二,),乘积和和自由度的分解,上式中和的,i,=,1,,,2,,,3,,,,,k,。,其中:,(,949,),(,948,),如果各组的,n,不等,分别为,n,1,、,n,2,、,、,n,k,,其和为,则,其相应自由度为 、,、,。,(950),(,三,),回归关系的协方差分析,协方差分析解决问题的步骤如下:,(1),列出处理间、处理内和总变异的,DF,、,SS,x,、,SS,y,和,SP,。,(2),测验,x,和,y,是否存在直线回归关系
36、3),测验矫正平均数间的差异显著性。,(4),如果所得,F,为不显著,表明间无显著差异;如果,F,为显著,则必须算出各个,进行多重比较,作出相应推断。,(,四,),相关关系资料的协方差分析,相关关系资料的协方差分析主要讨论两个互有联系的总体的相关问题。,例,9.16,为研究小麦品种经济性状的数量遗传,随机抽取,90,个品种,在田间每品种皆种成,4,个小区,(,每小区,1,行,),,共,90,4=360,个小区,完全随机排列。得到小穗数,(,x,),和百粒重,(,y,),的方差和协方差分析结果于表,9.13,。,表,9.13 90,个小麦品种的小穗数,(,x,),和百粒重,(,y,),的方
37、差分析与协方差分析,+4,变异来源,DF,x,的方差分析,y,的方差分析,(,x,,,y,),的协方差分析,SS,MS,EMS,SS,MS,EMS,SP,MP,EMP,品种间,89,597.99,6.7190,87.8251,0.9868,-127.426,-1.4322,品种内,270,108.81,0.4030,8.3161,0.0308,9.961,0.0369,总变异,359,706.80,96.1412,-117.501,表,9.13,中,,x,和,y,两者的方差分析按第六章第三节的方法作出;,(,x,,,y,),的,SP,则由,(9,49),求出。将各,SP,除以相应的,DF,,即
38、得平均的乘积和,即,MP,。期望协方,EMP,的分量和随机模型的,EMS,相同,仅是以协方差符号,cov,代替,2,。这是处理,(,品种,),效应 为随机型的资料,目的不是研究特定的品种,而是研究抽出这些品种的小麦总体,因而需估计有关总体参数。,由表,9.13,中的,MS,和,EMS,的关系可得:,由表,9.13,中,MP,和,EMP,的关系得:,因此,小穗数和百粒重的环境相关系数,r,e,为:,品种,(,基因型,),相关系数,r,g,为:,以上,r,e,所对应的自由度是,k,(,n,-1)-1=269,,为极显,著;,r,g,的假设测验比较复杂,其简单近似是具自由,度,k,-2=88,,亦为
39、极显著。,根据以上方差和协方差分量,还能估计出小穗数和,百粒重的表型相关,r,p,可估计为:,三、两向分组资料的协方差分析,(,一,),资料模式与线性组成,若资料有,m,类,k,组,则,mk,对观察值按两向分类,其模式如表,9.14,。,表,9.14,两向分组的两个变数的符号,样本线性组成为:,(954A),移项后可得:,(954,B,),和,(954,C,),(,二,),乘积和和自由度的分解,表,9.14,的总,SP,可分解为类间、组间和误差三部分,其值为:,(,955,),(三),协方差分析,两向分组资料的协方差分析和单向分组资料并无原则上的不同,只是多了一个方向的变异来源。,例,9.17
40、表,9.15,是研究施肥期和施肥量对杂交水稻南优,3,号结实率影响的部分结果,共,14,个处理,,2,个区组,随机区组设计。由于在试验过程中发现单位面积上的颖花数对结实率似有明显的回归关系,因此将颖花数,(,x,,万,/,m,2,),和结实率,(,y,,,%,),一起测定。该试验的处理效应为固定型,故按因果关系资料回归模型作协方差分析。,表,9.15,南优,3,号的颖花数(,x,)和结实率(,y,)资料,处理,区,组,T,i,I,II,x,y,x,y,x,y,1,2,3,4,5,6,7,8,9,10,11,12,13,14,4.59,4.09,3.94,3.90,3.45,3.48,3.39
41、3.14,3.34,4.12,4.12,3.84,3.96,3.03,58,65,64,66,71,71,71,72,69,61,63,67,64,75,4.32,4.11,4.11,3.57,3.79,3.38,3.03,3.24,3.04,4.76,4.75,3.60,4.50,3.01,61,62,64,69,67,72,74,69,69,54,56,62,60,71,8.91,8.20,8.05,7.47,7.24,6.86,6.42,6.38,6.38,8.88,8.87,7.44,8.46,6.04,119,127,128,135,138,143,145,141,138,115,
42、119,129,124,146,4.455,4.100,4.025,3.735,3.620,3.430,3.210,3.190,3.190,4.440,4.435,3.720,4.230,3.020,59.5,63.5,64.0,67.5,69.0,71.5,72.5,70.5,69.0,57.5,59.5,64.5,62.0,73.0,64.76,66.03,65.95,67.22,67.84,68.87,68.18,66.02,64.53,62.64,64.60,64.10,65.53,67.22,T,r,52.39,937,53.21,910,105.60,1847,首先用两向分组资料的
43、通常方法算得表,9.15,资料的各项平方和于表,9.16,,乘积和则由以下各式算出:,SP,T,=,(4.5958)+(4.0965)+(3.0171),=,-73.60,SP,R,=,SP,t,=,SP,e,=,-73.60-(-0.79)-(-66.37),=,-6.44,表,9.16,表,9.15,资料的平方和和乘积和,变,异,来,源,SS,x,SS,y,SP,总 变 异,7.7344,802.96,-73.60,区 组 间,0.0240,26.03,-0.79,处 理 间,6.8732,694.46,-66.37,误 差,0.8372,82.47,-6.44,有了上述结果,就可先对,x
44、和,y,变数各作一方差分,析,见表,9.17,。,表,9.17,表,9.15,资料的方差分析,变,异,来,源,DF,x,变,数,y,变,数,F,0.01,SS,MS,F,SS,MS,F,区,组,间,1,0.0240,0.0240,1,26.03,26.03,4.10,处,理,间,13,6.8732,0.5288,8.20,*,694.46,53.42,8.42,*,3.90,误,差,13,0.8372,0.0645,82.47,6.34,表,9.17,的,F,测验说明:不同处理的颖花数和结实率都有极显著的差异。所以更需要进行协方差分析,以明了各处理结实率的不同到底是处理的直接效应,还是通过颖
45、花数的变化而产生的间接效应。,由表,9.16,和,9.17,结果,可作成协方差分析表于表,9.18,。,表,9.18,表,9.15,资料的协方差分析,变异来源,DF,SS,x,SS,y,SP,b,离回归的分析,DF,Q,MS,F,F,0.05,处理,+,误差,26,7.7104,776.93,-72.81,25,89.38,处 理,13,6.8732,694.46,-66.37,误 差,13,0.8372,82.47,-6.44,-7.6923,12,32.93,2.74,矫 正 平 均 数 间 的 差 异,13,56.45,4.34,1.58,2.66,在表,9.18,的变异来源栏中,没有写
46、上区组和总变异这是由于在田间试验中,区组只是局部控制的一种手段,在分析结果时只需剔除它的影响,而不需研究其效应。又由于总变异中是包括区组变异的,所以也予剔除,而以,“,处理,+,误差,”,代替。这里的,“,处理,+,误差,”,和单向分组资料的总变异同义,参见表,9.11,。,表,9.18,中误差项的回归为极显著,,F,=,(82.47-32.93)/2.74,=,18.08,。由于误差项的回归系数和各处理的特点无关,故,b,=,-7.6923,对各处理的进行矫正。,-7.6923,的意义为:颖花数,x,每增加,1(,万,/m,2,),,,结实率,y,将下降,7.6923,。,本试验的,=,10
47、5.60/28,=,3.7714(,万,/,m,2,),一并代入,(9,51),,即有方程:,+7.6923,(,-3.7714,),上式可用来将各处理的结实率都矫正到颖花数为每,平方米,3.7714,万个时的结实率。如处理,1,为:,=,59.5+7.6923(4.455-3.7714),=,64.76,(,%,),处理,2,为:,=,63.5+7.6923(4.100-3.7714),=,66.03,(,%,),处理,14,为:,=,73.0+7.6923(3.020-3.7714),=,67.22,(,%,),这样算得的,值列于表,9.15,末列。它们已和单位面积上的颖花数多少无关,故在
48、相互比较时就更为真实。但是,在未算出这些,值之前,已可从表,9.18,上获得有关它们的重要信息。,将表,9.18,离回归分析部分,“,处理,+,误差,”,项的自由度和平,方和,分别减去误差项的自由度和平方和,即为,这些,值的自由度和平方和,其,F,=1.58,,是不显著的。由此说明各处理,的矫正平均数之间并无显著差异,因而不需要再对各矫正平均数间的差数作假设测验,如果间的,F,测验是显著的,则需应用,(9,52),计算差数标准误,s,D,,进行矫正平均数间的比较,。,综上所述,这个肥料试验的基本信息是:,1,不同的施肥期和施肥量对南优,3,号单位面积上的颖花数和结实率都有极显著的影响。,2,结实率的高低主要是由颖花数的不同造成的;,即不同的施肥期和施肥量造成了单位面积上颖花数的差异,进而引起结实率的差异。如果将各处理的颖花数都矫正到同一水平,则不同处理的结实率没有显著差异。,3,在本试验中,不同的施肥期和施肥量对南优,3,号的结实率只有间接的效应,没有直接效应。,






