资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,一类是变量间存在着完全确定性的关系,可以用精确的数学表达式来表示。,如长方形的面积(,S,)与 长(,a,)和 宽(,b,),S=ab,。,它们之间的关系是确定性的,只要知道了其中两个变量的值就可以精确地计算出另一个变量的值,这类变量间的关系称为,函数关系,。,变 量 间 的 关 系,另一类是 变 量 间不存在完全的确定性关系,不能用精确的数学公式来表示。,如人的身高与体重的关系,作物种植密度与产量的关系,食品价格与需求量的关系等等,特点:这些变量间都存在着十分密切的关系,但不能由一个或几个变量的值精确地求出另一个变量的值。,像这样一类关系在生物界中是大量存在的,统计学中把这些变量间的关系称为,相关关系,,把存在相关关系的变量称为,相关变量,。,相关变量间的关系一般分为两种:,一种是,因果关系,,即一个变量的变化受另一个或几个变量的影响。,如小麦的生长速度受遗传特性、营养水平、管理条件等因素的影响。,子代的体高受亲本体高的影响;,另一种是,平行关系,,它们互为因果或共同受到另外因素的影响。,如人的身高和胸围之间的关系属于平行关系。,同胞间的身高或体重,X,Y,1,Y,2,Y,3,结果,原因,X,Y,Y,X,1,X,2,X,3,原因,结果,函数关系 有精确的数学表达式,(确定性的关系),直线回归分析,曲线回归分析,一元回归分析,简单相关分析 直线相关分析,因果关系,(回归分析),变量间的关系,多元非线性回归分析,多元线性回归分析,相关关系,平行关系,(相关分析),多元相关分析,复相关分析,偏相关分析,多元回归分析,非确定性的关系,第一节 直线回归,一、直线回归方程的建立,对于两个相关变量,一个变量用,x,表示,另一个变量用,y,表示,如果通过试验或调查获得两个变量的n对观测值:,(,x,1,,,y,1,),(,x,2,,,y,2,),(,x,n,,,y,n,),为了直观地看出,x,和,y,间的变化趋势,可将每一对 观 测 值 在 平 面直角坐标系描点,作出散点图,直线回归分析,二维散点图,作为相关分析最直观的表达形式莫过于用两变量值绘制的散点分布图,从散点图可以看出:,两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);,散点图,直观地、定性地,表示了两个变量之间的关系。为了探讨它们之间的规律性,还必须根据观测值将其内在关系,定量地,表达出来。,两个变量间有关或无关;若有关,两个变量间关系类型,是直线型还是曲线型;,如果把变量,y,与,x,内在联系的总体直线回归方程记为,y,=,x,依变量y的实际观测值总是带有随机误差,因而依变量y的实际观测值,y,i,可用自变量x的实际观测值x,i,表示为:,(,i,=1,2,n,),直线回归的,数学模型,总体线性回归模型的图示,Y,X,观察值,观察值,总体线性回归模型,依变量,自变量,参数,随机误差,y条件平均数,在,x,、,y,直角坐标平面上可以作出无数 条直线,我们,把所有直线中最接近散点图中全部散点的直线用来表示,x与y,的直线关系,,这条直线称为,回归直线,。,设回归直线的方程为:,其中,是的估计值,,b,是的估计值。,、b,应使回归估计值 与实际观测值,y,的偏差平方和最小,,即:,总的离回归平方和,即剩余平方和,根据微积分学中的求极值的方法,令 Q对,a、b,的一阶偏导数等于0,即:,最小,整理得关于,、b,的,正规方程组,:,解正规方程组,得,:,分子是自变量,x,的离均差 与 依 变 量,y,的 离 均 差 的 乘 积和,,简 称,乘积和,,记作,分母是自变量,x,的,离均差 平方和,,记作,SS,X,。,b,叫做样本,回归系数,,,表 示,x,改 变一个单位,y平均改变的数量,。,b,的符号反映了,x,影响,y,的性质,,b,的绝对值大小反映了,x,影响,y,的 程度,叫做,回归估计值,,是当,x,在在其研究 范 围 内取某一个值时,y,值平均数,的估计值。,叫做样本,回归截距,,是回归直线与,y,轴交点的纵坐标,当,x,=0时,=,;,回归方程的基本性质:,如果将 式代入 式,得到回归方程的另一种形式(,中心化形式,):,性质1,最小;,性质2,;,性质3,回 归 直 线 通 过 点,。,【例8-1】食品感官评定时,测得食品甜度与蔗糖浓度的关系如表8-1所示,试建立,y,与,x,的直线回归方程。,蔗糖质量分数x%,1.0,3.0,4.0,5.5,7.0,8.0,9.5,甜度 y,15,18,19,21,22.6,23.8,26,表8-1 食品甜度与蔗糖浓度的关系,(1)作散点图,以蔗糖质量分数(,x,)为横坐标,甜度(,y,)为纵坐标作散点图,如图8-2所示。,图8-2,(,2)计算回归截距,a,,回归系数,b,,建立直线回归方程,下一张,主 页,退 出,上一张,首先根据实际观测值计算出下列数据:,所以,甜度,y,对蔗糖质量分数,x,的直线回归方程为:,然后计算出,b,、,a,:,根据直线回归方程可作出回归直线,见图。从图看出,并不是所有的散点都恰好落在回归直线上,这说明,用 去估计,y,是有偏差的。,下一张,主 页,退 出,上一张,附:直线回归的偏离度估计,偏差平方和 的大小表示了实测点与回归直线偏离的程度,因而此偏差平方和又称为,离回归平方和,。统计学证明:在直线回归分析中离回归平方和的自由度为,n,-2。那么,,离回归均方,为:,离回归均方的平方根叫,离回归标准误,,记为 ,,离回归标准误,S,yx,的大小表示了回归直线与实测点偏差的程度,,即回归估测值 与实 际观测值,y,偏离(差)的程度,所以,用,离回归标准误,S,yx,来表示回归方程的偏离度。,下一张,主 页,退 出,上一张,对于【例8.1】有,所以,离回归标准误为,以后我们将证明,离回归平方和:,由上式先计算出 ,然后求出离回归标准误,Syx,。,二、直线回归的显著性检验,1、直线回归的变异来源,图8-4 的分解图,P(x,y),从图8-4看到:,上式两端平方,然后对所有的,n,点求和,则有,由 于,所 以,所以有,反映了由于,y,与,x,间存在直线关系所引起的,y,的变异程度,称为,回归平方和,,记为,SS,R,反映了,y,的总变异程度,称为,y,的总平方和,,记为,SS,y,反映了除,y,与,x,存在直线关系以外的原因,包括随机误差所引起的,y,的变异程度,称为,离回归平方和或剩余平方和,,记为,SS,r,总变异又可表示为,y,的总自由度,df,y,也划分为回归自由度,df,R,与离回归自由度,df,r,两部分,即,1、建立假设,无效假设H,O,:,=0,,备择假设H,A,:,0。,2、计算检验统计量,3、显著性推断,2、回归关系显著性检验,F,检验,根据,df,1,=1,df,2,=,n,-2查表,得到临界F值,并作出显著性推断。,【例8.2】检验例8-1中求得的回归方程是否显著(a=005),方差分析,列出方差分析表进行回归关系显著性检验。,下一张,主 页,退 出,上一张,表8-4 蔗糖浓度与甜度回归关系方差分析表,变异来源,偏差平方和SS,自由度df,均方MS,F值,显著性,回归,83.8161,1,83.8161,1922.39,*,剩余,0.2182,5,0.0436,总变异,84.0343,6,因为 ,表明甜度与蔗糖浓度间存在着极显著的直线关系。,3、回归系数的显著性检验,t,检验,1、建立假设,H,O,:0,,H,A,:0。,回归系数标准误,t,检验的计算公式为:,离回归标准误,对于 【例8.1】资 料,已计算得,故有,下一张,主 页,退 出,上一张,当 ,查,t,值表,得,因 ,,否定,H,O,:0,接受,H,A,:0,即直线回归系数,b,=1.2550是极显著的,表明蔗糖浓度与甜度大小存在极显著的直线关系,可用所建立的直线回归方程来进行 预测和控制。,在直线回归假设检验中,F,检验的结果与,t,检验的结果是一致的。,第二节 直线相关,进行直线相关分析的基本任务在于根据,x、y,的实际观测值,计算表示两个相关变量,x、y,间,线性,相关程度和性质的统计量相关系数,r,,并进行显著性检验。,我们把 叫 做,x,对,y,的,决定系数,(coefficient of determination),记为 r,2,:,一、决定系数和相关系数,决定系数的大小表示了回归方程估测可靠程度的高低,,或者说表示了回归直线拟合度的高低。显然有0,r,2,1。因为,决定系数表示了 两个互为因果关系的相关变量间直线相关的程度,统计学上把决定系数,r,2,的平方根称为,x,与,y,的相关系数(coefficient of correlation),记为,r:,既可表示,y,与,x,的直线相关的程度,也可表示直线相关的性质,二、相关系数的计算,【例8.2】计算10只绵羊的胸围(,cm,)和体重(,kg,)的相关系数。,表8-3 10只绵羊胸围和体重资料,根据表8-3所列数据先计算出:,代入(8-25)式得:,即绵羊胸围与体重的相关系数为0.8475。,根据实际观测值计算得来的相关系数,r,是样本相关系数,它是双变量正态总体中的总体相关系数的估计值。样本相关系数,r,是否来自0的总体,还须对样本相关系数,r,进行显著性检验。此 时无 效 假 设、备择假设为H,O,:=0,H,A,:0。与直线回归关系显著性检验一样,可采用,t,检验法与F检验法,对相关系数,r,的显著性进行检验。,3.3 相关系数的显著性检验,其中,叫做相关系数标准误。,F,检验:,F,=,,df,1,=1,df,2,=,n,-2,t,检验:,t,=,,df=n-2,下一张,主 页,退 出,上一张,统计学家已根据相关系数,r,显著性,t,检验法计算出了临界,r,值并列出了表格。所以可以直接采用查表法对相关系数,r,进行显著性检验。,具体作法是:,先根据,自由度,n,-2 查临界,r,值,(附 表 8),得 ,。若|,r,|,,P,0.05,则相关系数,r,不显著,在,r,的右上方标记“,ns,”;若 ,0.01,P,0.05,则相关系数,r,显著,在,r,的右上方标记“,*,”;若|,r,|,,P,0.01,则相 关 系 数,r,极显著,在,r,的右上方标记“,*,”。,而,|,r,|,=0.8475 ,,P,0.01,表明绵羊胸围与体重呈极显著正相关。,下一张,主 页,退 出,上一张,对于【例8-2】,因为,df,=,n,-2=10-2=8,查附表8得:,相关系数对样本相关关系的计量,表明直线相关分析与回归分析关系十分密切。它们的研究对象都是呈直线关系的相关变量。,两种分析所进行的显著性检验都是解决,y,与,x,间是否存在直线关系,二者的检验是等价的。,3.4 相关系数与回归系数的关系,*,直线回归分析,有自变量和依变量区分,侧重于寻求它们之间的联系形式直线回归方程;,*,直线相关分析,无自变量和依变量区分,侧重于揭示它们之间的联系程度和性质计算相关系数。,在实际进行直线回归分析时,可用相关系数显著性检验代替直线回归关系显著性检验。,
展开阅读全文