1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,平均数,原则差,方差分析,多重比较,集中点,离散程度,差异明显性,一种变量,(产量),施肥量,播种密度,品种,第1页,在实际研究中,事物之间互相关系包括两个或两个以上变量,只要其中一种变量变动了,另一种变量也会跟着发生变动,这种关系称为协变关系,具有协变关系变量称为协变量。,第2页,确定函数关系,PV,=R,T,气体压强,S,=,r,2,圆面积,协,变,量,S,=,a,b,长方形面积,第3页,身高与胸围、体重,施肥量与产量,溶液
2、浓度与OD值,人类年龄与血压,温度与幼虫孵化,不完全确定函数关系,(有关关系),协,变,量,第4页,相,关,变,量,一种变量变化受另一种变量或几种变量制约,因果关系,平行关系,两个以上变量之间共同受到此外原因影响,动物生长速度受遗传、营养等影响,子女身高受父母身高影响,人身高和体重之间关系,兄弟身高之间关系,第5页,为了确定有关变量之间关系,首先应当搜集某些数据,这些数据应当是成对旳,然后在直角坐标系上描述这些点,这一组点集称为散点图。,散点图(scatter diagram),第6页,为了研究父亲与成年儿子身高之间关系,卡尔.皮尔逊测量了1078对父子身高。把1078对数字表达在坐标上,如图
3、。用水平轴X上数代表父亲身高,垂直轴Y上数代表儿子身高,1078个点所形成图形是一种散点图。它形状象一块橄榄状云,中间点密集,边缘点稀少,其重要部分是一种椭圆。,第7页,散点图(scatter diagram),两个变量间关系性质(正向协同变化或负向协同变化)和程度(关系与否亲密),两个变量间关系类型(直线型或曲线型),与否有异常观测值干扰,第8页,1 2 3 4 5 6,4,3,2,1,1 2 3 4 5 6,4,3,2,1,1 2 3 4 5 6,4,3,2,1,正向直线关系,负向直线关系,曲线关系,定性研究,第9页,回归(regerssion),有关(correlation),定量研究,
4、第10页,曲线,直线型,非直线型,变量,二元,多元,直线型,二元,第11页,直线有关与回归分析,第九章,第12页,第一节,第二节,第三节,回归与有关概念,直线回归,直线有关,直线回归与相关分析,第九章,第13页,第一节:回归与相关概念,相,关,变,量,因果关系,平行关系,回归分析(regression analysis),有关分析(correlation analysis),一种变量变化受另一种变量或几种变量制约,两个以上变量之间共同受到此外原因影响,第14页,在生物学中,研究两个变量间关系,重要是为了探求两变量内在联络,或从一种变量X(可以是随机变量,也可以是一般变量),去推测另一种随机变量
5、Y。,第15页,x,y,施肥量,(可以严格地人为控制),产量,假如对x每一种也许值,均有随机变量y一种分布相对应,则称随机变量y对变量x存在回归(regression)关系。,自变量(independent variable),因变量(dependent variable),因果关系,一种变量变化受另一种变量或几种变量制约,第16页,在大量测量多种身高人群体重时会发现,虽然在同样身高下,体重并不完全同样。但在每一身高下,均有一种确定体重分布与之相对应;,在大量测量多种体重人群身高时会发现,虽然在同样体重下,身高并不完全同样。但在每一体重下,均有一种确定身高分布与之相对应;,身高与体重之间存在有
6、关关系。,X身高,Y体重,X体重,Y身高,有关关系,第17页,第二节:直线回归,Linear Regression,一、直线回归方程建立,二、直线回归数学模型和基本假定,三、直线回归假设检查,四、直线回归区间估计,简朴回归(Simple Regression),第18页,一、直线回归方程建立,直线回归就是用来描述一种变量怎样依赖于另一种变量,温度,天数,第19页,Y=a+bx,直线回归方程(,linear regression equation),截距(intercept),回归截距,斜率(slope),回归系数(regerssion coefficient),自变量,与x值相对应依变量y点估
7、计值,第20页,0,x,y,a0,b0,a0,a0,b0,a=0,b=0,第21页,变量1,变量2,搜集数据,散点图,温度,天数,X Y,平均温度()历期天数(d ),11.8 30.1,14.7 17.3,15.6 16.7,16.8 13.6,17.1 11.9,18.8 10.7,19.5 8.3,20.4 6.7,第22页,黏虫孵化历期平均温度与历期天数关系图,0,10,20,30,40,10,12,14,16,18,20,22,温度,天数(天),(),第23页,回归直线在平面坐标系中位置取决于a,b取值。,y,最小,最小二乘法,(method of least square),第24
8、页,最小,第25页,第26页,为最小值,基本性质,第27页,第28页,X Y,平均温度()历期天数(d ),11.8 30.1,14.7 17.3,15.6 16.7,16.8 13.6,17.1 11.9,18.8 10.7,19.5 8.3,20.4 6.7,第29页,第30页,0,10,20,30,40,10,12,14,16,18,20,22,温度,天数(天),(),用x估计y,存在随机误差,必须根据回归数学模型对随机误差进行估计,并对回归方程进行检查。,y,误差,第31页,二、数学模型和基本假定,y,y总体平均数,因x引起y变异,y随机误差,第32页,总体回归截踞,总体回归系数,随机
9、误差,直线回归数学模型,(model of linear regression),第33页,基本假定,x是没有误差固定变量,或其误差可以忽视,而y是随机变量,且有随机误差。,x是任一值对应着一种y总体,且作正态分布,其平均数+x,方差受偶尔原因影响,不因x变化而变化。,随机误差是互相独立,呈正态分布。,y,第34页,三、直线回归假设检查,故意义,指导实践,?,与否真正存在线性关系,回归关系与否明显,第35页,一、直线回归变异起源,y=a+bx,y,(x,y),y-y,y-y,y-y,实际值与估计值之差,剩余或残差。,y-y,估计值与均值之差,它与回归系数大小有关。,第36页,第37页,检查线性
10、回归系数明显性,采用t检查法进行。,假 设,H,0,:,=0,H,A,:,0,检查样本回归系数b与否来自=0双变量总体,以推断线性回归明显性。,(三)t检验,第38页,依变量 y平方和,总平方和,SS,y,SS,总,回归平方和 U,离回归平方和 Q,第39页,y离均差,反应了y总变异程度,称为y总平方和。,阐明未考虑x与y回归关系时y变异。,第40页,反应了由于y与x间存在直线关系所引起y变异程度,因x变异引起y变异平方和,称为回归平方和。,它反应在y总变异中由于x与y直线关系,而使y变异减小部分,在总平方和中可以用x解释部分。,U值大,阐明回归效果好。,回归平方和,(regression s
11、um of squares),U,第41页,误差原因引起平方和,反应了除去x与y直线回归关系以外其他原因使y引起变化大小。,反应x对y线性影响之外一切原因对y变异作用,也就是在总平方和中无法用x解释部分。,离回归平方和,误差平方和,剩余平方和,(residual sum of squares),Q,在散点图上,各实测点离回归直线越近,Q值越小,阐明直线回归估计误差越小。,第42页,依变量 y平方和,总平方和,SS,y,SS,总,回归平方和 U,离回归平方和 Q,第43页,第44页,第45页,直线回归分析中,回归自由度等于自变量个数,只包括到1个自变量,df,回归,1,df,总,n-1,df,离
12、回归,n-2,第46页,Q/n-2,离回归原则差,回归估计原则误,剩余原则差,离回归方差,第47页,总体回归截踞,总体回归系数,随机误差,:它是y本底水平,即x对y没有任何作用时,y数量体现。,x:它描述了因变量y取值变化中,由y与自变量x线性关系所引起部分,即可以由x直接估计部分。,误差:它描述了因变量y取值变化由x以外也许与y有关随机和非随机原因共同引起部分,即不能由x直接估计部分。,第48页,两个变量与否存在线性关系,可采用F检查法进行。,总体回归截踞,总体回归系数,随机误差,若x与y间,不存在直线关系,,则总体回归系数,=0,;,若x与y间,存在直线关系,,则总体回归系数,0,第49页
13、,假 设,H,0,:两变量间,无,线性关系,H,A,:两变量间,有,线性关系,在无效假设存在下,回归方差与离回归方差比值服从F分布。,df,1,=1,df,2,=n-2,第50页,H,0,:黏虫孵化历期平均温度x与历期天数y之间,不存在,线性关系,H,A,:两变量间,有,线性关系,变异起源 df SS s,2,F F,0.05,F,0.01,回归 1 353.6628 353.6628,89.89*,5.99 13.74,离回归 6 23.6060 3.9343,总变异 7 377.2688,第51页,df=n-2,回归系数原则误,第52页,第53页,否认H0:=0,接受HA:0,认为黏虫孵化
14、历期平均温度与历期天数间有真实直线回归关系。,第54页,同一概率值,F(一尾)值(df,1,=1,df,2,=n-2),t值(两尾)(df=n-2),第55页,第56页,四、直线回归区间估计,点估计,第57页,四、直线回归区间估计,a和b置信区间,(一),y/x,置信区间和单个y预测区间,(二),y/x,和单个y观察值置信区间图示,(三),第58页,(一)a和b置信区间,第59页,(一)a和b置信区间,df=2,第60页,(一)a和b置信区间,总体回归截距,置信区间,第61页,(一)a和b置信区间,总体回归系数,置信区间,第62页,第63页,95%样本回归截距落在该区间内,95%样本回归系数落
15、在该区间内,第64页,(二),y/x,置信区间和单个y预测区间,不包括随机误差,由回归方程预测x为某一定值时y观察值所在区间,则y观察值不但受到y和b影响,也受到随机误差影响。,第65页,y总体平均数,单个y值所在区间,x,点估计,(二),y/x,置信区间和单个y预测区间,第66页,df=n-2,y总体平均数,单个y值所在区间,x,y总体平均数,第67页,第68页,黏虫孵化历期平均温度为15时,历期天数为多少天(取95置信概率)?,第69页,df=n-2,y总体平均数,x,单个y值所在区间,单个y值所在区间,第70页,第71页,某年历期平均温度为15时,该年历期天数为多少天(取95置信概率)?
16、,第72页,(二),y/x,置信区间和单个y预测区间,第73页,(三),y/x,和单个y观察值置信区间图示,第74页,正比,反比,愈靠近 x,对y总体平均值或单个y预计值就愈准确,而增大样本含量,扩大x取值范围亦可提升准确度。,第75页,作回归分析时要有实际意义。,直线回归注意问题,不能把毫无关联两种现象勉强作回归分析,即便有回归关系也不一定是因果关系,还必须对两种现象内在联络有所认识,即能从专业理论上作出合理解释或有所根据。,第76页,进行直线回归分析之前,绘制散点图。,直线回归注意问题,当观测点分布有直线趋势时,才合适作直线回归分析。,散点图还能提醒资料有无异常值,即对应于残差绝对值尤其大
17、观测数据。异常点存在往往对回归方程中a和b估计产生较大影响。因此,需要复查此异常点值。,第77页,直线回归适应范围一般以自变量取值为限。,直线回归注意问题,在自变量范围内求出估计值,一般称为内插(interpolation);超过自变量取值范围所计算出估计值,称为外延(extrapolation)。,若无充足理由证明超过自变量取值范围还是直线,应当防止外延。,第78页,描述两变量间,依存,关系。,直线回归应用,第79页,运用回归关系进行预测(forecast)。,直线回归应用,将自变量作为预报回子,代入方程对预报量进行估计,其波动范围可按个体y值容许区间措施计算。,第80页,回归方程进行记录控
18、制(statistical control).,直线回归应用,NO,2,浓度,Y,(NO,2,浓度,mg/m,3,),=-0.064866+0.000133x,(车流量,辆小时),第81页,第三节:直线相关,Linear Correlation,一、有关系数和决定系数,二、有关系数假设检查,三、有关系数区间估计,第82页,一、有关系数和决定系数,x,y,线性关系,理解x和y有关以及有关性质,有关系数,第83页,有关类型,正,相关,负,相关,零,相关,第84页,I,II,III,IV,I,II,III,IV,I,II,III,IV,第85页,I,II,III,IV,正有关,第86页,I,II,I
19、II,IV,正有关,I,II,III,IV,负有关,第87页,I,II,III,IV,零有关,第88页,直线有关两个变量有关程度和性质,乘积和,互变量,(1)单位问题,(2)x与y自身变异不影响x与y之间有关性,?,第89页,r,第90页,两个变量变异程度,两个变量度量单位,两个变量个数,r可以用来比较不一样样双变量有关程度和性质。,第91页,样本,总体,第92页,两个变量在有关系数计算中地位是平等,没有自变量和依变量之分,相关,回归,区,别,联络,第93页,决定系数,coefficient of determination,第94页,变量x引起y变异回归平方和占y总变异平方和比率,当SSy固
20、定期,回归平方和U大小取决于r2。,回归平方和U是由于引入了有关变量而使总平方和SSy减少部分。,阐明引入有关效果好,第95页,第96页,用 y 能够准确预测y值,x与y完全有关。,完全正有关,完全负有关,散点图上所有点必在一条直线上。,第97页,回归一点作用也没有,即用x线性函数完全不能预测y值变化。,x与y之间不存在直线有关关系,这时散点图分布紊乱,没有直线趋势,但也许存在非线性关系。,I,II,III,IV,第98页,x线性函数对预测y值变化有一定作用,但不能精确预测,阐明y还受其他原因(包括随机误差)影响。,第99页,有关系数(r)和决定系数(r2)辨别,(1)除去,r =1,和,0,
21、情况外,,r,2,r,,这么能够预防对相关系数所表示相关程度作夸大解释。,(2)r可正可负,r2取正,r2一般只用于表达有关程度而不表达有关性质。,第100页,温度,天数,黏虫孵化历期平均温度与历期天数成负有关。,x和y变异有93.74可用两者之间线性关系来解释。,第101页,=0,x,y,(x,1,y,1,),(x,2,y,2,),(x,3,y,3,),(x,n,y,n,),P,?,第102页,二、有关系数假设检查,r是线性关系强弱指标,第103页,第104页,H,0,:,=0,H,A,:,0,检查样本回归系数b与否来自=0双变量总体,以推断线性回归明显性。,对于有关系数r作明显性检查无效假
22、设为=0,即测定r来自=0 总体概率,也就是判断r所代表总体与否存在直线有关。,总体有关系数=0,第105页,有关系数r原则误,第106页,()假设,(2)水平,(3)检查,(4)推断,H,0,:=0;H,A,:0,选用明显水平,在明显水平上,否认H0,接受HA;推断r明显。,在明显水平上,接受H0,否认HA;推断r不明显。,第107页,r经明显性检查成果呈不明显时,便推断两变数间不存在有关关系,这时不能用r代表其有关亲密程度。,第108页,()假设,(2)水平,(3)检查,(4)推断,H,0,:=0;H,A,:0,选用明显水平0.01,否认H0,接受HA;推断r极明显,黏虫孵化历期温度与历期
23、天数之间存在着极明显直线有关关系。,第109页,必然成果,第110页,第111页,第112页,r与t符号相似。,第113页,有关系数假设检查可不计算t值,直接从附表12查出df=n-2时r临界值。,第114页,椰子树产量数,X(个),椰子树高度,Y(尺),X(个)120 121 123 126 128,Y(尺)21 23 22 25 24,椰子树产果树与树高之间无直线有关关系。,当样本太小时,虽然r值抵达0.7996,样本也也许来自总体有关系数=0总体。,不能直观地由r值判断两变数间有关亲密程度。,试验或抽样时,所取样本容量n大某些,由此计算出来r值才能参照价值。,1,2,第115页,三、有关
24、系数区间估计,r值经假设检查抵达明显水平,需要由r估计总体有关系数所在区间。,y,(x,1,y,1,),(x,2,y,2,),(x,3,y,3,),(x,n,y,n,),X,第116页,0,两变量无直线有关关系,0,两变量有直线有关关系,第117页,正态分布,第118页,第119页,黏虫孵化历期温度与历期天数总体有关系数95置信区间为(-0.9944,-0.8294)。,第120页,有关与回归联络,回归方程明显性,回归系数明显性,有关系数明显性,一致,x,y,第121页,三者同步明显或不明显。,r与b符号一致,由两变量离均差乘积之和符号决定。,有关与回归联络,第122页,r:+,两变量间互相关
25、系是同向变化。,b:+,x增(减)一种单位,y平均值增(减)b个单位。,有关与回归联络,第123页,用回归解释有关。,有关与回归联络,第124页,y有关x直线回归系数,x 有关y直线回归系数,x,y,第125页,回归,有关,x是可以精确测量和严格控制变量。,y服从正态分布。,x服从正态分布。,y服从正态分布。,I型回归,II型回归,有关与回归辨别,资料规定,x,y,第126页,两变量间依存变化数量关系,两变量间有关关系,回归,有关,有关与回归辨别,应用,x,y,单向,x,y,x,y,双向,第127页,回归系数与有关系数正负号都由两变量离均差积之和符号决定,因此同一资料b与其r符号相似。,回归系
26、数有单位,形式为(应变量单位/自变量单位),有关系数没有单位。,有关系数范围在-1+1之间,而回归系数没有这种限制。,第128页,有些资料用有关表达较合适,例如兄弟与姐妹间身长关系、人身长与前臂长之间关系等资料。,有些资料用有关和回归都合适,此时须视研究需要而定。,就一般计算程序来说,是先求出有关系数r并对其进行假设检查,假如r明显并有进行回归分析之必要,再建立回归方程。,第129页,注意问题,作有关与回归分析要有实际意义。,不要把毫无关联两个事物或现象用来作有关或回归分析。,*,*,*,*,如小朋友身高增长与小树增长,作有关分析是没有实际意义,假如计算由小朋友身高推算小树高回归方程则更无实际
27、意义。也许算得r、b是明显,也是没故意义。,第130页,有关分析只是以有关系数来描述两个变量间互相关系亲密程度和方向,并不能阐明两事物或现象间存在联络本质。,对有关分析作用要对旳理解。,*,*,*,*,注意问题,有关并不一定就是因果关系,切不可单纯依托有关系数或回归系数明显性“证明”因果关系之存在。,要证明两事物间因果关系,必须凭籍专业知识从理论上加以阐明。不过,当事物间因果关系未被认识前,有关分析可为理论研究提供线索。,第131页,注意问题,适合有关和回归分析资料一般有两种,一种变量X是选定,另一种变Y是从正态分布总体中随机抽取。,*,*,*,*,1,回归分析,第132页,注意问题,由一种变量推算另一种变量,阐明两变量间互相关系,两变量X、Y(或X,1,、X,2,)都是从正态分布总体中随机抽取,即是正态双变量中随机样本。,2,回归分析,有关分析,第133页,注意问题,在回归分析中,由X推算Y与由Y推算X回归方程是不一样样,不可混淆。,必须对旳选定自变量与应变量。,一般说,事物原因作自变量X,当事物因果关系不很明确时,选误差较小即个体变异小变量作自变量X,以推算应变量Y。,第134页,注意问题,回归方程合用范围有其程度,一般仅合用于自变量X原数据范围内,而不能任意外推。由于我们并不懂得在这些观测值范围之外,两变量间与否也呈同样直线关系。,第135页,