1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第四节 回归与相关分析,一、利用,SAS,进行回归和相关分析,二、利用,Excel,的分析工具库进行回归和相关分析,直线回归分析,直线回归分析,(Linear Regression),是基于最小二乘法,(Least Square Method),原理产生的最优无偏估计。,它是研究一个自变量,(Independent),与一个因变量,(Dependent),之间是否存在某种线性关系的统计学方法。,直线回归分析又叫简单回归分析,(Simple Regression),。,回归分析基本公式,直线回归方程的显著性检
2、验,回归方程显著性检验的方差分析表,回归系数和回归截距的显著性检验,95%,回归系数的置信区间为:,95%,回归截距的置信区间为:,回归与相关分析的,SAS,过程,用于线性相关和回归分析的过程有,:,回归分析(,REG,)、相关分析(,CORR,)和广义线性模型(,GLM,),其中,CORR,过程仅用相关分析。,用于非线性回归直接拟合的过程为,NLIN,。,REG,过程(数据步同前),:,PROC REG,;,MODEL Y=X,;,RUN,;,回归分析,例,9.1,一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续,9,年测定,3,月下旬至,4,月中旬旬平均温度累积值,(,x,,旬,度
3、),和水稻一代三化螟盛发期,(,y,,以,5,月,10,日为,0),的关系,得结果于表,9.1,。试计算其直线回归方程。,x,累积温,y,盛发期,35.5,34.1,31.7,40.3,36.8,40.2,31.7,39.2,44.2,12,16,9,2,7,3,13,9,-1,表,9.1,累积温和一代三化螟盛发期的关系,(,一,),一元相关和回归分析,以教材,P160,例,9.1,为例(回归方程的取得和测验)。,DATA tb91;,INPUT x y;,CARDS;,35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44
4、2-1;,PROC REG;,MODEL y=x;,PLOT y*x;,RUN;,用,REG,过程,,MODEL,语句设定线性数学模型。,PLOT,语句作用是以变量,y,作为纵坐标、变量,x,作横坐标作,x-y,散点图。,回归系数,b,回归截距,a,t,测验实得,t,值两尾概率值,则否定,H,0,反之则接受,H,A,。,Sa,Sb,t,值,F,测验实得,F,值右尾概率值,则否定,H,0,反之则接受,H,A,。,data pest;,input X Y;,cards;,35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2
5、1,;,proc sort out=sorted;,by X;,run;,proc,reg,data=sorted;,model Y=X/r,clm,;,id X;,run;,data pest;,input X Y;,cards;,35.5 12 34.1 16 31.7 9 40.3 2 36.8 7 40.2 3 31.7 13 39.2 9 44.2-1,symbol value=star i=r1 width=2;,proc,gplot,;,plot Y*X Y*X/overlay;,run;,SYMBOL,语句是规定作图功能的选项,,value=star,是表示以星号代表散点,,
6、i=r1,表示画回归直线,,width=2,是回归线要宽一些(缺省时,=1,),DATA PEST;,INPUT X Y;,CARDS;,35.5 12 34.1 16 31.7 9 40.3 2 36.8 7,40.2 3 31.7 13 39.2 9 44.2-1,;,SYMBOL1 CI=BLACD I=RLCLM95 WIDTH=1;,SYMBOL2 CI=BLACD I=RLCLI95 WIDTH=2;,PROC GPLOT;,PLOT Y*X Y*X/OVERLAY;,RUN;,计算回归估计值和因变量预报值的,0.95,置信区间,以教材,P166,例,9.6,为例(区间估计)。,D
7、ATA tb95;,INPUT x y;,CARDS;,70 1616.3 67 1610.9 55 1440.0 52 1400.7 51 1423.3 52 1471.3 51 1421.8 60 1547.1 64 1533.0,;,PROC REG;,MODEL y=x/CLM CLI;,RUN;,多元回归和逐步回归分析,多元回归和逐步回归分析时,仍用,REG,过程,,只在,MODEL,语句中增加自变量和选项,如:,MODEL Y=X1-X5/SELECTION=*,SELECTION,指定逐步回归时筛选变量的方法,常用有:前进法,FORWARD SLE=0.5,后退法,BACKWAR
8、D SLS=0.1,逐步法,STEPWISE SLE=SLS=0.15,前进法,(,逐步法,),变量进入模型的,水准,SLE=,后退法,(,逐步法,),剔除变量的,水准,SLS=,PROC CORR;,VAR X Y;,RUN;,加选项,SPEARMAN,计算等级相关系数,NOSIMPLE,不输出一般性统计描述的结果,WEIGHT,语句可以指定变量为频数,相关系数的计算,相关系数的计算,利用,CORR,过程:,例,9.1,options,linesize,=76;,data pest;,input X Y;,cards;,35.5 12 34.1 16 31.7 9 40.3 2 36.8 7
9、 40.2 3 31.7 13 39.2 9 44.2-1,;,proc,corr,;,var,X Y;,run;,相关系数,r,t,测验实际概率,二、利用,Excel,的分析工具库进行回归和相关分析,INTERCEPT,(known_ys,known_xs,),计算两组数据的回归截距,SLOPE,(known_ys,known_xs,),计算两组数据的斜率,LINEST,(known_ys,known_xs,const,stats,),计算两组数据回归截距和回归系数,CORREL,(array1,array2),计算两组数据的相关系数,COVAR,(array1,array2),计算两组数据
10、的协方差,EXCEL,电子表格提供的部分粘帖函数,例,9.1,一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续,9,年测定,3,月下旬至,4,月中旬旬平均温度累积值,(,x,,旬,度,),和水稻一代三化螟盛发期,(,y,,以,5,月,10,日为,0),的关系,得结果于表,9.1,。试计算其直线回归方程。,x,累积温,y,盛发期,35.5,34.1,31.7,40.3,36.8,40.2,31.7,39.2,44.2,12,16,9,2,7,3,13,9,-1,表,9.1,累积温和一代三化螟盛发期的关系,回归系数,b,回归截距,a,LINEST(),函数,相关系数与协方差的计算,简单相关
11、系数的基本公式,CORREL(),函数,协方差的计算,协方差的基本公式,总体协方差,样本协方差,粘帖函数(,COVAR,函数):总体协方差,协方差分析工具法:样本协方差分析,练习,1,、完成教材第九章,9.5,、,9.6,习题。(,pp190-191,)。,2,、完成以下补充习题。,某地,29,名,13,岁男童身高、体重、肺活量资料如下,身高,体重,肺活量,身高,体重,肺活量,135.1,32.0,1.75,153.0,32.0,1.75,139.9,30.4,1.75,147.6,40.5,2.00,163.6,46.2,2.75,157.5,43.3,2.25,146.5,33.5,2.5
12、0,155.1,44.7,2.75,156.2,37.1,2.75,160.5,37.5,2.00,156.4,35.5,2.00,143.0,31.5,1.75,167.8,41.5,2.75,149.9,33.9,2.25,149.7,31.0,1.50,160.8,40.4,2.75,145.0,33.0,2.50,159.0,38.5,2.50,148.5,37.2,2.25,158.2,37.5,2.00,165.5,49.5,3.00,150.0,36.0,1.75,135.0,27.6,1.25,144.5,34.7,2.25,153.3,41.0,2.75,154.6,39.5,2.50,152.0,32.0,1.75,156.5,32.0,1.75,160.5,47.2,2.25,试做简单回归和相关分析。,






