广义线性回归分析.pptx_咨信网zixin.com.cn

资源描述

1、主要的统计分析方法主要的统计分析方法卡方分析分类型数值型回忆方差分析回归分析比较率比较均值依存关系反应变量异同点？方差分析方差分析分析效应因子A对反应变量Y的影响，即，分析效应因子A的不同水平对反应变量Y的作用差异。男性和女性之间收缩压的差异。试验药和对照药之间的作用差异。大学生和运动员之间肺活量的差异方差分析的原理方差分析的原理分解总体变异：SST=SSA+SSEY的总体变异被因子A 所解释的部分残差舒张压性别回归分析回归分析分析自变量X对因变量Y的依存关系，即，分析自变量X改变一个单位时，因变量Y的改变量大小。收缩压和胆固醇的依存关系。肺活量和体重的关系。污染物浓度和污染源距离之间的关系

2、回归分析的原理回归分析的原理分解总体变异：SST=SSX+SSEY的总体变异被自变量X 所解释的部分残差舒张压胆固醇方差分析和回归分析的相同点方差分析和回归分析的相同点模型：因变量=自变量+残差方法原理：分解总体变异 SST=SSA+SSE SST=SSX+SSE 因变量：连续型数值变量方差分析和回归分析的不同点方差分析和回归分析的不同点自变量：方差分析：自变量-分类型回归分析：自变量-连续型结合？广义线性模型分析广义线性模型分析General Linear Model Analysis 什么是广义线性模型分析？协方差分析广义线性回归分析主要内容主要内容第一节第一节广义线性模型分析的概念

3、广义线性模型分析的概念广义线性模型分析是将方差分析和回归分析的基本原理结合起来，用来分析连续型因变量与任意型自变量之间各种关系的一种统计分析方法。其意义是使得方差分析和回归分析的实用性和准确性得到进一步提高。两个典型的广义线性模型分析方法两个典型的广义线性模型分析方法协方差分析广义线性回归分析含有数值型自变量的方差分析含有分类型自变量的回归分析第二节第二节协方差分析协方差分析协方差分析是将方差分析原理和线性回归分析原理结合起来的一种方差分析方法。它消除了混杂变量（协变量）对因变量的影响，使得方差分析结果更加准确。男性和女性之间收缩压的差异。试验药和对照药之间的作用差异。大学生和运动员之间肺活

4、量的差异方差分析存在的问题：方差分析存在的问题：结果不够准确结果不够准确用方差分析结果来对下面问题作结论，合适吗？年龄用药前水平身高方差分析不够准确的原因：方差分析不够准确的原因：年龄身高SST=SSA+SSEY的总体变异被因子A 所解释的部分残差随机误差混杂因子肺活量职业解决的办法解决的办法处理效应Y效应因子A,B,C,混杂因子X1,X2,选取条件相同的样本在方差分析模型中加入混杂因子协方差分析消除混杂因子的影响一、协方差分析的原理一、协方差分析的原理分解总体变异：SST=SSA+SSX+SSESST=SSA+SSX+SSEY的总体变异因子A所解释的部分混杂因子X所解释的部分随机误差舒张压性

5、别年龄协变量二、方差分析和协方差分析的区别二、方差分析和协方差分析的区别区别区别(1)：数据：数据方差分析协方差分析AYA Y X1y111y11 x111y121y12 x12 1 y1.n11y1,n1 x1,n12y212y21 x212y222y22 x22 2 y2,n22y2,n2 x2,n2区别区别(2)：模型：模型方差分析模型协方差分析模型i 是组均值 i 是校正的组均值校正的组均值(group mean)(adjusted group mean)i j 是随机误差 i j 是随机误差是协变量x对因变量y的影响在效应因子的每一个水平上，因变量y服从正态分布；方差相等。区别区

6、别(3)(3)：假设条件：假设条件在效应因子的每一个水平上，因变量y服从正态分布；方差相等；在效应因子的每一个水平上，因变量y和协变量x呈线性关系；斜率相同。方差分析协方差分析三、协方差分析的方法步骤三、协方差分析的方法步骤o 检验数据是否满足假设条件：正态分布性方差齐性线性相关性平行性o 检验效应因子的显著性o 估计校正的组均值o 检验校正的组均值之间的差异【例6_1】为了研究两种药物对癫疯病菌的治疗效果，将30名病人随机分成3组，一组使用抗生素A，一组使用抗生素D，另一组作为对照组使用安慰剂。治疗前和治疗后分别对病人身体的癫疯病菌数量进行了检测，病菌的数量是由每一个病人身体上六个部

7、位病菌感染的程度而定的，数据列在下表中。试对该试验研究进行统计分析。四、协方差分析的应用举例四、协方差分析的应用举例数据：数据：解：这是一个完全随机设计资料。令 x 表示治疗前病人身体的癫疯病菌数量，y 表示治疗后病人身体的癫疯病菌数量，drug 表示用药方式，取值为A、D和F，分别表示使用抗生素A、抗生素D和安慰剂。首先建立首先建立SAS数据集数据集data eg6_1；do id=1 to 10；do drug=A，D，F；input x y；output；end；end；cards；11 6 6 0 16 13 3 0 15 9 12 20run；(一一)检验协方差分析的检验协方差分析

8、的4个假设条件是否满足个假设条件是否满足(1)检验正态性：proc sort data=eg6_1；by drug；run；proc univariate data=eg6_1 normal；var y；by drug；run；(2)检验方差齐性：proc discrim data=eg6_1 pool=test；class drug；var y；run；(3)检验线性相关性：proc reg data=eg6_1；model y=x；by drug；run；(4)检验平行性：proc glm data=eg6_1；model y=drug x drug*x；run；【SAS 部分输出结果】(

9、1)检验正态分布的结果：(H0:y 服从正态分布）A组：W=0.928405，P=0.4166D组：W=0.871798，P=0.1002F组：W=0.972136，P=0.9023 -说明三个组的y 值均近似服从正态分布。(2)检验方差齐性的结果:（H0:方差相等）Chi-Square=1.551005，DF=2，P=0.4605，-说明三个组的方差在统计意义上是相等的。注意，以上检验过程应逐条进行，若发现有不满足假设条件的，应当选取适当的变量变换，使之尽可能接近假设条件。(3)检验线性相关性的结果：(H0:线性无关，H1:线性相关）A组：F=11.23，df=(1,8)，p=0.0101

10、D组：F=39.24，df=(1,8)，p=0.0002F组：F=6.21，df=(1,8)，p=0.0374-说明三个组上 y 与 x 均近似呈线性关系。(4)检验平行性的结果：（H0:斜率相等）F=0.59，df=(2,24)，p=0.560，-说明三条直线近似平行。(二二)假设条件满足后，再进行协方差分析：假设条件满足后，再进行协方差分析：【SAS 程序程序】proc glm；class drug；model y=drug x；lsmeans drug/pdiff；run；【SAS 输出结果输出结果】General Linear Models ProcedureClass Level I

11、nformationClass Levels ValuesDRUG 3 A D FNumber of observations in data set=30 Dependent Variable:Y Sum of MeanSource DF Squares Square F Value Pr FModel 3 871.49740304 290.49913435 18.10 0.0001Error 26 417.20259696 16.04625373Corrected Total 29 1288.70000000 R-Square C.V.Root MSE Y Mean 0.676261 50

12、.70604 4.0057775 7.9000000Source DF Type I SS Mean Square F Value Pr FDRUG 2 293.60000000 146.80000000 9.15 0.0010X 1 577.89740304 577.89740304 36.01 0.0001Source DF Type III SS Mean Square F Value Pr FDRUG 2 68.55371060 34.27685530 2.14 0.1384X 1 577.89740304 577.89740304 36.01 0.0001 T for H0:Pr|T

13、|Std Error of T for H0:Pr|T|Std Error ofParameter Estimate Parameter=0 EstimateParameter Estimate Parameter=0 EstimateINTERCEPT -0.434671164 B -0.18 0.8617 2.47135356INTERCEPT -0.434671164 B -0.18 0.8617 2.47135356DRUG A -3.446138280 B -1.83 DRUG A -3.446138280 B -1.83 0.07930.0793 1.88678065 1.8867

14、8065 D -3.337166948 B -1.80 D -3.337166948 B -1.80 0.08350.0835 1.85386642 1.85386642 F 0.000000000 B .F 0.000000000 B .X 0.987183811 6.00 0.0001 0.16449757X 0.987183811 6.00 0.0001 0.16449757Least Squares MeansLeast Squares MeansDRUG Y Pr|T|H0:LSMEAN(i)=LSMEAN(j)DRUG Y Pr|T|H0:LSMEAN(i)=LSMEAN(j)LS

15、MEAN i/j 1 2 3 LSMEAN i/j 1 2 3A 6.7149635 1 .0.9521 0.0793A 6.7149635 1 .0.9521 0.0793D 6.8239348 2 D 6.8239348 2 0.95210.9521 .0.0835 .0.0835F 10.1611017 3 F 10.1611017 3 0.0793 0.08350.0793 0.0835 .The means and adjusted means means adjusted meansDrug A 5.20 6.72Drug D 6.10 6.82Drug F 13.10 10.16

16、均值和校正均值均值和校正均值【结果解释结果解释】模型的总体检验结果：p=0.0001，R2=0.676，说明模型有统计意义，即drug和x 对y 的联合作用是显著的。TyepI SS 对参数的检验结果：因为drug排在协变量x之前，根据第一类SS定义，检验drug 对y 的影响效应时，没有对x 进行校正。此结果说明，不考虑治疗前的病情状况，这三种治疗方法是有显著性区别的(p=0.0010)。TyepIII SS 对参数的检验结果。根据第三类SS定义，检验模型中每一个自变量时，都校正模型中的其它变量对y 的影响。此结果说明，校正了治疗前的病情状况后，这三种治疗方法是没有显著性区别的(

17、p=0.1384)。给出了三个处理组的校正均值，即，校正了治疗前的病情状况后三个组的均值，以及每一对均值的差异比较。因为上面结果已经说明三种治疗方法没有显著性差别，因此不需要解释这一部分的结果。因为数据满足协方差分析的假设条件，因此，上述协方差分析结果是可靠的。协方差分析的意义协方差分析的意义可以消除多个混杂因素对处理效应的影响，得到校正均值；提高方差分析结果的准确性和真实性；医学研究中应用广泛，解决了很多条件不易控制的实验问题。协方差分析和随机区组设计的区别：协方差分析和随机区组设计的区别：随机区组设计资料的方差分析仅可以消除一个混杂因素（分类型变量）对因变量的影响；协方差分析可以消

18、除多个混杂因素对因变量的影响。协方差分析在医学中的应用协方差分析在医学中的应用1）借助协方差分析来排除非处理因素的干扰，从而准确地估计处理因素的试验效应。2）协方差分析和方差分析一样，包括各种类型的模型，因此可以用来处理医学研究中各种不同设计资料的分析，例如，完全随机设计资料，随机区组设计资料等等。第三节第三节广义线性回归分析广义线性回归分析广义线性回归分析是将线性回归分析原理和方差分析原理相结合起来的一种线性回归分析方法，它和线性回归分析的区别是模型的自变量可以是任意类型的变量。其主要目的是扩大线性回归分析的应用范围，使得它的应用价值得到进一步提高。广义线性回归分析的假设条件广义线性回归分

19、析的假设条件:1.因变量是连续随机变量；2.自变量相互独立；3.每一个数值型自变量与因变量呈线性关系；4.每一个数值型自变量与随机误差相互独立；5.观察个体的随机误差之间相互独立；6.随机误差eiN(0,)。广义线性回归分析的应用举例广义线性回归分析的应用举例【例6-2】为了解大学生中抑郁症的发病率极其原因，某医科大学临床系学生进行预防战略实习时，随机抽取了该市481名大学生进行调查。调查的内容包括测试抑郁症表现的34个问题(0=无，1=有时，2=经常，3=持续有)以及关于个人、家庭和学校的若干问题。如性别、年龄、身高、体重、父母文化程度、家庭月收入、父母是否离异、个人学习成绩、家庭气氛、对学

20、校是否满意、对父母要求是否有压力、睡眠质量、有否经济压力、平时和同学关系、平时性格、社交能力、是否有知心朋友、有否恋爱困扰等问题。，其中，年龄、身高和体重是连续变量，其余都是顺序变量。数据经过整理，计算出34个问题的和，令其为因变量y，y值越大说明患抑郁症的可能性越大。其它问题作为自变量。经过初步分析，筛选出和y有显著线性关系的自变量以及年龄和性别两个重要变量，进行广义线性回归分析。进入模型的自变量是：年龄(x1：连续变量)、性别(x2：1=男，2=女)、家庭气氛(x3：1=和谐，2=一般，3=很差)、对所在学校和专业是否满意(x4：1=很满意，2=基本满意，3=不满意)、对父母的要求有压力吗

21、(x5：1=无，2=有一点，3=很大)、平时睡眠质量如何(x6：1=很好，2=一般，3=很差)、平时性格如何(x7：1=开朗，2=稍微少语，3=内向)、有社交或人际交流的困难吗(x8：1=无，2=有一点，3=很多)、有否知心朋友(x9：1=有，2=无)。【SAS程序程序】proc glm data=eg6_2；class x2-x9；model y=x1-x9/ss3 solution；run；【SAS 输出结果输出结果】General Linear Models ProcedureClass Level InformationClass Levels ValuesX2 2 1 2X3 3 1

22、 2 3X4 3 1 2 3X5 3 1 2 3X6 3 1 2 3X7 3 1 2 3X8 3 1 2 3X9 2 1 2Number of observations in data set=481NOTE:Due to missing values,only 453 observations can be used in this analysis.Dependent Variable:Y Sum of MeanSource DF Squares Square F Value Pr FModel 15 44160.764050 2944.050937 15.46 0.0001Error 4

23、37 83230.127782 190.457958Corrected Total 452 127390.891832 R-Square C.V.Root MSE Y Mean 0.346656 49.90975 13.800651 27.651214 Source DF Type III SS Mean Square F Value Pr FX1 1 28.879716 28.879716 0.15 0.6972X2 1 83.191091 83.191091 0.44 0.5090X3 2 3550.202560 1775.101280 9.32 0.0001X4 2 1395.00175

24、3 697.500876 3.66 0.0265X5 2 2181.647192 1090.823596 5.73 0.0035X6 2 11579.310765 5789.655382 30.40 0.0001X7 2 1680.552471 840.276236 4.41 0.0127X8 2 2976.181048 1488.090524 7.81 0.0005X9 1 1885.687051 1885.687051 9.90 0.0018 T for H0:Pr|T|Std Error of T for H0:Pr|T|Std Error ofParameter Estimate Pa

25、rameter=0 EstimateParameter Estimate Parameter=0 EstimateINTERCEPT 72.51496951 6.91 0.0001 10.49333179INTERCEPT 72.51496951 6.91 0.0001 10.49333179X1 0.17806694 0.39 0.6972 0.45728442X1 0.17806694 0.39 0.6972 0.45728442X2 1 -0.91539699 -0.66 0.5090 1.38506653X2 1 -0.91539699 -0.66 0.5090 1.38506653

26、2 0.00000000 .2 0.00000000 .X3 1 -10.68527474 -2.84 X3 1 -10.68527474 -2.84 0.00470.0047 3.75746504 3.75746504 2 -5.30141860 -1.38 0.1689 3.84753002 2 -5.30141860 -1.38 0.1689 3.84753002 3 0.00000000 .3 0.00000000 .X4 1 -5.18319904 -2.52 X4 1 -5.18319904 -2.52 0.01210.0121 2.05798800 2.05798800 2 -3

27、.43902105 -2.19 2 -3.43902105 -2.19 0.02910.0291 1.57051830 1.57051830 3 0.00000000 .3 0.00000000 .X5 1 -7.67022601 -3.02 X5 1 -7.67022601 -3.02 0.00270.0027 2.54367456 2.54367456 2 -7.77699716 -3.34 2 -7.77699716 -3.34 0.00090.0009 2.32903272 2.32903272 3 0.00000000 .3 0.00000000 .X6 1 -19.13918032

28、 -7.60 X6 1 -19.13918032 -7.60 0.00010.0001 2.51956030 2.51956030 2 -13.06747122 -5.40 2 -13.06747122 -5.40 0.00010.0001 2.42059805 2.42059805 3 0.00000000 .3 0.00000000 .X7 1 -6.78021193 -2.35 X7 1 -6.78021193 -2.35 0.01920.0192 2.88560310 2.88560310 2 -3.13863602 -1.13 0.2607 2.78675475 2 -3.13863

29、602 -1.13 0.2607 2.78675475 3 0.00000000 .3 0.00000000 .X8 1 -8.36233209 -2.60 X8 1 -8.36233209 -2.60 0.00980.0098 3.22234050 3.22234050 2 -3.10011372 -1.01 0.3129 3.06845035 2 -3.10011372 -1.01 0.3129 3.06845035 3 0.00000000 .3 0.00000000 .X9 1 -6.09035051 -3.15 X9 1 -6.09035051 -3.15 0.00180.0018

30、1.93556179 1.93556179 2 0.00000000 .2 0.00000000 .拟合的广义线性回归模型如下：拟合的广义线性回归模型如下：y=72.515+0.178*x1-0.915(if x2=1)+0(if x2=2)-10.685(if x3=1)-5.301(if x3=2)+0(if x3=3)-5.183(if x4=1)-3.439(if x4=2)+0(if x4=3)-7.670(if x5=1)-7.777(if x5=2)+0(if x5=3)-19.139(if x6=1)-13.067(if x6=2)+0(if x6=3)-6.780(if x7=1)-3.139(if x7=2)+0(if x7=3)-8.362(if x8=1)-3.100(if x8=2)+0(if x8=3)-6.090(if x9=1)+0(if x9=2)广义线性回归分析的优点：广义线性回归分析的优点：和线性回归分析相比，广义线性回归分析的优点有：1、自变量可以是任意类型的变量；2、利用SAS的glm过程可以分析每一个分类型变量对因变量y的影响的显著性。方差分析和回归分析的异同点？什么是协方差分析？协方差分析与方差分析的区别？协方差分析的假设条件？什么是广义线性回归分析？广义线性回归分析与线性回归分析的区别？广义线性回归分析的假设条件是什么？总总结结

展开阅读全文