1、Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击
2、此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,
3、第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,多因素分析统计学,1,第一页,共72页。,概念,多因素分析是同时对观察对象的两个或两个以上的变量进行分析。,常用的统计分析方法有:,多元线性回归、,Lo
4、gistic,回归、,COX,比例风险回归模型、因子分析、主成分分析,等。,第二页,共72页。,2,多变量资料数据格式,例号,X,1,X,2,X,p,Y,1,X,11,X,12,X,1p,Y,1,2,X,21,X,22,X,2p,Y,2,n,X,n1,X,n2,X,np,Y,n,Y,为定量变量,Linear Regression,Y,为二项分类变量,Binary Logistic Regression,Y,为多项分类变量,Multinomial Logistic Regression,Y,为有序分类变量,Ordinal Logistic Regression,Y,为生存时间与生存结局,Cox
5、Regression,第三页,共72页。,3,Y,,,X,直线回归,Y,,,X,1,,,X,2,,,X,m,多元回归(多重回归),第十五章 多元线性回归,(multiple linear regressoin),P.261,例:,欲研究血压受年龄、性别、体重、性格、职业(体力劳动或脑力劳动)、饮食、吸烟、血脂水平等因素的影响。,第四页,共72页。,4,0,为回归方程的常数项(,constant),,表示各自变量均为,0,时,y,的平均值;,m,为自变量的个数;,1,、,2,、,m,为偏回归系数(,Partial regression coefficient,),意义:,如,1,表示在,X,2,
6、X,3,X,m,固定条件下,,X,1,每增减一个单位对,Y,的效应(,Y,增减,个单位)。,e,为去除,m,个自变量对,Y,影响后的随机误差,称残差(,residual),。,多元回归方程的一般形式,一、多元回归模型,第五页,共72页。,5,为,y,的估计值或预测值(,predicted value),;,b,0,为回归方程的常数项(,constant),,表示各自变量均为,0,时,y,的估计值;,由样本估计而得的多元回归方程:,b,1,、,b,2,、,b,m,为偏回归系数(,Partial regression coefficient,),意义:如,b,1,表示在,X,2,、,X,3,X
7、m,固定条件下,,X,1,每增减一个单位对,Y,的效应(,Y,增减,b,个单位)。,第六页,共72页。,6,适用条件:,线性(,linear,)、独立性(,independent,)、正态性(,normal,)、等方差(,equal variance,),“LINE”,。,线性,自变量与应变量的关系是线性的。用散点图判断。,独立性,任意两个观察值互相独立。常利用专业知识判断。,正态性,就自变量的任何一个线性组合,应变量,y,均服从正态分布。即要求残差服从正态分布。常用残差图分析。,等方差,就自变量的任何一个线性组合,应变量,y,的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。,第七
8、页,共72页。,7,第八页,共72页。,8,(,1,)因素筛选:,(因素分析),例如影响高血压的诸多因素中:,1,)哪些是主要因素?,2,)各因素的作用大小?,(,2,)提高回归方程的估计精度,多元回归比只有一个自变量的简单直线回归更能缩小应变量,Y,对其估计值的离差,在预测和统计控制方面应用的效果更好。,(,3,)控制混杂因素,多元线性回归除具有直线回归的基本性质外,还具有以下特点(用途):,第九页,共72页。,9,(,1,)用各变量的数据建立回归方程,(,2,)对总的方程进行假设检验,(,3,)当总的方程有显著性意义时,应对每个自变量的偏回归系数再进行假设检验,若某个自变量的偏回归系数无显
9、著性,则应把该变量剔除,重新建立不包含该变量的多元回归方程。,二、多元回归分析步骤,对新建立的多元回归方程及偏回归系数按上述程序进行检验,直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。,第十页,共72页。,10,例,15-1,(,P.262,),27,名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表,15-2,中,试建立血糖与其它几项指标关系的多元线性回归方程。,表,15-2 27,名糖尿病人的血糖及有关变量的测量结果,序号,i,总胆固醇,甘油三脂,胰岛素,糖化血,血,糖,(,mmol/L,),(mmol/L),(,U/ml),红蛋白,(%),(
10、mmol/L),X,1,X,2,X,3,X,4,Y,1,5.68,1.90,4.53,8.2,11.2,2,3.79,1.64,7.32,6.9,8.8,3,6.02,3.56,6.95,10.8,12.3,26,5.84,0.92,8.61,6.4,13.3,27,3.84,1.20,6.45,9.6,10.4,第十一页,共72页。,11,由上表得到如下多元线性回归方程:,1,、建立回归方程,第十二页,共72页。,12,2,、回归方程的假设检验,F,检验,结果无显著性,1,)表明所观察的自变量与应变量不存在线性回归关系;,2,)也可能由于样本例数过少;,结果有显著性,表明至少有一个自变量与应
11、变量之间存在线性回归关系。,H,0,:,1,=,2,=,m,=0,H,1,:,1,、,2,、,m,不等于,0,或不全等于,0,第十三页,共72页。,13,第十四页,共72页。,14,3,、各个偏回归系数的假设检验,t,检验,将,总胆固醇,(X,1,),剔除。,注意:,通常每次只剔除关系最弱的一个因素。,对于同一资料,不同自变量的,t,值可以相互比较,,t,的绝对值越大,或,P,越小,说明该自变量对,Y,所起的作用越大。,第十五页,共72页。,15,重新建立不包含提出因素的回归方程,注意:表中偏回归系数已变化。,第十六页,共72页。,16,对新建立的回归方程进行检验,检验结果有显著性意义。,第十
12、七页,共72页。,17,对新方程的偏回归系数进行检验,检验结果均有意义,因此回归方程保留,甘油三酯,(X,2,),、胰岛素,(X,3,),和糖化血红蛋白,(X,4,),三个,因素。,最后获得回归方程为:,第十八页,共72页。,18,Pi第i例观察对象处于暴露条件下阳性结果发生的概率。,05)和剔除标准(通常2=0.,2lnL1为模型1的值,2lnL2为模型2的值。,后退法(Backward elimination),当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:,出现阳性的结果 1 ,其概率用P来表示;,Logistic 回归是一种适用于应变量为分类值多因素概率型曲线模型。,(
13、2)做预报时,只能在自变量X的观察值范围内进行;,回归方程中包含的自变量,筛选危险因素:求出各协变量对应变量的比数比(OR);,例15-1资料,比较各个自变量对血糖的贡献大小比较。,多元线性回归除具有直线回归的基本性质外,还具有以下特点(用途):,经验估计:首先选择应变量中较少的一类,然后将该数值除以10,即模型中可以分析的自变量数。,例如影响高血压的诸多因素中:,第五十三页,共72页。,校正混杂因素:可以很方便地控制混杂因素,得到校正后比数比的估计值和置信区间;,1,、确定系数(,R,2,):,意义:,在,y,的总变异中,由,x,变量组建立的线性回归方程所能解释的比例。,01,,越大越优。,
14、特点:,R,2,是随自变量的增加而增大。,因此,,在相近的情况下,以包含的自变量少者为优。,三、回归方程的评价,、,R,复相关系数,(,multiple correlation coefficient,),表示,m,个自变量共同对应变量线性相关的密切程,度。,0R1,。即,Y,与 的相关系数。,第十九页,共72页。,19,、校正确定系数(,adjusted R-square,,,R,2,a,),越大越优。,R,2,a,不会随无意义的自变量增加而增大。,是衡量方程优劣的常用指标。,校正确定系数的计算:,p,为方程中包含的自变量个数,,p m,。,R,2,一定时,,p,R,2,a,P.268,第二
15、十页,共72页。,20,第二十一页,共72页。,21,四、各自变量的评价,1,、偏回归平方和,是指将某自变量,x,j,从回归方程中剔除后所引起的回归平方和的减少量,间接反应了自变量,x,j,对应变量的贡献大小。,各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到。,第二十二页,共72页。,22,回归方程中包含的自变量,平方和,SS,回,SS,残,X,1,、,X,2,、,X,3,、,X,4,133.711,88.841,X,2,、,X,3,、,X,4,133.098,89.454,X,1,、,X,3,、,X,4,121.748,100.804,X,1,、,X,2,、,X,4,1
16、13.647,108.905,X,1,、,X,2,、,X,3,105.917,116.635,对例,15-1,作回归分析的部分中间结果,SS,回,(,X,1,),=133.711,133.098=0.613,SS,回,(,X,2,),=133.711,121.748=11.963,SS,回,(,X,3,),=133.711,113.647=20.064,SS,回,(,X,4,),=133.711,105.917=27.794,第二十三页,共72页。,23,2,、标准化偏回归系数(,standardized partial regression coefficient,),消除测量单位影响后的偏
17、回归系数,标准化偏回归系数。,意义:,用以比较各自变量对应变量的影响程度大小(即相对贡献大小)。,第二十四页,共72页。,24,b,j,X,的偏回归系数,S,j,为自变量的标准差,S,Y,为应变量的标准差,若将各变量先经标准状态化处理后,再进行多元回归,则所得到的偏回归系数即为标准偏回归系数。,计算:,第二十五页,共72页。,25,对血糖影响大小的顺序依次为:糖化血红蛋白,(X,4,),、胰岛素,(X,3,),、甘油三酯,(X,2,),。,比较糖化血红蛋白和甘油三酯的标准偏回归系数:,0.413/0.354=1.17,(倍),糖化血红蛋白对血糖的影响强度约为甘油三酯的,1.17,倍。,例,15
18、1,资料,比较各个自变量对血糖的贡献大小比较。,第二十六页,共72页。,26,五、自变量的筛选,基本思路:,尽可能将回归效果显著的自变量选入方程中,作用不显著的自变量排除在外。,(,1,)全局择优法(,all possible subsets selection,):,(,2,)逐步选择法,前进法,(,Forward selection,),后退法,(,Backward elimination,),逐步法,(,Stepwise,),第二十七页,共72页。,27,1,、全局择优法(最优子集回归),(,all possible subsets selection,):,有,m,个自变量就有,2,
19、m,-1,个自变量子集。在各子集中选择最优的回归方程。,仅适用于自变量个数不太多的情况。,第二十八页,共72页。,28,2,、向前筛选法,(,Forward selection,):,事先给定一个入选标准,即,(通常,=0.05,),,然后根据各因素偏回归平方和从大到小,依次逐个引入回归方程至无显著性自变量可以入选为止,因素一旦入选便始终保留在方程中而不被剔除。,局限性:后续变量的引入可能会使先进入方程的变量变得不重要。,第二十九页,共72页。,29,3,、向后剔除法,(,Backward elimination,),首先建立全部自变量的全回归方程,给定剔除标准,根据各因素偏回归平方和从小到大
20、依次逐个将无显著性的自变量从回归方程中剔除。,优点:考虑到了自变量的组合作用,选中的自变量数目一般会比前进法选中的多。,缺点:当自变量数目较多或有某些自变量高度相关时,可能得不出正确的结果。,第三十页,共72页。,30,4,、逐步法,(,Stepwise,):,给出入选标准(通常,1,=0.05,)和剔除标准(通常,2,=0.10,),每次选入一个在方程外且最具统计学意义的自变量后,就对原在方程中的自变量做剔除检验,这个过程逐步进行,直到没有有统计意义的自变量可以入选,也没有无统计学意义的自变量保留在方程中为止。,实际工作中,多采用逐步法。,用上述方法对上例资料进行分析。,第三十一页,共72
21、页。,31,六、应用多元线性回归分析时需注意的事项,(,1,)样本量要求:,无精确的计算公式。据经验,样本量应是自变量数的,510,倍以上。,(20?),(,2,)做预报时,只能在自变量,X,的观察值范围内进行;,(,3,)在资料要求上,应变量,Y,服从正态分布;,(,4,)注意资料的特异点(,outlier,);,第三十二页,共72页。,32,(,5,)观测值重新量化问题,二项分类资料:用,X,表示分类变量,阴性为,0,,阳性为,1,。,有序多项分类资料:用一个,X,作为分类变量,以自然数,0,,,1,,,2,,,赋值。如将病情分为轻中重三类时,用,X,表示病情,赋值方法为:,无序多项分类资
22、料:,或,第三十三页,共72页。,33,上述以职员作为对比水平,(,基础水平,),。哑变量,X,1,、,X,2,、,X,3,分别代表了工人、农民、干部与职员相比的系数。,哑变量代表的是同一个变量的不同取值,在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。,第三十四页,共72页。,34,(,7,)自变量的联合作用分析,若要考虑,X,3,、,X,4,对应变量,y,的联合作用,可设置一个新变量,X,5,=X,3,X,4,。若,b,3,、,b,4,和,b,5,都有统计学意义,则说明,X,3,、,X,4,对应变量既有单独作用,又有交互作用。,(,6,)自变量筛选过程中引入和剔除变
23、量时检验水准的确定,1,)引入变量检验的水准,小于,或,等于,剔除变量时检验的水准,2,)通常引入变量检验的水准为,0.05,,剔除变量时,0.10,,但不绝对。,第三十五页,共72页。,35,说明,X,3,、,X,4,对应变量既有单独作用,又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。,第三十六页,共72页。,36,(,8,)自变量的共线性,当自变量之间存在较强的相关关系时,称之为共线性。,后果,偏回归系数的估计值容易失真。,当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性:,1,)在某个检验水准下,整个回归方程有统计学意义,但是每个偏回归系数的检验
24、均无统计学意义。,2,)偏回归系数的符号与医学专业知识不一致。,3,)参数估计的标准误变得很大,使,t,值变得很小,,P,值很大。,第三十七页,共72页。,37,判断方法:,利用自变量间的相关系数阵。,(,r,0.9,,共线性可能性大),处理方法:,最简单、有效的方法是根据专业知识人为去除在专业上比较次要的、或缺失值较多、测量误差较大的共线性因子。,第三十八页,共72页。,38,(,9,)残差分析,模型诊断,通常以标准化残差(,standardized residual),为纵坐标,以 为横坐标,作残差图。,第三十九页,共72页。,39,第四十页,共72页。,40,第十六章,Logistic,
25、回归,一、概念,Logistic,回归是一种适用于应变量为分类值多因素概率型曲线模型。,Y,为二项分类:,非条件,Logistic,回归,成组设计,条件,Logistic,回归,配对设计,Y,为多分类:多分类,Logistic,回归,P.278,第四十一页,共72页。,41,Binary Logistic,适用于应变量为二项分类的资料。,应变量(,Y,)在一组自变量(,X,)的作用下所发生的结果赋值规则为:,logistic,回归模型:,统计学中,把,ln,(,P/Q,)称为,P,的,Logit,转换或对数转换,即,Logit P,。由此得到的回归方程,称为,Logistic,回归方程。,出现
26、阳性的结果,1,,其概率用,P,来表示;,出现阴性的结果,0,,其概率用,Q,或(,1 P,)来表示。,第四十二页,共72页。,42,由上式可得,:,由样本估计而得的,logistic,回归模型:,第四十三页,共72页。,43,将,P/Q,称为比数(,odds,,优势、比值);两个比数之比称为,比数比,OR,(,odds ratio,,优势比、比值比)。,第,i,个观察对象的发病概率比数(,odds),为,P,i,/Q,i,,则:,第,l,个观察对象的发病概率比数为,P,l,/Q,l,,则:,第四十四页,共72页。,44,则:,式中:,同一因素,x,j,的不同暴露水平之差。,b,j,在其它自变
27、量固定不变的情况下,,x,j,的水 平每增加一个单位时,,ln(OR),的改变量,即所引起的比数比为增加前的,e,bj,倍,若,X,j,赋值为:,第四十五页,共72页。,45,b,j,=0,时,,OR,j,=1,,说明因素,x,j,对疾病不起作用;,b,j,0,时,,OR,j,1,,说明,x,j,是一个危险因素;,b,j,0,时,,OR,j,1,,说明,x,j,是一个保护因素。,对于发病率很低的慢性病(如心脑血管疾病、恶性肿瘤等),由于,P1,,,OR,可作为,RR,的近似估计:,所以,,logistic,回归常用于流行病学调查资料,其优点是得到某一因素的回归系数估计值后,就可得到不同水平下相
28、对危险度的近似估计值。,第四十六页,共72页。,46,模型的应用,主要有三个方面:,筛选危险因素,:,求出各协变量对应变量的比数比(,OR,);,校正混杂因素,:,可以很方便地控制混杂因素,得到校正后比数比的估计值和置信区间;,预测与判断,:,Logistic,回归模型是概率型模型,在一定条件下能预测某事件发生的概率,或估计各种自变量组合条件下应变量的某一类结果是否发生。,第四十七页,共72页。,47,二、,Logistic,回归的参数估计及假设检验,例:,在研究医院抢救急性心肌梗塞,(AMI),患者能否成功的危险因素调查中,某医院收集了,5,年中该院所有的,AMI,患者的抢救病史,共,200
29、例。其中,P,表示抢救是否成功(,0,表示成功,,1,表示死亡),,X,1,表示抢救前是否已休克(,0,表示未休克,,1,表示已休克),,X,2,表示抢救前是否已心衰(,0,表示未心衰,,1,表示已心衰),,X,3,表示患者从开始有,AMI,症状到抢救时是否已超过,12,小时(,0,表示未超过,12,小时,,1,表示已超过,12,小时)。试分析影响抢救成功率的因素。,第四十八页,共72页。,48,P=0(,抢救成功,),P=1(,抢救不成功而死亡,),X,1,X,2,X,3,N,X,1,X,2,X,3,N,0,0,0,35,0,0,0,4,0,0,1,34,0,0,1,10,0,1,0,17
30、0,1,0,4,0,1,1,19,0,1,1,15,1,0,0,17,1,0,0,6,1,0,1,6,1,0,1,9,1,1,0,6,1,1,0,6,1,1,1,6,1,1,1,6,AMI,患者的抢救危险因素资料,第四十九页,共72页。,49,(一),Logistic,回归的参数估计及意义,参数估计方法:,最大似然法,(,maximum likelihood,)。,最大似然法的基本思想:,先建立似然函数或对数似然函数,求似然函数或对数似然函数达到极大时参数的取值,即称为参数的最大似然估计值。,P,i,第,i,例观察对象处于暴露条件下阳性结果发生的概率。,第五十页,共72页。,50,(一),L
31、ogistic,回归的参数估计及意义,参数估计方法:,最大似然法,(,maximum likelihood,),b,0,=-2.086,,表示在其它自变量均为,0,时死亡优势的对数值;,exp(b,0,)=0.124,是无休克、无心衰和抢救及时组死亡的优势,当死亡概率很低时,近似等于自然死亡率。,第五十一页,共72页。,51,b,1,=1.110X,1,的,logistic,回归系数;,exp(,1.110,)=3.033,,,表示在其它自变量取值固定时,休克与没有休克相比死亡的优势比(,OR,),反映死亡与休克的关联程度。,第五十二页,共72页。,52,(二)假设检验及回归系数的区间估计,似
32、然比检验,比较两个模型的拟合效果。,模型,1,含较少自变量,模型,2,含较多自变量。,H,0,:,模型,1,与模型,2,拟合效果无区别,H,1,:,模型,1,与模型,2,拟合效果不同,检验统计量:,2lnL,1,为模型,1,的值,,2lnL,2,为模型,2,的值。,G,反映模型,2,较模型,1,拟合优度提高的程度。,G,服从,2,(v),分布,,v=,增加变量的个数,-2lnL,被称为,Deviance,,记为,D,。,第五十三页,共72页。,53,2.Wald,检验,用于回归系数的假设检验。,H,0,:,=0,H,1,:,0,检验统计量:,第五十四页,共72页。,54,3.,优势比的估计,第
33、五十五页,共72页。,55,Logistic Regression,显示的是应变量的赋值情况。,Binary Logistic,过程默认以应变量,Y=1,所对应的概率为,P,,即以,P,(,Y=1,)建立模型。,第五十六页,共72页。,56,Block 0:Beginning Block,是模型中只有常数项,而不含任何自变量的输出结果。,Block 1:Method=Backward Stepwise(Likelihood Ratio),开始输出将自变量引入模型后的结果。采用,Backward Stepwise,(,LR,)法作自变量筛选。,第五十七页,共72页。,57,对模型全局检验的结果。
34、Step,统计量是每一步与上一步比较的似然比检验结果;,Block,统计量是指将,Block 1,(或,Block 2,)与,Block 0,相比的似然比检验结果;,Model,统计量是指模型的似然比检验的结果。,第五十八页,共72页。,58,模型的拟合优度情况简报,第五十九页,共72页。,59,模型对应变量的分类预测结果,模型的预测准确率,第六十页,共72页。,60,标准化偏回归系数:,S,j,为变量,X,j,的标准差。,第六十一页,共72页。,61,是指若将各个自变量从模型中移除时模型的改变情况。,第六十二页,共72页。,62,疾病,暴露,非暴露,发生,10,2,不发生,40,80,例:
35、在某项病因调查研究工作中,通过病例,对照研究,得下表资料:,疾病为,Y,,发生为,1,,不发生为,0,;,暴露情况为,X,,暴露为,1,,非暴露为,0,。,频数需加权。,第六十三页,共72页。,63,第六十四页,共72页。,64,条件,logistic,回归,用于配对资料。,例,16-3 P.286,某北方城市研究喉癌发病的危险因素,用,12,配对的病例,对照研究方法进行了调查。现选取了,6,个可能的危险因素并节录,25,对数据,各因素的赋值说明见表,16,-6,,资料列于表,16,-,7,,试做条件,logistic,逐步回归分析,。,第六十五页,共72页。,65,配对组号,应变量,危险因
36、素,i,Y,X1,X2,X3,X4,X5,X6,1,1,3,5,1,1,1,0,0,1,1,1,3,3,0,0,1,1,1,3,3,0,2,1,1,3,1,1,3,0,0,1,1,1,3,2,0,0,1,2,1,3,2,0,25,1,1,4,1,1,1,1,0,1,1,1,3,2,0,0,1,1,1,3,3,0,表,16-7,喉癌,12,配对病例对照调查资料整理表,病例,对照,第六十六页,共72页。,66,条件,logistic,回归的,SPSS,实施,利用,Cox,回归模型,虚拟的生存时间。病例取值为,1,,对照取值为,2,。对照比病例数值大的其他数。,虚拟的生存时间。病例取值为,1,,对照取值为,2,。对照比病例数值大的其他数。,第六十七页,共72页。,67,第六十八页,共72页。,68,第六十九页,共72页。,69,吸烟量,(X2),、声嘶史(,X3,)、癌症家族史(,X6,)是危险因素,摄食新鲜蔬菜(,X4,)是保护因素。,第七十页,共72页。,70,经验估计:首先选择应变量中较少的一类,然后将该数值除以,10,,即模型中可以分析的自变量数。,例:,n=100,人,结局为患病者,70,人,未患病者,30,人,则模型中可分析的自变量数为,30/10=3,。,关于,Logistic,回归的样本量:,第七十一页,共72页。,71,第七十二页,共72页。,72,






