1、第十二章 Logistic回归分析 一、Logistic回归概述: Logistic回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施;通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。 二、Logistic回归的分类及资料类型: 第一节 非条件Logistic回归分析 一、Logistic回归模型: Logistic回归模型: logit(P)= ln() = β0+β1χ1 + … +βn χn 二、回归系数的估计(参数估计): 回归模型的参数估计:Logistic回归模型
2、的参数估计通常利用最大似然估计法。 三、假设检验: 1.Logistic回归方程的检验: ·检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。 ·检验的方法有似然比检验、比分检验(score test)和Wald检验(wald test)。上述三种方法中,似然比检验最可靠。 ·似然比检验(likehood ratio test):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G=-2ln(L)(又称Deviance)。无效假设H0:β=0。当H0成立时,检验统计量G近似服从自由度为N-P-1的X2
3、分布。当G大于临界值时,接受H1,拒绝无效假设,认为从整体上看适合作Logistic回归分析,回归方程成立。 2.Logistic回归系数的检验: ·为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。 ·检验方法常用Wald X2检验,无效假设H0:β=0。当X2大于临界值时,拒绝无效假设,自变量能进入方程。 3.Logistic回归模型的拟合优度检验: ·Logistic回归模型的拟合优度检验是通过比较模型预测的与实际观测的事件发生与不发生的频数有无差别来进行检验。如果预测的值与实际观测的值越接近,说明模型的拟合效果越好。 ·模型的拟
4、合优度检验方法有偏差检验(Deviance)、皮尔逊(pearson)检验、统计量(Homser-Lemeshow),分别计算统计量X2D、X2 P、X2HL值。统计量值越小,对应的概率越大。无效假设H0:模型的拟合效果好。 ·模型拟合优度信息指标有:-2lnL、AIC、SC。这3个指标越小表示模型拟合的越好。 四、Logistic回归模型的预测准确度: 常用的有以下2种: 1.广义决定系数R2: 2.预测准确率: 五、回归系数的意义: ·利用参数和优势比探讨影响因素。当βi =0,优势比OR=1时,表示自变量X对是否出现阳性结果不存在影响;当βi ≠0,优势比OR≠1时,
5、表示自变量X对是否出现阳性结果有影响。βi >0,OR增加是危险因素,βi <0,OR减小是保护因素。 六、Logistic回归分析方法: 从所用的方法看,有强迫法、前进法、后退法和逐步法。在这些方法中,筛选变量的过程与线性回归过程的完全一样。 七、Logistic回归的应用: 1.医学中Logistic回归主要用于筛选疾病的危险因素或预后因素,进行病因学分析 2.控制和校正混杂因素。 第二节 条件Logistic回归分析(略) 第十三章 主成分分析与因子分析 第一节 主成分分析
6、1.概念:主成分分析是从多个数值变量(指标)之间的相互关系入手,利用降维的思想,将多个变量(指标)化为少数几个互不相关的综合变量(指标)的统计方法。 2.主成分线性模型: Z1=a11X1+ a12X2+…+ a1mXm Z2=a21X1+ a22X2+…+ a2mXm … … … Zm=am1X1+ am2X2+…+ ammXm 主成分分析的基本思想:主成分分析就是设法将原来众多具有一定相关性的指标,重新组合成一组新的相互无关的综合指标,来代替原来指标。通常数学上的处理就是将原来k个指标做线性组合,作为新的综合指标
7、即几个Z1、Z2…Zm)。如果将第一个线性组合即第一个综合指标记为Z1,则希望Z1尽可能多地反映原来指标的信息,这里的方法就是用方差来表达,即(Z1)S2Z1方差越大,表示Z1包含的信息越多。因此,在所有的线性组合中所选取的Z1应该是方差最大的,故称Z1为第一主成分。 第一主成分不足以代表原来K个指标的信息时,再考虑选取Z2,Z1已有的信息不需要再出现在Z2中。 以此类推可以构造出第三,四个主成分,……。这些主成分不仅不相关,而且他们的方差依次递减。因此在实际工作中,就挑选前几个最大主成分。 3.主成分分析步骤: (1)对原始指标进行标准化; (2)求协方差或相关矩阵; (
8、3)求出协方差矩阵的特征根和特征向量; (4)确定主成分,并结合专业知识给各个主成分的信息给予解释。 4.主成分的性质: (1)各主成分互不相关,两个主成分间相关系数等于零; (2)各主成分的方差依次递减;S2Z1≥S2Z2≥S2Z3…≥S2Zn≥0 (3)总方差保持不变。即各个原指标的方差之和与各主成分的方差之和相等。 (4)ai12+ai22+…+aim2=1 5.主成分模型中的统计量: (1)特征根(值)λ:表示主成分Z的方差。它是主成分影响力度的指标,代表某主成分可以解释平均多少原始变量信息。 (2)贡献率:表示某主成分的方差在全部方差中的比重。贡献
9、率越大,表示该主成分综合原变量的能力越强。 贡献率=λ/Σλ (3)累计贡献率:表示前几个主成分累计提取原变量多少信息。前几个主成分累计贡献率越大,表示包含原变量的信息越多。 累计贡献率=Σ(λ/Σλ) (4)特征向量(因子载荷、因子负载)a:实质是公因子F与变量X的相关系数,表示变量X依赖因子F的程度,反映变量X对公因子F的重要性。在主成分分析中,可理解为反映主成分Z与变量X之间的相关系数,反映两者间相关密切程度。 a = r 5. 主成分个数: (1)以累计贡献率确定:大于70~80%; (2)以特征值确定:大于1则保留。 第二节 因子分
10、析 1.概念:因子分析是从分析多个原始指标的相关关系入手,找出支配这种相关关系的有限个不可观测的潜在变量,并用这些潜在变量来解释原始指标之间相关性或协方差关系。 (1)因子线性模型: X1=a11 F1+ a12F2+…+ a1mFm+ε1 X2=a21F 1+ a22F2+…+ a2m F m+ε2 … … … X m=am1F 1+ am2 F 2+…+ ammFm+εm 其中:X—为变量指标。 a—为因子载荷。 F—为公因子。 ε—为特殊因子,代表公因子以外的影响因素。 (2)因子线性模型特点: ·因子线性模型不受量纲的影响
11、 ·因子载荷不是唯一的,通过因子轴旋转,可得到新的因子载荷阵。 (3)模型要求: ·各X、各公因子F的均数均为0,方差均为1; ·各特殊因子ε的均数为0; ·各公因子之间的相关系数、各特殊因子之间的相关系数、各公因子与各特殊因子之间的相关系数均为0。 2. 因子模型中的统计量: (1)公共度(公因子方差):h2=Σa2, 反映全体公因子对原始指标X的影响,或反映原始指标X对全体公因子的依赖程度,表示各变量中原始信息被公因子表示的程度。公共度取值范围在0和1之间,当公共度接近0时,表示原始指标X受公因子的影响不大。 (2)KMO检验:用于检验变量间的偏相关性,取值范围
12、在0和1之间,当统计量越接近1时,变量的间偏相关性越强,因子分析效果越好。 (3)因子旋转:因子旋转的目的是使某些变量在某个因子上的负载较高,而在其它因子上的负载则显著的低,这事实上是依据因子对变量进行更好的“聚类”。为使因子载荷矩阵中系数更加明显,对初始因子载荷矩阵进行旋转,使得因子和原始变量间的关系重新分配,相关系数向0-1分化,使得各因子的意义更加明显。 正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。 3.计算并检验协方差(相关)矩阵 ·因子分析基于变量间的协方差矩阵。换言之,包含在因子分析中的变量必
13、须具有一定的相关性,如果变量间不存在相关,或者相关性很小,那么因子分析将不是一种合适的分析方法。 ·检验方法: 巴特利特球体检验和KMO测度。 巴特利特球体检验(Bartlett’s test of sphericity)可以用来检验变量间是否存在相关。它是一种建立在协方差阵是单位阵(即变量间不相关)的假设基础之上的检验。一个大的检验值通常意味着检验结果的显著性,因此可以拒绝原假设,可以进行因子分析,否则应该慎重考虑。 KMO测度(Kaiser-Meyer-Olkin measure of sampling adequacy) ,它比较了观测到的变量间的相关系数和偏相关系数
14、的大小。一个大的KMO测度值同样支持我们进行因子分析。一般而言,KMO测度〉0.5意味着因子分析可以进行,而在0.7以上则是令人满意的值。 4. 选择因子分析的方法(method of factor analysis) 主成分分析法(principal component analysis)和公因子分析法(common factor analysis)是两种主要的寻找公因子的方法。 5.各公因子的表达式: F1=a11X1+ a12X2+…+ a1mXm F2=a21X1+ a22X2+…+ a2mXm … … … Fm=am1X1+ am2X2+
15、…+ ammXm 因子得分: 如果后续分析需要,如进行回归分析等等,通常需要进一步计算各公因子的因子得分。即给出各因子在每一个案例(case)上的值。 6. 模型的适合度: 因子分析的最后,应该对构建的模型是否适合问题本身有一个认识,这就涉及到模型的适合度的判断。这种判断常常基于残差矩阵而进行。 因子模型建立,有了因子负载后,我们就可以计算的观测变量的方差-协方差阵,这种由公因子再生的方差-协方差阵(reproduce correlation matrix)与实际观测到的方差-协方差阵(observed correlation matrix)之间的偏差,即残差矩阵(residuals matrix)是我们判断模型适合度的重要依据。如果残差矩阵中的值都比较大,那么我们有理由认为模型并不是很适合;反之如果残差矩阵接近于零矩阵,那么显然公因子可以很好的解释变量的方差-协方差关系,模型是合适的。






