1、SPSS高级统计分析聚类分析聚类分析?为什么聚类??俗语说,物以类聚、人以群分?当有一个分类指标时,分类比较容易?但是多个指标时,进行分类就不是很容易了!?例如,对中国的区县进行分类:?自然条件:降水、土地、日照、湿度等?经济指标:收入水平、教育程度、医疗条件、基础设施等?平均的方法??容易忽视相对重要程度的问题?要进行多元分类聚类分析聚类分析?聚类分析基本目标?一种探索性的数据分析技术?基本目标:在数据中寻找某种“自然的”分组结构?应用举例?细分市场?消费行为划分?设计抽样方案聚类分析?方法原理?聚类分析就是要找出具有相似程度的点或类聚为一类?如何衡量这个“相似程度”??根据距离来确定?“距
2、离”含义很广:?如欧式距离,马氏距离,相似系数聚类分析?聚类分析分类?根据分析对象:?R型聚类对变量(指标)进行聚类?Q型聚类对观测对象(个体、样品)进行聚类?根据方法:?系统聚类(Hierarchical Clustering)?非系统聚类?K均值聚类?两步聚类注:没有什么聚类方法,具有绝对优势可选择适当的距离,计算距离可选择适当的距离,计算距离合并最近的两类为一新类合并最近的两类为一新类计算新类与当前各类的距离计算新类与当前各类的距离判断判断画聚类图画聚类图根据实际情况,确定类和类的个数根据实际情况,确定类和类的个数仅有一个类仅有一个类不是仅有一个类不是仅有一个类采用系统聚类法采用系统聚类
3、法聚类分析把每个样品看成一类,构成把每个样品看成一类,构成N个类个类?系统聚类聚类分析?系统聚类方法可应用多种距离衡量个体/变量的相似性?利用哪种距离聚类取决于:?所分析的数据类型?哪种距离对于聚类最具有解释意义?距离包括:?最短距离法Nearest Neighbor(Single Linkage)?最长距离法Furthest Neighbor(Complete Linkage)?重心法Centroid Clustering?类平均法Betweengroups Linkage?离差平方和法Wards Method 此外还有中间距离(Median Clustering)、类内平均法(Within
4、-Groups Linkage)等聚类分析?最短距离法Nearest Neighbor?对离群值不敏感聚类分析?最长距离法Furthest Neighbor?对离群值不敏感聚类分析?重心法Centroid Method?对离群值不敏感?不适用于噪声数据?类平均法Between-Groups Linkage?对离群值敏感?在多数情况下,可以取得较好的聚类结果?可很好地应用于有噪声数据聚类分析?重心法Centroid Method?离群值敏感?可适用于噪声数据?趋向于把观测分成数目近乎相等的类群聚类分析?重心法Centroid Method?离群值敏感?可适用于噪声数据?趋向于把观测分成数目近乎相
5、等的类群聚类分析聚类分析聚类分析?非系统聚类?K-均值聚类?TwoStep 聚类聚类分析?非系统聚类?K均值聚类?首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个?其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子?第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去?第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心?第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束聚类分析?非系统聚类?K均值聚类?K均值聚类的速度快于系统聚类,是处理大型数据集聚类的常用方
6、法?内存占用小?由于要事先选定聚类数,所以要尝试多次,以找出最佳聚类聚类分析?非系统聚类?TwoStep 聚类?可有效地分析大型数据集?可处理分类、定量型数据?可自动确定聚类数目?TwoStep 聚类过程?Pre-cluster Step?生成聚类特性树?Clustering Step?根据聚类准则确定最终聚类?TwoStep 聚类的一些假定?连续型变量不相关,并服从正态分布?分类型变量不相关,并服从多项分布?比较稳健,不满足上述假设时,有时也可以得到很好的结果聚类分析?距离&变量标准化?距离:SPSS根据数据类型,提供不同的观测/变量的距离或相似性度量?Interval?Counts?Bin
7、ary?变量标准化:对变量进行聚类时,是否要进行标准化??当聚类的变量的测度水平存在很大差异时?注,当以对数似然函数的改变量作为距离的度量时,则可以不用考虑标准化问题实例分析?系统聚类分析系统聚类分析?数据说明:Beer.sav?数据记录了对20种啤酒的评级。对于酒的评价包括客观的和主观的?客观评价如:酒精的百分含量、卡路里、钠/mg,每12盎司成本?主观评价如:对酒的质量评级?我们感兴趣的是,能否根据客观的测度将啤酒分成几类。例如,也许一些啤酒具有高卡路里、高酒精含量和成本。这些啤酒是否具有较高的质量评级呢?是否这些集中于某个国家呢?实例分析?认识数据?是否需要对客观评价指标进行标准化??A
8、nalyze-Descriptive Statistics-Descriptive实例分析So large So large differencesdifferences!实例分析?AnalyzeClassify-Hierarchical Cluster预测变量预测变量!实例分析?Statistics?Continue实例分析?Plots?Continue实例分析?Method?Continue利用标准化变量进行聚类实例分析?Save?Continue?Ok实例分析?输出实例分析?系统树图?根据图形能将啤酒分成三类(或许四类)?实例分析实例分析?进一步探讨?从输出结果,不能非常确定聚成几类?解
9、决办法:借助新生成的聚类标识变量,作进一步的分析?。?Analyze-Descriptive Statistics-Frequencies实例分析实例分析?输出Average Linkage(Between Groups)1890.090.090.0210.010.0100.020100.0100.012TotalValidFrequencyPercentValid PercentCumulativePercentAverage Linkage(Between Groups)1470.070.070.0420.020.090.0210.010.0100.020100.0100.0123Tota
10、lValidFrequencyPercentValid PercentCumulativePercentAverage Linkage(Between Groups)945.045.045.0420.020.065.0525.025.090.0210.010.0100.020100.0100.01234TotalValidFrequencyPercentValid PercentCumulativePercentAverage Linkage(Between Groups)945.045.045.0315.015.060.0525.025.085.015.05.090.0210.010.010
11、0.020100.0100.012345TotalValidFrequencyPercentValid PercentCumulativePercent2类3类5类4类实例分析实例分析?从以上的分析中,似乎聚类为4的方案相对合理些?如何解释各个类群??Analyze-Reports-Case Summaries实例分析实例分析?输出实例分析实例分析?利用Case Summaries枢轴表,创建各类群的预测变量的均值剖面图?双击Case Summaries pivot table实例分析实例分析?输出实例分析实例分析?主观评价指标是否与我们的聚类结果一致??价格高的啤酒(比如进口啤酒)一定比成本
12、较低、口味较淡的啤酒(lighter beers)评价更高??Analyze-Descriptive Statistics-Crosstabs实例分析实例分析?Cells实例分析实例分析?输出实例分析实例分析?结论结论?初步结果?似乎由客观预测变量得出的对啤酒的聚类结果,与根据主观评价的划分是一致的?有了类群ID的变量,可以进行各类群与其它变量之间的关系探察?为了得到更为准确的结果,可以利用不同的聚类方法进行验证?不要为对于聚类结果没有最终的检验感到失望,因为聚类分析是一种探索性分析方法实例分析实例分析?K-均值聚类K-均值聚类?数据说明:Usage.sav?数据是关于SPSS一些产品模块使用
13、情况的调查数据,每位被调查者被要求在SPSS的部分产品模块的列表中,选出他们使用模块。这些产品模块包括Basic,Professional Statistics,Advanced Statistics,Times,Presentation Tables,Perceptual Maps,Automatic Interaction Detection,Mapping和Neural Net作为调查的一部分,我们还调查了许多其它问题。不过在这个数据集中,只包括了jobarea.数据共310个记录?问题:?能否把我们的顾客根据他们的产品使用情况分成几个不同的组?如果可以做到,那么就可以根据不同的客户群制
14、定不同的营销方案注:该调查是基于注:该调查是基于SPSS11.5以前的调查,一些模块的名字已经发生改动以前的调查,一些模块的名字已经发生改动实例分析实例分析?认识数据?输出实例分析实例分析?建立K-均值聚类?聚多少类??熟悉研究领域/很熟悉数据?系统聚类,结合其系统树图和聚合表界定一个初步范围?进行一系列不同类群数目的K-均值聚类并结合一些准则来确定?结合TwoStep聚类?本例中,我们将演示3个类群的k-均值聚类,事实上经过实践表明,聚成2、4、5、8、10类,都不是很理想?练习:尝试建立不过聚类的k-均值聚类实例分析实例分析?Analyze-Classify-K-means Cluster
15、前者对数据进行K-均值聚类,后者用于把额外的观测分到已生成的类别中实例分析实例分析?Save?Options实例分析实例分析?输出Jack-of-Jack-of-all-tradesall-trades实例分析实例分析?输出F值越大越F值越大越重要重要实例分析实例分析?是否每个类群大到足可以引起关注??存在离群点吗?营销营销实例分析实例分析?进一步通过图形对三个类群比较?利用Final Cluster CentersTechnical Technical AnalystAnalystPresentersPresenters实例分析实例分析?总结?可以指定不同类群数,进行k-均值聚类?通过比较,
16、确定最佳聚类方案?确定了有意义的类群后,进行商业角度(营销、销售)的分析以及不同群体和其它变量(如,人口统计学变量)的关系?例如,对类群与行业、地区,或者工作领域进行交叉列表分析实例分析实例分析?TwoStep聚类TwoStep聚类?数据说明:Telcom.sav?问题?根据顾客的电话使用情况(时间和计划)进行聚类实例分析实例分析?满足TwoStep聚类的假定吗?0204060Longdistance call050100150200Minutes实例分析实例分析?Analyze-Classify-TwoStep Cluster有分类型预测变量时,欧式距离不可用!实例分析实例分析?Plots哪
17、个预测变量哪个预测变量在类群的形成在类群的形成中,具有决定中,具有决定性作用?性作用?实例分析实例分析?Output实例分析实例分析?输出No small clusters contain outliers!实例分析实例分析?输出实例分析实例分析?类群概括实例分析实例分析?Within Cluster Percentage实例分析实例分析?Within Cluster Percentage实例分析实例分析?各预测变量对各类群的影响练习练习?数据:Usage.sav?要求?利用K均值聚类把数据集分为4类,对每个类别进行描述(利用所学过的描述性统计),您能对这四类进行解释吗??利用two-step
18、对以上数据集进行聚类,把关于usage的变量都作为分类变量处理。聚类结果聚为几类了?根据每一类的特征,描述每个类群判别分析判别分析?为什么进行判别分析??在一个企业破产之前的两年内,曾对某些财务变量的极端值进行了观测。根据这些领先指标的观测值,另一个企业的官员便可对企业的状态是否健康做出判断,并在必要时采取及时的纠正?许多疾病只有通过非常昂贵的手术才能够确诊。通常,我们希望通过某些容易观测的外部症状来诊断某种疾病。这种方法有助于避免不必要的(而且是昂贵的手术)?电池的寿命只能通过使用直到将它用坏时才能确定;一块钢材的强度只能通过在其上加载荷,直到它锻炼时才能得到,然而被毁坏的产品不能出售。为避
19、免上述情况,人们希望根据产品的某些事先测量值将它们分成“好”与“坏”判别分析?判别分析基本目标?一种探索性的数据分析技术?基本目标:构建已知类别个体的特征函数,对未知个体分类?判别分析 Vs 聚类分析?聚类分析中一般人们事先不知道或一定要明确应该分成几类,完全根据数据来确定?判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据建立判别准则,并通过预测变量来为未知类别的观测值进行类别判别分析?应用举例?银行确定是否给新客户提供信用贷款?判断哪些客户会买公司的产品?判断财产责任保险公司的偿付能力?临床医学中判断患有某种疾病?根据财务指标判断企业是否会破产?气象人员根据收集到的气象信息
20、判断近日内天气是晴、是阴、还是雨判别分析?基本思路?设有G1、G2、G3、G4、G5、Gk个总体?从不同的总体中抽出不同的样本?根据样本建立判别法则判别新的样品属于哪一个总体?当然,根据不同的方法,建立的判别法则也是不同的?常用的判别方法有:最大似然/概率方法、Fisher判别、距离判别判别分析?常用判别方法?最大似然/概率方法:?把贝叶斯思想应用于判别分析,根据待判个体的后验概率进行分类?后验概率的计算依赖于多元正态分布的假定?Fisher判别:?基本思想是投影,将k组m维数据投影到一个方向,使得投影后组与组之间尽可能地分开?距离判别:?对新样品求出他们离各个类别重心的距离远近?常用的距离包
21、括欧式距离、马氏距离等。但是欧式距离比较粗糙,SPSS中的距离判别采用的是马氏判别Fisher 判别判别分析?相关假定?自变量(预测变量)可以为连续和分类型变量?每组均来自多元正态分布?各组的协方差矩阵应当相等判别分析?分析技巧?观测的个数至少为预测变量的1020倍?具有最小观测的群体的个体数目应至少为预测变量的5倍?出于简约的原则,有统计学家建议最后建立的预测模型只包含8-10个预测变量?利用马氏距离检验是否存在离群点?共线性的问题会影响判别函数的系数,通常对判别的结果影响不大。当利用逐步判别时,会有较大影响实例分析?两总体的判别分析两总体的判别分析?数据说明:CSM.sav?该数据集用以进
22、行客户满意度研究。数据提供了已经购买VCR的客户的人口统计学信息,对产品的各个方面关于满意度的评价,以及是否会购买公司其它VCR产品。我们要分组变量是buyyes(1Not Likely,2Likely)?目的:确定一组人口统计学和表示看法的变量,对判定客户是否会购买其它VCR产品具有最佳的预测作用实例分析?认识数据?数据是否满足判别分析的假定??各组的协方差矩阵相等?Analyze-Descriptive Statistics-Explore实例分析?输出实例分析?输出实例分析?判别分析?Analyze-Classify-Discriminant?Buyyes-grouping variab
23、les,indenpent:age conplaineduc fail pinnovat preliabl puse qual use value实例分析?Statistics实例分析?Classify实例分析?Save实例分析?输出实例分析?协方差矩阵检验协方差矩阵协方差矩阵存在差异存在差异实例分析?判别系数实例分析?分类结果实例分析实例分析?分类结果实例分析?扩展分析扩展分析?如何解决?协方差矩阵协方差矩阵存在差异存在差异实例分析?Discriminant-Classify实例分析?结果是否有改进?SeparateWithin实例分析?Fisher 判别函数SeparateWithin实例
24、分析?分类准确率能否进一步提高??判别分析不同于回归,往往随着预测变量的增加而准确率降低?Discriminant Analysis实例分析实例分析?分类结果的更详细信息?Discriminat Analysis-Classify实例分析?输出实例分析?关于先验概率?Discriminat Analysis-Classify等先验概率等先验概率的假定合理的假定合理吗?吗?实例分析?判别准确率是否提高?实例分析?模型校验?分割已知数据集为训练集和测试集?“Leave-One-Out”方法实例分析?模型校验?分割已知数据集?TransformRandom Number Generators实例分析
25、?模型校验?分割已知数据集?Transform-Compute实例分析?模型校验?分割已知数据集?Discriminant Analysis实例分析?输出实例分析?模型校验?“Leave-One-Out”方法?Discriminant Analysis实例分析?输出判别分析?关于逐步判别分析?每一步预测变量的选择基于Wilks lambda最小原则?逐步选择的方法用以选择相对重要的预测变量?逐步判别分析的弊端:?所选择的预测变量是基于当前数据集?根据某种最小准则,而不是以预测准确度为目的练习?数据:CSM.sav?要求:?同样与buyyes作为判别的目标变量,选择与本章讲义中同样的变量子集作为
26、自变量,利用stepwise(步进式)方法,建立判别模型?以satisf_1为目标变量,建立判别模型。哪个变量是重要的预测因子呢?因子分析因子分析?假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等?如果让你向上面介绍公司状况,你能够把这些指标和数字都原封不动地摆出去吗?因子分析?每个人都会遇到有很多变量的数据?这些数据的共同特点是变量很多,能否找出变量间共同的影响因素,来刻画这些数据呢?如:有许多经济和社会变量的数据各个学校的研究、教学等各种变量数据因子分析?目的
27、?揭示变量之间的内在关联性,简化数据维数?原则?尽可能不损失原始数据信息?基本思想?将相关性比较密切的几个变量归为同一类?每一类变量为一个共同因子,即一种内在结构因子分析?基本思想因子分析?基本思想价格味道风味是否快餐食品能量是否快餐食品价格能量味道风味价廉味美因子因子 1因子因子 2因子分析?应用的实质可归结为:?探索性分析:?简化数据,通过少数几个可解释因子(如特点、属性,信仰)?证实性分析:?利用因子分析方法验证假设,如利用AMOS验证具体的因子模型因子分析应用领域应用领域?市场细分研究?消费者生活形态研究?宏观经济研究?物价指数与通货膨胀之间的关系?经营业绩评估?利用因子得分评价上市公
28、司经营业绩,作出最佳投资决策?市场调研?客户满意度调查因子分析模型?因子分析模型为X1=L11F1+L12F2+L1mFm+1X2=L21F1+L22F2+L2mFm+2Xp=Lp1 F1+Lp2F2+LpmFm+p?其中 Lij称为因子载荷(系数)?因子载荷的统计意义:就是第 i 个变量与第 j 个公共因子的相关系数,即表示变量 xi依赖于 Fj的份量(比重),心理学家将它称为载荷?i代表特殊因子,只对当前变量有影响,表示该变量中独特的,不能被公因子所解释的特征因子分析?进行因子分析时关注什么??两个主要问题?几个因子??特征值?所能解释的方差百分比?因子含义??因子载荷(系数)?因子旋转主
29、成分分析?主成分分析:?指导思想:?对于某一问题同时考虑多个因素时,不对这些因素个别处理,而是将它们综合起来考虑?主要目的:?将多个指标组合成相互独立的少数几个并能充分反映总体信息的指标?一个主成分是?变量的线性组合?与其它主成分相互独立(正交)主成分分析 vs.因子分析?因子分析是主成分分析的推广、扩充?共性:都可以看成是在力图拟合变量的相关系数矩阵?差异:?主成分分析:试图解释数据集中变量的最大变差,可以认为每个主成分是尽可能多地解释相关系数矩阵中对角线剩余变差?因子分析:侧重解释变量之间的相关性,当然也会解释变量的部分变差。也就是说因子分析更加关注相关系数矩阵的非对角线元素因子分析:浅色
30、部分因子/主成分个数?特征值是决定因子/主成分个数的最常用指标?其大小代表一个主成分(或因子)所能解释的变量方差的大小?其大小也可以作为主成分(或因子)是否可用的指标?通常选择大于1的特征值所对应的主成分(或因子)?解释方差的百分比?由特征值派生的指标?用于主成分分析以及多数正交旋转的因子分析方法?陡坡考验法(陡坡图/碎石图小石子计画翻译)?将每一因素的特征值由大至小画在同形中,将各点连接,把陡降后曲线走势趋于平坦之因素舍弃不用?共同度(communality)?用以度量每个变量被因子所解释的方差大小?因子要有意义因子旋转?为什么进行旋转??几个不同的因子解释的是同一组变量的相关性?目的:?通
31、过旋转使因子更好解释,就是使每一个变量仅在一个因子上有较大的载荷,而在其余的因子上载荷较小?方法:?正交旋转:?Varimax*(最大方差旋转)?Quartimax?Equimax?斜交旋转:?Promax*(最优斜交法)?Oblimin因子得分?得到具有实际意义的因子后,人们往往更愿意用公共因子反映原始变量?方法:将公共因子表示为变量(或样品)的线性组合F1=11X1+12X2+1pXpF2=21X1+22X2+2pXpFm=m1X1+m2X2+mpXp?应用:利用因子得分计算每个研究对象的公共因子得分,这样更有利于研究它们的特征因子得分?例,收集了学生数学,物理,历史,化学,语文,英语(X
32、1,X2,X3,X4,X5,X6)的成绩,经过因子分析,因子旋转得到数学(X1)=-0.387F1+0.790 F2物理(X2)=-0.172F1+0.841 F2历史(X3)=0.879F1-0.341 F2?F1 理解为 文科因子 ,F2 理解为 理科因子?因子得分?经过计算,得到因子得分函数?F1=0.036 X1+0.165 X2+0.413 X3+0.155 X4+0.357 X5+0.417 X6?F2=0.377 X1+0.1474 X2+0.142 X3+0.462 X4+0.052 X5+0.151 X6?人们可以根据这两个函数分别计算出每个学生的两套因子得分,对学生分别按照
33、文科和理科排序?也可以每个因子的方差贡献率为权数,进行加权综合,计算出每个学生的总得分,以此给出综合得分?即:?总得分 F1 F1 的方差贡献率 F2 F2 的方差贡献率注意事项?因子分析和主成分分析都依赖于原始变量,也只能反映原始变量的信息。所以原始变量的选择很重要?如果原始变量本质上独立,那么降维就可能失败。数据越相关,降维效果就越好建议?数据高度相关或近乎共线性时,主成分方法相对其它因子分析方法具有独特优势?因子分析常用方法:?主轴因子法?最大似然估计法?因子旋转最常用方法?方差最大旋转法?样本大小?样本大小最好为变量个数的10到25倍实例分析?数据:Olymp88.sav?数据背景:数
34、据记录了 34 名参加 1988 年奥运会10 项全能各项比赛的成绩,以及总的分数。?问题:是否一些体育技能影响运动员在这10项比赛中的成绩呢?实例分析?数据是否适合因子分析??Ananlysis-Correlate-Bivariate实例分析?输出:田赛项目之间的相关系数矩阵实例分析?输出:径赛项目之间的相关系数矩阵实例分析?输出:径赛与田赛项目之间的相关系数矩阵实例分析?主成分分析主成分分析?Analyze-Data Reduction-Factor实例分析?Extract分别输出非旋转的主成分分析结果及陡坡图确定输出因子的个数实例分析?Rotation?Options输出因子载荷矩阵以及
35、各变量在“因子空间”的散点图载荷绝对值小于 0.3 的因子将被过滤实例分析?Descriptive检验数据集是否适合因子/主成分分析实例分析?输出,基本统计量注:34 个样本,却有 10 个待分析变量,应该谨慎对待分析结果!实例分析?有关相关系数矩阵的检验:KMO&Barlett 检验实例分析?共同度:提取的因子/主成分对标准化变量的变异性(方差)解释的大小提取后因子/主成分对标准化变量的变异性(方差)解释的大小注:值得注意的是那些提取后被解释的变异性少的变量,因为这表明该变量与其它变量没什么共性实例分析?解释的变差比例实例分析?陡坡图两个主成分看来是合理的实例分析?主成分/因子矩阵旋转后旋转
36、后实例分析实例分析?因子分析因子分析?Factor Analysis-Extraction-Principal axis factorExtractionRotation实例分析?Scores?Ok计算因子得分实例分析?回到数据视窗实例分析因子分析主成分分析实例分析因子分析主成分分析实例分析因子分析因子分析主成分分析主成分分析旋转后旋转后旋转后旋转后实例分析实例分析?结论:从以上的分析,我们得出影响奥运会十项全能比赛成绩的主要有两个因素?速度?力量练习?数据:GSS94.SAV?该数据集中包含一组关于在其是否支持堕胎(abortion)的态度变量,分别表示在7种情形下(胎儿先天缺陷,危害母亲健
37、康,等等)对于堕胎的态度。这7个变量都以”ab”开头。我们希望了解是否存在某个因子决定人们对堕胎的看法,或者是否有其它方面的影响因素。?要求?建立因子分析模型,看看需要用几个因子来解释原始数据集?您能解释每个因子的意义吗?生存分析生存分析?生存分析:即事件史分析,用于研究“死亡”/“失败”事件的存活规律,影响其生存的因素?问题提出?现实世界中,常常有这样一类数据,如:?记录某种癌症患者从患病到死亡的持续时间,或者病人从住院到康复出院的时间,及其它相关的治疗信息?记录公司职员在某公司的受雇时间、人口统计信息、薪水、福利等相关信息?记录一些复杂交易完成时间,以及与交易成功与否相关的数据,如贷款的申
38、请,轿车或房屋的购买?记录电子/机器部件失效时间,及运行相关的数据?为什么需要生存分析??生存数据的特性决定?含有删失值,数据为截尾数据,以“死亡/失效”事件为分析目标注:这里所谓的“死亡/失效”不一定是实际中真得“死亡/失效”,是指随访对象出现了我们所规定的结局生存分析?基本概念与有关的统计问题?“死亡/失效”事件?即研究中规定的结局,”死亡/失效”事件的确定是生存分析的基石,必须绝对准确?“死亡/失效”事件的确定应当由研究目的而确定,并非一定是死亡(如研究灯泡寿命,贷款申请人获得贷款),而死亡并非一定是研究中的“死亡/失效”事件(如肺癌患者死于其它疾病)?截尾数据?生存数据中一类特殊的数据
39、?不是由于”死亡/失效”事件发生,而是由于无法继续下去或研究期间中途失去联系、退出试验;或由于其它与研究无关的原因而“终止/死亡”;或数据收集结束时,观测对象依然存活?生存时间?从起始观测到”死亡/失效”事件确定发生的持续时间,或观测失访前最后一次时间记录?“生存”概率生存分析?基本概念与有关的统计问题?生存分析都是以“寿命”为研究对象,以T表示个体“寿命”,如何可好“寿命”T的特性??生存函数/概率S(t)生存函数/概率S(t):指观测对象”活“过t时刻的概率,即?危险率(失效率、故障率)(t)危险率(失效率、故障率)(t):表示个体生存时间大于等于T的条件下在T时刻死亡的概率即:当寿命“T
40、”的密度函数存在且右连续时,则有显然,于是有:当极限存在时生存分析?其它?条件“生存”概率?表示在某单位时段开始时存活的个体到该时段结束时仍存活的机会大小?条件“死亡”概率?表示在某单位时段开始时存活的个体到该时段结束时死亡的机会大小?生存曲线?指将各个时点的生存概率连接在一起的曲线图?半数生存期?表示恰好有50%的个体可活过这么长时间生存分析?生存数据示例鼻咽喉癌随访记录完全数据截尾数据注:注:在进行生存分析时,对于这种不完全的数据,必须有一个变量用以说明此数据的性质,比如此例中的“结局”生存分析?应用举例?比较不同地点/或通过不同程序申请贷款、购房、军队征兵的时间?商务用地的出租人预测他们
41、的租户租期将持续多久,什么时候会闲置出来?不同群体在某银行的帐户持续期?产品昂贵部件在正常维护之前失效的原因?取得学位所需时间(如,获得某大学的PH.D学位)?接受化疗的癌症患者是否寿命有所延长?客户关系管理?如,客户何时可能离开?客户关系中,增加或减少客户生命期的因素有哪些,影响程度如何??生存分析?生存分析常用方法?参数法?首先要求观察的生存时间T服从某一特定的分布,通过估计分布中参数的方法获得生存概率的估计值?生存时间的分布可能为指数分布、Weibull分布、对数正态分布等?非参数法?该类方法的检验假设与其它非参数法一样,假设两组或多组的总体生存曲线分布相同,而不论总体的分布形式和参数如
42、何?事实上,多数生存时间并符合某种分布,需要借助非参数法估计生存概率生存分析?生存分析常用方法?半参数?只规定了影响因素和生存状况间的关系,但是没有对时间和风险函数的分布情况加以限定?这种方法主要用于分析生存概率的影响因素,属多因素的分析方法,其典型方法是cox比例风险模型生存分析?SPSS中相应分析过程?Nonlinear过程?参数方法?数据必须是完整的寿命数据,而不是截尾数据?可以针对任何种类的时间分布加以拟合?Life Tables过程(即寿命表)?为非参数方法?主要适用于分组生存数据,存在较多结点的生存数据?Kaplan-Meier过程(乘积限)?为非参数方法?主要适用于时间记录足够准
43、确,结点相对较少的生存数据?Cox Regression过程?即比例陷阱模型,属于半参数模型?该模型假定风险率为分类及连续型预测因子的函数,并且不同群体的风险率是成比例的生存分析?Kaplan-Merier方法与Life table估计法?生存概率估计的概率乘法原理?假定“病人”在各个时段生存的事件独立,各时段生存概率为P1,P2,Pk,则应用概率乘法得生存概率估计的公式为S(tk)=P(Ttk)P1P2Pk(若数据包含截尾形式,则要用校正人数估计P1P2Pk)?Kaplan-Merier法(乘积限方法):直接用概率乘法原理估计生存率(不分组),由Kaplan-Merier于1958年提出,主
44、要用于小样本,也适用于大样本。其生存曲线时阶梯型曲线?Life table法(寿命表法):该方法当样本数据足够多时,按时间分组计算乘积限法,实际是乘积限法的一种近似。其生存曲线呈折线形生存分析?Life table原理?可用Life table分析的生存数据形式?“寿命”T的生存函数S(t)完全未知,每个个体“寿命”的确切值(或删失值)均不知道,只知道个体在某个区间中“死亡/失效”?符号说明?设对n个个体的寿命进行了观测?令t00 t1t2 tk0,选j满足tjttj+1,对S(t)用估计式:生存分析?Life table分析示例:下表为某医学手术后的寿命分析(单位:年)生存分析?Kaplan
45、-Merier方法原理?符号说明?以t1t2 Survival-Kaplan-Meier生存分析?Options生存分析?输出?Survival Chart第x第x周有多少周有多少儿童仍在收养儿童仍在收养院?院?生存分析?Survival table生存分析?“生存”时间的均值和中位数生存分析?男孩与女孩之间是否存在差异?生存分析?输出生存分析?均值和中位数?有其它原因吗?男孩在收养院男孩在收养院的时间更长?的时间更长?生存分析?与他们父母是否参加“social services”有关吗??Analyze-Descriptive Statistics-Crosstabs生存分析?输出生存分析?
46、我们可以把父母是否参加“social services”影响与儿童性别的影响区分开?Kaplan-Meier生存分析?输出是否参加”Social Services“似乎影响很大生存分析?是否出于偶然??Kaplan-Meier生存分析?输出生存分析?生存函数实例分析?SPSS中Kaplan-Merier方法的实现?数据:KM.sav?背景:数据是患慢性肝炎病人的生存数据,病人分为两组。一组为治疗组(使用prednisolone(一种药)治疗)和对照组?问题:慢性肝炎病患者的生存函数,以及这种治疗是否有显著疗效实例分析?Analyze-Survival-Kaplan-Meier?进行Kaplan
47、-Meier分析前必须注意两点?需要指定变量表示个体在观测期内持续的时间?标识个体最终情况的状态变量以及哪个(或哪些)状态相应于KM中所分析的“失效/死亡”事件生存分析?可指定分类变量作为分层变量,以针对每层群体分别建立KM生存分析模型生存分析?以上设置将生成不同组病人的生存函数生存分析?Options?Ok实例分析?输出实例分析实例分析?输出实例分析实例分析?两个群体的生存函数是否存在差异?这种治疗是否有效?实例分析实例分析?输出生存分析?Cox模型(比例危险率模型)?应用背景:在实际中,“寿命”除了受随机因素影响,可能还会收到系统性因素的影响。Cox Regression是研究“寿命”对其
48、它因素的依赖关系的一种主要方法。(注:这种对“寿命”起影响的因素称为“协变量”)?原理:?符号说明?设为P个可能下协变量,以表示?寿命”T的密度函数记为,?生存函数是?则危险率函数为生存分析?原理:?“比例危险率”的含义:当时,比值与t无关,则称寿命T与协变量X的关系适合比例危险率模型,此时“寿命”T的危险率有如下形式:这里叫做基准危险率。由于T的生存函数则有:这里在多数实际问题中,常取参数形式,这里是已知数,是协变量,是未知参数,此时,生存函数可记为:生存分析?原理:此时,生存函数有如下形式,该式称为广义Cox模型。当时,即为COX模型实例分析?SPSS中的Cox Regression方法的
49、实现?数据:Addicts.sav?背景:数据记录了海洛因吸毒者参加戒毒治疗的持续时间(以天记),定义吸毒者退出该项目为“死亡”事件发生。同时数据中还包括clinic(以0、1编码,2个诊所开展的戒毒项目不同),prison(吸毒者是否有进监狱的记录)以及Mehtadone的剂量mg/天等可能会影响吸毒者戒毒时间的因素?问题:建立Cox模型,分析各因素是如何影响吸毒人员的戒毒情况的。实例分析?Analyze-Survival-Cox Regression实例分析?Categories实例分析?Plots?Ok实例分析?部分输出实例分析?各因子是如何影响吸毒者戒毒的?实例分析?生存函数和危险率函
50、数实例分析?危险率成比例假设是否满足??SPSS中Cox Regression和Kaplan-Meier程序,提供几种方法验证该假设?以分类变量为因子,通过KM中的生存或死亡率函数图像来检验?以分类变量为分层变量,在Cox Regression中绘制生存函数或In(-In(生存函数)图像进行检验?在Cox Regression中保存偏残差,绘制其与时间的散点图?拟合协变量随时间变化的Cox Regression,并检查显著性实例分析?本例中,危险率成比例假设的检验?Cox Regression?该设置可以检验关于Clinic的危险率成比例假设是否满足实例分析?是否满足?实例分析?Log(-Lo
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100