SAS统计分析教程方法总结.doc

资源描述

对定量结果进行差异性分析 1. 单因素设计一元定量资料差异性分析 1.1. 单因素设计一元定量资料t检验与符号秩和检验 T检验前提条件:定量资料满足独立性和正态分布,若不满足则进行单因素设计一元定量资料符号秩和检验。 1.2. 配对设计一元定量资料t检验与符号秩和检验配对设计：整个资料涉及一个试验因素的两个水平，并且在这两个水平作用下获得的相同指标是成对出现的，每一对中的两个数据来自于同一个个体或条件相近的两个个体。 1.3. 成组设计一元定量资料t检验成组设计定义: 设试验因素A有A1，A2个水平，将全部n（n最好是偶数）个受试对象随机地均分成2组，分别接受A1，A2，2种处理。再设每种处理下观测的定量指标数为k,当k=1时，属于一元分析的问题;当k≥2时,属于多元分析的问题。在成组设计中，因2组受试对象之间未按重要的非处理因素进行两两配对，无法消除个体差异对观测结果的影响，因此,其试验效率低于配对设计。 T检验分析前提条件：独立性、正态性和方差齐性。 1.4. 成组设计一元定量资料Wilcoxon秩和检验不符合参数检验的前提条件，故选用非参数检验法,即秩和检验。 1.5. 单因素k（k>=3）水平设计定量资料一元方差分析方差分析是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里，由于仅研究单个因素对观测变量的影响，因此称为单因素方差分析。方差分析的假定条件为: （1）各处理条件下的样本是随机的。（2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。（3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。（4）各处理条件下的样本方差相同，即具有齐效性。 1.6. 单因素k（k>=3)水平设计定量资料一元协方差分析协方差分析（Analysis of Covariance)是将回归分析与方差分析结合起来使用的一种分析方法。在这种分析中，先将定量的影响因素(即难以控制的因素）看作自变量,或称为协变量(Covariate）,建立因变量随自变量变化的回归方程，这样就可以利用回归方程把因变量的变化中受不易控制的定量因素的影响扣除掉，从而，能够较合理地比较定性的影响因素处在不同水平下，经过回归分析手段修正以后的因变量的样本均数之间的差别是否有统计学意义，这就是协方差分析解决问题的基本计算原理。在试验中,试验因素有时会受到某个重要的定量的非试验因素的影响，为了消除这种定量非试验因素对定量观测结果的影响和干扰。前提条件：一、要求各组定量资料(主要指观测结果）来自方差相等的正态总体；二、各组的总体回归斜率要相等且不等于零。 1.7. 单因素k(k>=3）水平设计一元定量资料Kruskal—Wallis秩和检验定量资料不满足参数检验的前提条件时，则可选择秩和检验 2. 单因素设计一元生存资料差异性分析生存分析(Survival Analysis)是将重点事件的出现与否和达到终点所经历的时间结合起来的一种统计分析方法，其主要特点就是考虑了每个观察对象达到终点所经理的时间长短。终点事件不限于死亡,可以是疾病的发生、一种处理(治疗）的反映、疾病的复发等。生存分析可用于生存曲线估计、生存曲线比较、影响因素分析和生存预测。生存分析有一套完整的方法:统计描述（包括求生存时间的分位数、中位生存期、平均数、生存函数的估计、判断生存时间分布的图示法）、非参数检验（检验分组变量各水平所对应的生存曲线是否一致）、COX模型(半参数）回归分析、参数模型回归分析. 研究者比较k条生存曲线之间是否有显著差别时，SAS软件提供了3种常用的方法：对数秩检验（log—rank Test）、威尔考克森（Wilcoxon Test）和似然比检验(Likelihood Ratio Test）。当生存时间的分布为Weibull分布或属于比例风险比模型时，Log—Rank检验效率较高;当生存时间的分布为对数正态分布时,Wilcoxon检验效率较高;因似然比检验是建立在指数分布模型上的,故当资料偏离此模型时,其结果不如前两种检验方法稳健。非参数法估计生存率有乘积极限法（Product-Limit Method,PL）和寿险法(Life Table Method),其中乘积极限法又称为Kaplan—Meier法（简称KM法).前者适用于小样本或大样本未分组资料，后者适用于观察倒数较多的分组资料. 3. 多因素设计一元定量资料差异性分析 3.1. 随机区组设计一元定量资料方差分析与Friedman秩和检验随机区组设计（Randomized block design），亦称完全随机区组设计（random complete block dsign）。这种设计的特点是根据“局部控制”的原则，将试验地按肥力程度划分为等于重复次数的区组，一区组安排一重复，区组内各处理都独立的随机排列。参数检验前提条件: 独立性、正态性和方差齐性若不满足参数检验的前提条件，采用秩和检验。 3.2. 双因素无重复实验设计一元定量资料方差分析有两个试验因素，全部试验条件由两因素各水平全面组合而成,在每个条件下获得定量资料的均值数据。 3.3. 平衡不完全随机区组设计一元定量资料方差分析所谓平衡不完全随机区组试验(Balanced Incomplete Block Design，简称BIB试验)就是试验方案因受地块限制,不能把试验处理全部安置在试验区组内的情况下,所进行的试验设计。其缺点是：区组数必须严格按规定数目设立，缺一不可,否则各处理之间的比较将失去均衡性。 BIB试验设计需满足如下条件: 其中N为试验小区总数;为任两处处理在同一区组中出现的次数;是每个处理的重复数；b是不完全随机区组数；k是每区组内的小区数. 3.4. 拉丁方设计一元定量资料方差分析拉丁方设计（Latin square design）使研究人员得以在统计上控制两个不相互作用的外部变量并且操纵自变量。每个外部变量或分区变量被划分为一个相等数目的区组或级别，自变量也同样被分为相同数目的级别。拉丁方以表格的形式被概念化，其中行和列代表两个外部变量中的区组，然后将自变量的级别分配到表中各单元中.简单的说就是某一变量在其所处的任意行或任意列中,只出现一次。假设我现在要做一个实验，被试一共要进行5个小测试，并且需要重测多次，因此对这5个测试的排序就需要列入变量控制之内,不可能多次都一样的顺序,因此为了平衡这种顺序效应，采取拉丁方设计，先命名5个小测试分别为1，2，3,4,5.那么对其的排序就是这样的: 第一组测试顺序：1,2，5，3，4 第二组测试顺序：2，3，1,4，5 第三组测试顺序：3，4，2，5，1 第四组测试顺序:4，5，3，1，2 第五组测试顺序：5，1,4，2,3 其顺序是这样确定的,横排：1,2,n，3，n-1,4，n-2……（n代表要排序的量的个数）竖排：1,2,3，4，5 再轮回。 3.5. 二阶段交叉设计一元定量资料方差分析在医学研究中,要将A、B两种处理先后施加于同一批试验对象，随机地使半数受试者先接受A后接受B,而另一半受试者正好相反，即先接受B再接受A.由于两种处理在全部试验过程中交叉进行，这种设计称为交叉设计(cross-over design）。在交叉设计中，A、B两种处理先后以同等的机会出现在两个试验阶段中,故又称为两阶段交叉设计。试验效应受到3个因素的影响，一个是处理因素，一个是处理顺利因素，还有一个是试验阶段因素,而且必须保证这3个因素之间没有交互作用。虽然交叉试验的处理是单因素，但影响试验结果的因素还有非人为控制的受试者的个体差异和试验阶段这两个因素。因此，该设计不仅平衡了处理顺序的影响，而且能把处理方法间的差别、时间先后之间的差别和受试者之间的差别分别进行分析. 3.6. 析因设计一元定量资料方差分析析因设计是一种多因素的交叉分组设计。它不仅可检验每个因素各水平间的差异,而且可检验各因素间的交互作用。两个或多个因素如存在交互作用，表示各因素不是各自独立的，而是一个因素的水平有改变时，另一个或几个因素的效应也相应有所改变；反之,如不存在交互作用，表示各因素具有独立性，一个因素的水平有所改变时不影响其他因素的效应。 3.7. 含区组因素的析因设计一元定量资料方差分析 3.8. 嵌套设计一元定量资料方差分析试验中涉及两个或多个试验因素，且依据专业知识可以认为各试验因素对观测指标的影响有主次之分，主要因素各水平下嵌套着次要因素,次要因素各水平下又嵌套着更次要的因素,这样的试验设计称为嵌套设计。此类设计有两种情形：第一种情形是，受试对象本身具有分组再分组的各种分组因素，处理(即最终的试验条件)是各因素各水平的全面组合,且因素之间在专业上有主次之分（如年龄与性别对心室射血时间的影响，性别的影响大于年龄）；第二种情形是，受试对象本身并非具有分组再分组的各种分组因素，处理（即最终的试验条件）不是各因素各水平的全面组合,而是各因素按其隶属关系系统分组,且因素之间在专业上有主次之分(如研究不同代次不同家庭成年男性的身高资料,不同家庭之间的差别大于同一个家庭内部不同代次之间的差别）. 3.9. 裂区设计一元定量资料方差分析试验因素分两阶段进入试验过程,通常由先进入试验的试验因素（设为A)构成单因素多水平设计或由先进入试验的试验因素（设为A)与区组因素（设为B）构造出含m次独立重复试验的随机区组设计;再把接受因素A各水平处理或接受因素A与因素B各组合水平处理的m个受试对象随机地分配给在第二阶段进入试验的试验因素C的m个水平,这样安排试验因素的方法称为裂区设计或分割设计。结合实际问题,当试验研究过程自然形成2个或多阶段（有时称为工序），各阶段涉及的试验因素彼此不同，但需要等整个试验过程结束后，才能观测定量指标的结果，就需要用到此设计。 3.10. 正交设计一元定量资料方差分析正交试验设计(Orthogonal experimental design）是研究多因素多水平的又一种设计方法，它是根据正交性从全面试验中挑选出部分有代表性的点进行试验，这些有代表性的点具备了“均匀分散，齐整可比”的特点，正交试验设计是分析因式设计的主要方法.是一种高效率、快速、经济的实验设计方法。正交表是一整套规则的设计表格，每个因素的每个水平与另一个因素各水平各碰一次，这就是正交性。进行c因素t水平n次试验的正交表为，其中，L为正交表的代号,n为试验的次数，t为水平数，c为列数，也就是可能安排最多的因素个数。 3.11. 重复测量设计一元定量资料方差分析重复测量设计指将一组或多组被试者先后重复地施加不同的实验处理, 或在不同场合和时间点被测量至少两次的情况。重复测量设计大体有两类. 一类是对每个人在同一时间不同因子组合间测量；另外一类是对每个人在不同时间点上重复。前者常见于裂区设计，而后者常见于经典试验设计即包括前测,处理，一次或几次后测的情况。后者比前者要多见。 3.12. 常见多因素实验设计一元定量资料协方差分析试验中存在极为重要的非试验因素，需进行协方差分析，判断其对主要因素的影响. 3.13. 多个单因素两水平设计定量资料Meta分析 Meta分析是指用统计学方法对收集的多个研究资料进行分析和概括，以提供量化的平均效果来回答研究的问题。其优点是通过增大样本含量来增加结论的可信度,解决研究结果的不一致性. meta分析是对同一课题的多项独立研究的结果进行系统的、定量的综合性分析。它是文献的量化综述，是以同一课题的多项独立研究的结果为研究对象，在严格设计的基础上，运用适当的统计学方法对多个研究结果进行系统、客观、定量的综合分析。基本分析步骤： (1）明确简洁地提出需要解决的问题。（2)制定检索策略，全面广泛地收集随机对照试验。（3）确定纳入和排除标准，剔除不符合要求的文献。（4)资料选择和提取。 (5）各试验的质量评估和特征描述。（6）统计学处理。 a．异质性检验（齐性检验)。 b．统计合并效应量（加权合并，计算效应尺度及95%的置信区间）并进行统计推断。 c．图示单个试验的结果和合并后的结果。 d．敏感性分析. e．通过“失安全数”的计算或采用“倒漏斗图”了解潜在的发表偏倚。（7)结果解释、作出结论及评价. （8)维护和更新资料。 4. 单因素设计多元定量资料差异性分析 4.1. 单因素设计定量资料多元方差和协方差分析在某试验设计之下，若每次只分析一个或多个定性影响因素对一个定量指标的影响,常采用一元方差分析；若每次用参数法同时分析一个或多个定性影响因素对两个或者两个以上在专业上有一定联系的定量指标的影响时，就称为多元方差分析（Multivariate Analysis of Variance， MANOVA）。做方差分析时,影响因素都是定性的。当除了定性的影响因素之外还有定量的影响因素存在（或者不可忽略）时，要分析各影响因素对定量指标的影响,则需要采用另外一种统计学分析方法，即协方差分析（Analysis of Covariance）才能达到目的. 5. 多因素设计多元定量资料差异性分析 5.1. 多因素设计定量资料多元方差分析和协方差分析对定性结果进行差异性分析 6. 单因素设计一元定性资料差异性分析 6.1. 单组设计一维表资料统计分析 group count 1 978 2 22 6.2. 配对设计四格表资料统计分析 1.先将实验对象配对后随机安排到两个不同处理组，所得的二分类结果的资料。 2。同一批对象两个时间点（或两个部位）的测定,或同一对象用两种方法（或两种仪器、两名化验员、两种条件）的测定，所得的二分类(如阳性、阴性）结果的资料。 6.3. 配对设计扩大形式的方表资料统计分析配对设计扩大形式的方表形式甲乙 - + ++ +++ 合计 - 15 0 2 3 20 + 2 19 1 2 24 ++ 1 3 17 0 21 +++ 0 2 0 6 8 合计 18 24 20 11 73 6.4. 成组设计横断面研究四格表资料统计分析性别人数通过未通过合计男 41 32 73 女 43 8 51 合计 84 40 124 该表设计上属于结果变量为二值变量的成组设计定性资料，列联表分类上属于横截面研究设计四格表资料。 6.5. 成组设计队列研究四格表资料统计分析血压情况例数患者未患病合计偏好 19 61 80 正常 20 465 485 合计 39 526 565 该资料是成组设计队列研究四格表资料。队列研究设计是通过对不同暴露水平的对象进行追踪观察，随访观察疾病发生情况,从而判断该因素与发病之间有无关联。 6.6. 成组设计病例对照研究四格表资料统计分析喂养方式例数患龋未患龋合计母乳 37 81 118 人工或混合 66 76 142 合计 103 157 260 该表是成组设计病例对照研究四格表资料。病例对照设计是以确诊的患者作为病例，以不患该病但具有可比性的个体作为对照,收集以往危险因素的暴露史，用统计学方法比较两组中危险因素的暴露比例,从而判断因素与疾病之间是否存在统计学关联. 6.7. 成组设计结果变量为多值有序变量的2×C表资料统计分析 6.8. 成组设计结果变量为多值名义变量的2×C表资料统计分析 6.9. 单因素多水平设计无序原因变量R×2表资料统计分析 6.10. 单因素多水平设计有序原因变量R×2表资料统计分析 6.11. 单因素多水平设计双向无序R×C表资料统计分析 6.12. 单因素多水平设计有序结果变量R×C表资料统计分析 6.13. 单因素多水平设计双向有序R×C表资料统计分析 7. 多因素设计一元定性资料差异性分析 7.1. 用加权检验处理结果变量为二值变量的高维列联表资料在三维列联表中，通常有两个原因变量和一个结果变量，不同的研究目的决定了选用不同的统计分析方法。对于结果变量为二值变量的高维列联表,可选用加权检验、CMH检验、多重logistic回归、对数线性模型等。若不想用复杂的对数线性模型模型或logistic回归模型来分析三维列联表资料,并且资料又不合适采用简单“合并”方式处理时，就可采用加权检验(消除掉一个原因变量对结果变量的影响,考察另一个原因变量与结果变量之间是否独立）、CMH检验（消除掉一个原因变量对结果变量的影响，计算优势比OR或相对危险度RR，并对其进行假设检验）。这两种检验方法都无法回答被合并掉的那个原因变量对结果变量的影响作用有多大,只是对其进行分层计算，即评价另一个原因变量对结果变量的影响时将其对结果变量的影响扣除掉. 7.2. 用CHM检验处理结果变量具有3种性质的高维列联表资料结果变量为二值变量的三维列联表，可以选用加权检验，CMH检验、logistic回归和对数线性模型。CMH统计分析（Cochran Mantel Haenszel Statics)是在MH统计分析方法的基础上发展并提出来的，现在统称为扩展的MH卡方统计量,也统称为MH检验,用于分层分析即控制混杂因素后对二维列联表资料的统计处理。结果变量为多值有序变量的高维列联表资料，可以选用CMH检验（即CMH校正的秩和检验)和有序变量logistic回归分析进行处理。对数线性模型无法利用资料的有序性，因此不宜选用。若采用有序变量多重logistic回归分析，应注意结合原因变量是否存在多值名义变量或多值有序变量而决定对原因变量的赋值方法. 结果变量为多值无序变量的高维列联表资料,可以采用CMH检验、扩展的logistic回归分析和对数线性模型。注，CMH检验包含三种检验方法: (1)非零相关检验（适合于原因变量与结果变量都是多值有序变量）（2）行平均得分检验（仅考察原因变量全部水平组之间在结果上的差别是否具有统计学意义，结果变量必须是多值有序变量)。 (3）一般关联性检验（适合于原因变量和结果变量都是名义变量）.这里所提及的“原因变量”是指在多个原因变量中被保留下来的那个原因变量. 7.3. 用Meta分析分别合并处理多个成组设计定性资料 7.4. ROC方法分析诊断试验资料 8. 多因素设计一元定性资料对数线性模型分析 8.1. 用对数线性模型分析列联表资料对数线性模型是分析高维列联表行之有效的方法，最先由Yule、Bartlett利用Yule（1900年）定义的交叉乘积比分析三维交互作用，然后由Kullback（1968年）引入方差分析的思想发展而来。对数线性模型把各分组变量(包括自变量和因变量）水平组合下期望（理论频数）的自然对数表示为各组变量及其交互作用的线性函数，通过迭代计算求得模型中参数的估计值,进而运用方差分析的思想检验各主效应和交互作用的效应大小。对定量结果进行预测性分析 9. 两变量简单线性回归分析 9.1. Pearson线性相关分析当两个变量取值之间出现一个增大,另一个也增大（或减小）的情况时,则称这种现象为共变，也就是说这两个变量之间有“相关关系"。简单线性相关关系是描述两定量变量间是否含有直线关系以及直线关系的方向和密切程度的分析方法。此分析方法主要通过计算相关系数的大小并对其进行假设检验以及结合专业知识来评价得到的相关系数是否有实际意义来完成。前提条件：两变量需满足正态分布. 9.2. Spearman秩相关分析在做Pearson相关分析时，要求两变量服从正态分布，然而当得到的原始数据并不服从正态分布或其总体分布未知，有时3数据中还存在所谓“超限值”（如限于仪器的灵敏度，仅知道血样某物质浓度小于0.001ug/ml），甚至数据本身就是等级材料。此时，宜采用等级相关或称秩相关来分析两变量的线性联系程度与方向。这类方法是利用两变量的秩次大小做线性相关分析，对原变量分布不做要求，属非参数统计分析方法。 9.3. 简单线性回归分析简单线性回归分析是用直线回归方程表示两个定量变量间依存关系的统计分析方法。此分析方法主要由三部分组成：（1）计算反映两定量变量依赖关系的直线回归方程，即计算直线回归方程的截距a、斜率b。（2）根据样本截距a、斜率b,检验样本所抽自的总体截距是否为0、总体斜率是否为0。 (3）结合专业知识，评价此直线回归方程是否有实用价值。前提条件： ①线性（linear）：即X和Y之间的关系为线性关系; ②独立(independent)：即n个个体的观察资料间必须是独立的； ③正态(normal)：即给定X后,Y为正态分布，且Y的均数就是回归线上对应于X值的点； ④等方差（equal variance）：即不同X值对应的Y的分布具有相同的方差，换句话说Y的方差与X无关。 9.4. 加权线性回归分析此方法未弄明白. 10. 两变量可直线化曲线回归分析 10.1. 对数函数、幂函数和双曲函数曲线回归分析 1.对数函数对数函数：变化方法: 直线化结果： 2。幂函数幂函数：变换方法:，直线化结果: 3。双曲线函数双曲线函数：(a>0）变换方法：, 直线化结果: 10.2. 指数函数曲线回归分析指数函数：变换方法: 直线化结果： 10.3. Logistic函数曲线回归分析 Logistic曲线：变换方法: 直线化结果： 11. 各种复杂曲线回归分析 11.1. 多项式曲线回归分析二项式的可能曲线形式有: 三项式的可能曲线形式有: 11.2. Logistic曲线回归分析 11.3. Gompertz曲线回顾分析 Gompertz曲线方程：,L为上渐近线。 11.4. 二项型指数曲线回归分析二项式指数曲线： 11.5. 三项型指数曲线回归分析三项式指数曲线： 12. 多重线性回归分析多重线性回归是指因变量为一个、自变量为多个的线性回归分析。前提条件： 1、自变量与因变量之间存在线性关系; 2、各观测间相互独立； 3、残差服从正太分布； 4、方差齐性。需要注意的是，在回归方程中，不能直接根据各自变量回归系数绝对值的大小来评价该自变量的作用大小，因为自变量的单位不尽相同,回归系数的大小要收到单位的影响。如果要比较各自变量的作用大小，应消除自变量单位的影响，这就需要求标准化的回归系数。标准化回归系数没有量纲,统计学上常用它的绝对值大小来衡量自变量对因变量影响的相对重要性,标准化回归系数的绝对值越大，说明该自变量对隐变量的作用越大。 13. 主成分回归分析主成分回归分析是将多个彼此相关、信息重叠的指标通过适当的线性组合，使之成为彼此独立而又提取了原指标变异信息并带有特定专业含义的综合潜变量，即主成分，建立潜变量和因变量间的线性回归方程,再将回归方程中的潜变量转换为原自变量的一种统计学方法.多重线性回归分析和主成分回归分析都是用于分析单因素设计多元定量资料的统计学方法。基本步骤: （1）进行多重线性回归分析，并进行共线性诊断； (2）如果自变量之间存在共线性,则可选择进行主成分分析，以解决由于共线性的影响，造成回归结果不合理或无法解释的问题。 (3）用主成分分析求自变量的主成分和主成分得分，将贡献率小的主成分舍弃。 (4）将因变量对保留的主成分得分进行回归分析。（5)将主成分的表达式回代，最后得到因变量与原始变量的回归模型，并给予专业解释。 14. 岭回归分析用REG过程进行多重线性回归分析，在进行参数估计时常用最小二乘法。该方法在数据满足GM（Gauss-Markov）定理时，保证了在线性无偏估计类中的方差最小。如果进一步假设误差服从正态分布，那么最小二乘法还具有更多更好的性质。但是，在实际应用中,许多应用实践证明，有些情况在运用最小二乘法时并不是很理想,在个别情况下可能不是很好。自20实际50年代特别是60年代以来，许多统计学家做了很多努力，试图改进最小二乘法估计。Stein于1955年证明了：当维数大于2时，能够找到另外一个估计，它在某种意义下一致优于最小二乘法估计。据此，在后来的发展中，统计学家提出了许多新的估计方法,主要有岭估计、主成分估计以及特征根估计等。这些估计的一个共同特点是有偏性。单组设计多元定量资料,可能的分析方法有多重共线性回归分析、响应曲面回归分析、岭回归分析、病态数据回归分析等。哪一种方法最好或者比较好呢？正确的分析方案将是：分别用不同的回归分析方法对此资料进行分析，然后对不同回归分析方法得出的结果进行比较，哪一种方法得到的结果最符合专业实际，也就是最好或者比较好的方法。当然也有可能用现有的各种方法所得到的结果不具有推广应用的价值，如果是这样，则需要寻找别的方法。 15. Poisson回归分析 Poisson回归属于广义线性模型,专门适用于响应变量是计数资料的情形，可以定量地分析多个响应因素与计数的响应变量之间的关系. Poisson分布是由法国数学家S。D。Possion作为二项分布的近似而引入的，常用于描述单位时间、平面或空间中罕见“质点”数的随机分布规律。Poisson回归是基于Poisson分布，用于单位时间、单位面积或单位空间内某时间发生数(事件的发生服从Poisson分布）的响应因素分析的一种方法。前提条件:要求事件的发生是独立的。小结： Poisson回归用于描述结果变量服从Poisson分布的资料。Poisson回归模型与logistic回归模型均属于广义线性模型，在建模的过程中除了连接函数不同外，主要的不同之处在于数据服从何种分布,适合于用何种方法建模.Poisson回归一般用于单位时间、单位面积、单位空间内某时间发生数的影响因素的探讨，时间的发生服从Poisson分布.当结果变量是二分类或多分类时，应根据数据的分布情况看数据是满足Poisson分布还是可通过logit变化进行logistic回归分析。 16. 负二项回归与Probit回归分析 Poisson回归分析是以计数资料为响应变量的标准回归模型。但是在Poisson回归分析中要求均数和方差相等，实际数据往往并不符合这一假定,方差有时会大于均数,也就是所谓的过离散(Overdispersion），这将导致模型参数估计值的标准误差偏小，参数wald检验的假阳性率增加。这种情况的出现可能是由于观测之间不独立导致的；而在医学研究中，很多事件的发生是非独立的。对于这类资料,可以采用负二项回归分析。过离散在理解负二项回归分析中居于中心地位，负二项回归的每一个应用几乎都与Poisson回归中发现过离散有关。统计学分析的目的都是建立观测个体产生某种响应的概率与各自变量水平的关系，以便通过某观测个体各自变量的水平取值来预测其产生某种影响的概率。这可以通过logistic回归分析来间接实现，也可以通过probit回归分析来直接实现.Probit回归分析与logistic回归分析的最大不同点在于：probit回归分析中的响应变量不再是二值变量（取值为0或1，如是否罹患心脏病)，而是0—1之间的百分比变量。 17. 生存资料COX模型回归分析目前，对生存资料的多因素分析最常用的方法是COX比例风险回归模型（Proportional Hazards Regression Model），简称COX模型。该模型是一种多因素的生存分析法,它可同时分析众多因素对生存期的影响,分析带结尾生存时间的资料,并且不要求估计资料的生存分布类型. COX模型属比例风险模型簇，其基本假定之一是比例风险假定(简称PH假定)。只有在满足该假定前提条件下，基于此模型的分析预测才是可靠有效的.正像我们所熟知的t检验中的正态分布假定一样，当使用比例风险模型时，比例风险假定应看成一个基本前提。检查某斜变量是否满足PH假定，最简单的方法是观察按该变量分组的Kaplan-Meier生存曲线。若生存曲线交叉，则提示不满足PH假定。第2种方法是绘制按该变量分布的对生存时间t的图，曲线应大致平行或等距。如各斜变量均满足或近似满足PH假定，可直接应用基本COX模型。 18. 生存资料参数模型回归分析生存资料参数模型回归分析的一个重要内容是拟合或分布拟合。描述生存时间分布的模型通常有指数分布、Weibull分布、对数正态分布、Gamma分布等。常见生存时间分布的概率密度函数f（t）、生存函数S(t）和风险函数h（t)如下表。实际对生存数据作分布拟合时,可用上述模型分别进行拟合，根据拟合优度检验的结果选择适当的模型。有时,对于一批生存数据,事先不知道生存时间分布的总体趋势,也不好判断用什么样的模型最合适，许多研究者一般直接采用非参数方法或半参数法。但是如果一批数据确实符合某特定的参数模型，由于非参数方法的精度一般低于参数方法,因此，按照非参数方法进行的分析就不能有效地利用和阐述样本数据所包含的信息,同时它对样本量的要求也高于参数方法。常见生存时间分布的概率密度函数f(t)、生存函数S（t）和风险函数h（t）分布 S(t） h（t) 指数分布 weibull分布 gamma分布对数正态分布对数logistic分布广义gamma分布 19. 时间序列分析按某种（相等或不想等）的时间间隔对客观事物进行动态观察，由于随机因素的影响，各次观察的指标x1,x2，x3,…，xi…都是随机变量，这种按时间顺序排列的随机变量的一组实测值称为时间序列。时间序列中每一时期的数值，都是由许多不同的因素共同作用的结果,而这些因素往往交织在一起，这样就增加了分析时间序列的困难。因此,时间序列分析通常对各种可能发生作用的因素进行分类，如长期趋势、季节变动、循环变动和不规则变动。时间序列分析的目的是利用所拟合的模型对某研究领域的动态数据的未来状况进行预测.时间序列分析大致包括三方面的内容: （1）选择模型并进行参数估计；（2)模型的适用性检验； (3)预测预报。 19.1. 指数平滑法指数平滑(Exponential Smoothing）是由Brown等（Brown和Meyers于1961年；Brown于1972年）发展起来的计算模式，它拟合一种使用平滑方案的时间趋势模型.通式是，式中为第t期平滑值（t>0），a为平滑系数(取值范围0<a〈1），为第t期实际观测值，系数a和（1—a）都是表示权重。在此方案中，权重大小随着时间的向后推移而呈现几何级数下降.所以对于事物未来发展的回评，新近的观测值比早期的观测值的预测价值更大，所以在预测时，新近观测值应比早期观测值具有更大权重。作为一种预测方法,指数平滑预测效果的好坏取决于对这个序列选择一个怎样的平滑系数a。a值为0—1。一般来说，平滑系数a的取值大小应当视预测对象的特点及预测周期的长短而定.a取值偏低时,预测结果主要取决于历史情形，不能及时跟踪数据新的变化趋势;a取值偏高时，预测模型具有较高的灵敏度，能够迅速跟踪新数据的变化，但对历史数据的信息利用较少。在实际应用中，通常采用多个水平的a值进行试算比较，选择其中的最优值做为平滑系数,原则是使预测误差平方和（SSE）、平均平方误差(MSE）或平均绝对误差（MAE）最小。在根据上述原则进行优选后,还应该对根据预测结果所得到的参数的合理性进行检验。 19.2. ARIMA模型 19.3. 谱分析应用时间序列分析的目的是进行预测和控制.时域分析是，通过建立时间序列模型对时间数据样本进行预测和估计，展现数据内在的特性.频域数据则是从频率角度展现时间序列数据的特点和规律,其中最主要的任务是通过谱分析来获得时间数据的周期性特点，这一特点对于了解数据变化的规律来说是一个关键点。时间序列研究对数据的要求是比较高的。最关键的是，数据必须是平稳序列。首先要进行时间序列分析，对序列的长度是有要求的，长度不能太短，应该是大样本；但是也不能太长,至少是周期的2倍以上。当然，时间序列的频域研究同样也要求测量的时间间隔为等间隔。另外，若欲表达时间序列中周期值为T的信息成分，则采样间隔不能大于T/2，该采样定理就是Nyquist采样定理.在进行谱分析之间要先进行数据的去趋势化,可以通过回归过程求剩余残差实现，也可以通过选项ADJMEAN来实现。SAS软件的SPECTRA过程中是不允许缺失数据出现的，缺失数据将无法参与分析,被自动排除于分析之外。如果分析变量中出现缺失值时，程序自作主张将变量中没有缺失值的最长的连续数据部分作为分析变量。在分析要注意检查缺失数据，也可以通过补充缺失数据来实现。 19.4. X12方法 X12过程是根据美国人口普查局X-12—ARIMA季节调整程序改编的,用于调整月度或季度时间序列数据。该过程包含了X—11过程、X—11—ARIMA/88模型以及一些新的特征。X12过程较X11的一个主要提高是应用regARIMA模型——带有ARIMA（Autoregressive Integrated Moving Average）误差的回归模型，利用该模型进行移动假日、月份长度、交易日效应等固定效应的调整。X-12-ARIMA模型包含了美国人口统计局和加拿大统计局开发的季节调整模型的主要特征。对序列进行季节调整是基于这样的假定:季节性波动可以由原始序列（Qt，t=1,…，n）中测得，并能与趋势起伏、交易日及不规则波动分离开:这一时间序列的季节成分（St）定义为年内的变动，从一年到一年之间恒定地取值或缓慢地变化；趋势起伏项（Ct）包含由长期趋势，经济起伏及其他长期起伏因素引起的变化；交易日成分(Dt）是由历史交易日位置变化引起的；不规则成分（It）是残余的变化量。对定性结果进行预测性分析 20. 非配对设计定性资料多重logistic回归分析在生物医学研究中最常见的问题之一是探索各种影响因素（自变量X）与疾病或健康（响应变量Y）之间的关系。在许多情况下，疾病和健康状况属于分类变量，包括二值变量、多值有序变量和多值名义变量。当响应变量为分类变量时，就不适合使用线性回归进行分析，这时可以考虑采用多重logistic回归. 按照因变量的类型可以将logistic回归分为三类：因变量为二值变量的logistic回归；因变量为多值有序变量的logistic回归，称为累积logistic回归模型或序次logistic回归模型；因变量为多值名义变量的logistic回归，称为多项logit模型.按照设计类型可以将logistic回归模型分为非条件logistic回归和条件logistic回归，其中非条件logistic回归就是指一般的logistic模型，适用于成组设计资料；条件logistic回归则是针对配对设计资料。 20.1. 二值变量的多重logistic回归分析 20.2. 多值有序变量的多重logistic回归分析 20.3. 多值名义变量的多重logistic回归分析 21. 配对设计定性资料多重logistic回归分析配对设计能够改善两组研究对象的齐同性，提高研究效率。配对的因素一般是年龄、行呗等重要的混杂因素。最常见的配对形式是每个匹配组中有一个病例和若干个对照，称为1：m配对设计；当然，不同匹配组中病例和对照的人数也可以是任意的，也就是说不同匹配中病例数与对照数的比例可以不相等，称为m：n配对设计.讨论此类问题时,因关心的是在某一给定的条件下某事件发生的概率，这一概率称为条件概率，故将此类

展开阅读全文