1、判别分析是判别观测值所属类型的一种统计分析方法,它是解决分类问题的。判别分析和前面的聚类分析有什么不同呢?主要不同点就是,在聚类分析中一般人们事先并不知道或并不一定明确应该分成几类,完全根据数据来确定。而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。也就是说,已经有一批样本的观测值数据,知道它们被分成了多少类,也知道了它们所属的类别,在此基础上根据某些准则建立判别方程,这些方程能够使上述样本的分类出错率最低,然后应用这些判别方程对未知类型的样本进行判别分类;而对于聚类分析来说,一批给定样本要划分的类型事先
2、并不知道,正需要通过聚类分析来确定类型。在SPSS中分为一般判别和逐步判别两种。【一般判别】:是指不对自变量做任何筛选,直接使用所有指定的自变量进行判别函数的构建和分析。【逐步判别】法的基本思想与逐步回归法类似,即把最重要的自变量逐个引入判别函数,同时对判别函数中已经存在的旧变量进行检验,如果它们的判别能力随着新变量的引入而变得不那么显著了,那么就将它们从判别函数中剔除,直至没有新变量引入,也没有旧变量需要剔除为止。这个过程使用F检验。原假设为,该自变量对判别的贡献为零。若P值0.05,则拒绝原假设,接受备择假设,认为该变量的判别能力是显著的。总体理论分布未知、有极端值等情况下,不能使用t检验
3、和方差分析,而要用非参数检验方法。非参数检验方法大多要用到“秩(rank)”。“秩”就是排队以后的顺序值,利用它进行秩和检验(rank test)。要求样本含量必须大于5。秩的应用降低了分布的重要性,减少了样本中极端值的影响,即减少了其权重。对于小样本资料来说,t检验和F检验(方差分析)适用的条件是,各样本都来自正态总体或近似正态总体。只有符合这个条件,才能用它们来检验各样本所属的总体参数的差异显著性。非参数检验非参数检验非参数检验对总体分布不做假定,直接从样本发掘总体信息,推断总体分布。它在推断总体分布时没有涉及总体分布的参数,所以称为非参数检验或自由分布自由分布检验。与传统的参数检验相比,
4、非参数检验具有以下优点:由于非参数检验对总体的假定比较少,因而具有广泛的适应性,同时具有较好的稳健性;可以在较少样本的情况下进行,在一定程度上弥补了有些情况下样本资料不足的缺陷;对连续性变量和间断性变量同样适用;计算方法比较简单。非参数检验也有不足之处,最大缺点是它常会导致部分信息损失,降低检验效能。参数检验与非参数检验的区别:参数检验需要假定总体的分布,而非参数不需要;非参数方法应用范围大于参数方法,因为它不需要假定总体分布,所以任何分布都可以用非参数的方法进行研究;研究的对象目标不同,参数方法假定了总体分布,所以研究目标就是总体的参数;而非参数方法直接从样本推导总体的分布,所以它的目标是总
5、体的分布或两个目标的分布是否相同;研究的统计量不同,非参数方法常用符号、秩、秩和等构造统计量,大小样本都可;而参数检验虽不用秩,但如果是小样本,要求服从正态分布;两者的效率有差距,当总体的真实分布大体是假定的分布时,参数方法的准确性好、效率高;但假定的分布不是总体的真实分布时,非参数方法的效率高。例如,对非配对资料的秩和检验,其效率仅为t检验的86%。换句话说,以相同概率判断出显著差异,t检验所需样本含量要比秩和检验少14%。卡方检验卡方检验卡方检验又称为卡方拟合优度检验或适应性检验,它是判断属性各类别的实际出现次数是否与理论次数相符合的一种非参数检验方法。它分析的目的是检验分类数据样本所在的
6、总体分布是否与已知分布相同。卡方构造公式如下:卡方检验的无效假设是:样本来自的总体分布与某一理论分布或期望分布没有显著差异。二项分布检验二项分布检验有些个体的某种性状,只能产生非此即彼的两种结果,即其取值只能是二值的。如:种子的发芽与不发芽,施药后害虫的死亡与存活,产品的合格与不合格,硬币投掷的正面与背面。这种由非此即彼的结果构成的总体叫做二项总体,而其频数的分布称为二项分布。nSPSS中二项分布检验是通过样本数据(二值变量)检验其来自的总体是否服从指定频率为P的二项分布。n其无效假设为:样本来自的总体与指定的某个频率为P的二项分布不存在显著差异。游程检验许多时候,研究者关心的不仅仅是分布的位
7、置或者形状,也希望考察样本的随机性如何。因为如果样本不是从总体中随机抽取的,那么所做的任何推断都将变得没有价值。而游程检验就是满足此类分析需求的一种基本的检验方法。a)游程检验又称为连贯检验或串检验;b)可用来检验样本的随机性(这对于统计推断是很重要的)c)可用来检验任何序列的随机性,而不管这个序列是如何产生的;d)可用来判断两个总体的分布是否相同,从而检验出它们的位置中心有无显著差异。游程检验a)在一串二元序列中,一个由0或1连续构成的串称为一个游程,一个游程中数据的个数称为游程的长度;b)00011100000110001111100,有4个0游程和3个1游程,共7个游程,即游程数R=7。
8、a)一个有太多或太少游程的样本暗示着该样本不是随机的b)游程检验根据游程数来检验变量的两个值或符号出现的顺序是否是随机的。a)对一个序列,可定义一个分界点来两分数据。如指定一个特点的数,或计算得到的统计量(如样本均值、中位数、众数)。b)游程检验的无效假设为:两分类变量值的出现是随机的。单样本K-S检验1.K-S检验是Kolmogorov-Smirnov检验的简称。2.K-S检验是用来考察观测值的分布和指定的理论分布符合程度的一种方法。3.SPSS提供的理论分布有正态分布(常规常规)、均匀分布(相等相等)、泊松分布(泊松)、指数分布(指数分布)。K-S检验不仅可以用于检验间断性变量的分布形态,
9、也可以用于检验连续性变量的分布形态。其原假设是:假设样本来自的总体的分布与指定的理论分布没有显著差异。多个独立样本检验多个独立样本的非参数检验是通过分析多个独立样本数据,推断样本来自的多个总体的中位数或分布是否存在显著差异。它是单因素方差分析对应的非参数检验方法。原假原假设是:多独立是:多独立总体分布无体分布无显著差异著差异PASW提供了三种检验法:Kruskal-Wallis H检验;中位数检验;Jonckheere-Terpstra检验。在进行完全随机设计的多组均值比较时,试验观测结果有时会严重偏离正态分布,或组间方差不齐,或观测结果是有序的,这时就只好用多个样本比较的非参数检验了。多个独
10、立样本检验lKruskal-Wallis H方法:l系统默认的方法,是Mann-Whitney U检验法的扩展,类似单方向(因素)方差分析。l该法的前提是假设抽样总体是连续的和相同的,利用各样本的秩和来推断它们所代表的总体在分布位置上的差异显著性。l其基本思路是,首先把所有样本合并升序排列,得出每个数据的秩,然后对各组样本求平均秩,如果平均秩相差很大,则认为两组样本所属的总体有显著差异。l适用于:顺序数据、总体非正态分布数据、方差不齐数据、有序分类变量等,即方差分析不适用的数据。l该检验法的适用范围是:每组样本量5。n中位数检验中位数检验:n探讨多总体的中位数是否有差异,适用于数值变量资料。n
11、基本思路是,将所有样本混合升序排列,并计算中位数,然后计算各组样本中大于和小于这个中位数的样本的个数,如果这些数据差距过大,则认为两组样本所属的总体有显著差异。多个独立样本检验两个相关(配对/关联)样本检验主要用于同一研究对象(或两个配对对象)分别给予两种不同处理的效果比较以及同一研究对象(或两个配对对象)处理前后的效果比较。前者推断两种效果有无差异,后者推断某种处理是否有效。u如同一批运动员在使用新训练方法前后的成绩比较u此时的样本间不是独立的,而是彼此相关。u此时检验样本的总体间是否分布相同,而参数t检验是检验均值是否相等u零假设是两配对样本来自的两总体的分布无显著差异两个相关样本检验Wi
12、lcoxon检验也叫符号秩也叫符号秩检验,是一种改进的符号检验,其效能高于符号检验。其基本思路是,如果两样本来自的两相关配对总体没有显著差异的话,不但差值中正数的个数和负数的个数应大致相等,而且正值和负值的秩和也大致相等。当然,它的效率大约是t检验的95%。符号符号检验是是对配对样本值计算其差值,观测所得的差值的符号,如果差值中正数的个数和负数的个数差距较大,则认为两样本差异显著,它们来自两个不同的总体。两个相关样本的非参数检验方法有4种,根据数据类型确定。如果数据是连续的数据是连续的,使用符号检验和Wilcoxon检验。多个相关/配对样本检验多个相关样本的检验是判断它们是否来自同一个总体。有
13、三种检验方法:Friedman、Kendall的W、Cochran的Q原假设都是:多个配对样本的总体分布无显著差异Friedman检验为双向方差分析,也是把所有样本值排列后利用秩及秩和构造统计量来判断。Kendall的W协同系数检验:适用于几个分类变量均为有序分类的情况;考察多次评价(评判)的排列是否随机。Cochran的Q检验:是两相关样本McNemar检验的多样本推广,适用于定性变量和二分类变量。在进行单个观测值正交试验资料的方差分析时,其误差是由“空列”来估计的。实际上“空列”并不是“空”的,它是留给试验因素间的交互作用的。所以上述误差既包含试验误差,也包含试验因素之间的交互作用,称之为模型误差。如果试验因素间不存在交互作用,用模型误差估计试验误差是可行的。如果因素间存在交互作用,则模型误差会夸大试验误差,有可能掩盖考察因素的显著性。这种情况下,通过重复试验可以估计出试验误差。所以进行正交试验最好有2次以上的重复,采用完全随机或随机区组设计。单一自由度的正交比较单一自由度的正交比较14种多重比较法只适用于两两处理平均数间的比较,可是有时候需要有时候需要进行一个处理平均数与多个处理平均数、或一组处理平均数与另一组处理平均数的比较。这种比较就需要利用单一自由度的正交比较法。