资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014/6/27,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2014/6/27,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,判别分析,是判别观察值所属类型一个统计分析方法,它是处理分类问题。,判别分析和前面聚类分析有什么不一样呢?,主要不一样点就是,在聚类分析中普通人们事先并不知道或并不一定明确应该分成几类,,完全依据数据来确定,。,而在判别分析中,最少有一个已经明确知道类别,“,训练样本,”,,利用这个数据,就能够建立判别准则,并经过预测变量来为未知类别观察值进行判别了。,第1页,也就是说,已经有一批样本观察值数据,,知道它们,被分成了,多少,类,也知道了它们所属类别,,在此,基础上依据一些准则建立判别,方程,,这些方程能够使上述样本分类犯错率最低,然后应用这些判别方程对未知类型,样本,进行判别分类;,而对于聚类分析来说,一批给定样本要划分类型事先并不知道,正需要经过聚类分析来确定类型。,第2页,在,SPSS,中分为普通判别和逐步判别两种。,【,普通判别,】,:是指不对自变量做任何筛选,直接使用全部指定自变量进行判别函数构建和分析。,【,逐步判别,】,法基本思想与逐步回归法类似,即把最主要自变量逐一引入判别函数,同时对判别函数中已经存在旧变量进行检验,假如它们判别能力伴随新变量引入而变得不那么显著了,那么就将它们从判别函数中剔除,直至没有新变量引入,也没有旧变量需要剔除为止。,这个,过程,使用,F,检验。,原假设为,,该自变量对判别贡献为,零。,若,P,值,0.05,,,则拒绝原假设,,接收备择假设,认为,该变量判别能力是显著,。,第3页,总体理论分布未知、有极端值等情况下,不能使用,t,检验和方差分析,,而,要用非参数检验方法。,非参数检验,方法大多要用到“秩,(rank),”。,“,秩”就是排队以后次序值,利用它进行秩和检验,(rank test),。,要求样本含量必须大于,5,。,秩应用降低了分布主要性,降低了样本中极端值影响,即降低了其权重。,对于小样本资料来说,,t,检验和,F,检验,(,方差分析,),适用,条件是,各样本都来自正态总体或近似正态总体。只有符合这个条件,才能用它们来检验各样本所属总体参数差异显著性。,第4页,非参数检验,非参数检验对总体分布不做假定,直接从样本发掘总体信息,推断总体分布。它在推断总体分布时没有包括总体分布参数,所以称为非参数检验或,自由分布检验,。,与传统参数检验相比,非参数检验含有以下优点:,因为非参数检验对总体假定比较少,因而含有广泛适应性,同时含有很好稳健性;,能够在较少样本情况下进行,在一定程度上填补了有些情况下样本资料不足缺点;,对连续性变量和间断性变量一样适用;,计算方法比较简单。,非参数检验也有不足之处,最大缺点是它常会造成部分信息损失,降低检验效能。,第5页,参数检验与非参数检验区分:,参数检验需要假定总体分布,而非参数不需要;,非参数方法应用范围大于参数方法,因为它不需要假定总体分布,所以,任何分布都能够用非参数方法进行研究;,研究对象目标不一样,,参数方法,假定了总体分布,所以研究,目标就是总体参数,;而,非参数方法,直接从样本推导总体分布,所以,它目标是总体分布,或两个目标分布是否相同;,第6页,研究统计量不一样,非参数方法惯用符号、秩、秩和等结构统计量,大小样本都可;而参数检验虽不用秩,但假如是小样本,要求服从正态分布;,二者效率有差距,当总体真实分布大致是假定分布时,参数方法准确性好、效率高;但假定分布不是总体真实分布时,非参数方法效率高。,比如,对非配对资料秩和检验,其效率仅为,t,检验,86%,。换句话说,以相同概率判断出显著差异,,t,检验所需样本含量要比秩和检验少,14%,。,第7页,卡方检验,卡方检验又称为卡方拟合优度检验或适应性检验,它是判断属性各类别实际出现次数是否与理论次数相符合一个非参数检验方法。,它分析目标是检验,分类数据,样本所在总体分布是否与已知分布相同。卡方结构公式以下:,卡方检验无效假设是:,样原来自总体分布与某一理论分布或期望分布没有显著差异。,第8页,二项分布检验,有些个体某种性状,只能产生非此即彼两种结果,即其取值只能是二值。,如:种子发芽与不发芽,施药后害虫死亡与存活,产品合格与不合格,硬币投掷正面与后面。,这种由非此即彼结果组成总体叫做二项总体,而其频数分布称为二项分布。,SPSS,中二项分布检验是经过样本数据,(,二值变量,),检验其来自总体是否服从指定频率为,P,二项分布,。,其无效假设为:,样原来自总体与指定某个频率为,P,二项分布不存在显著差异。,第9页,游程检验,许多时候,研究者关心不但仅是分布位置或者形状,也希望考查样本随机性怎样。因为假如样本不是从总体中随机抽取,那么所做任何推断都将变得没有价值。而游程检验就是满足这类分析需求一个基本检验方法。,游程检验又称为连贯检验或串检验;,可用来检验样本随机性,(,这对于统计推断是很主要,),可用来检验任何序列随机性,而不论这个序列是怎样产生;,可用来判断两个总体分布是否相同,从而检验出它们位置中心有没有显著差异。,第10页,游程检验,在一串二元序列中,一个由,0,或,1,连续组成串称为一个游程,一个游程中数据个数称为游程长度;,000,111,00000,11,000,11111,00,,有,4,个,0,游程和,3,个,1,游程,共,7,个游程,即游程数,R=7,。,一个有太多或太少游程样本暗示着该样本不是随机,游程检验依据游程数来检验变量两个值或符号出现次序是否是随机。,对一个序列,可定义一个分界点来两分数据。如指定一个特点数,或计算得到统计量,(,如样本均值、中位数、众数,),。,游程检验无效假设为:两分类变量值出现是随机。,第11页,单样本,K-S,检验,K-S,检验是,Kolmogorov-Smirnov,检验简称。,K-S,检验是用来考查观察值分布和指定理论分布符合程度一个方法。,SPSS,提供理论分布有正态分布,(,常规,),、均匀分布,(,相等,),、泊松分布,(,泊松,),、指数分布,(,指数分布,),。,K-S,检验不但能够用于检验间断性变量分布形态,也能够用于检验连续性变量分布形态。,其原假设是:假设样原来自总体分布与指定理论分布没有显著差异。,第12页,多个独立样本检验,多个独立样本非参数检验是经过分析多个独立样本数据,推断样原来自多个总体中位数或分布是否存在显著差异。,它是单原因方差分析对应非参数检验方法。,原假设是:多独立总体分布无显著差异,PASW,提供了三种检验法:,Kruskal-Wallis H,检验;,中位数检验;,Jonckheere-Terpstra,检验。,在进行完全随机设计多组均值比较时,试验观察结果有时会严重偏离正态分布,或组间方差不齐,或观察结果是有序,这时就只好用多个样本比较非参数检验了。,第13页,多个独立样本检验,Kruskal-Wallis H,方法:,系统默认方法,是,Mann-Whitney U,检验法扩展,类似单方向,(,原因,),方差分析。,该法前提是假设抽样总体是连续和相同,利用各样本秩和来推断它们所代表总体在分布位置上差异显著性。,其基本思绪是,首先把全部样本合并升序排列,得出每个数据秩,然后对各组样本求平均秩,假如平均秩相差很大,则认为两组样本所属总体有显著差异。,适合用于:次序数据、总体非正态分布数据、方差不齐数据、有序分类变量等,即方差分析不适用数据。,该检验法适用范围是:每组样本量,5,。,第14页,中位数检验,:,探讨多总体中位数是否有差异,适合用于数值变量资料。,基本思绪是,将全部样本混合升序排列,并计算中位数,然后计算各组样本中大于和小于这个中位数样本个数,假如这些数据差距过大,则认为两组样本所属总体有显著差异。,多个独立样本检验,第15页,两个相关,(,配对,/,关联,),样本检验,主要用于同一研究对象,(,或两个配对对象,),分别给予两种不一样处理效果比较以及同一研究对象,(,或两个配对对象,),处理前后效果比较。,前者推断两种效果有没有差异,后者推断某种处理是否有效。,如同一批运动员在使用新训练方法前后成绩比较,此时样本间不是独立,而是彼此相关。,此时检验样本总体间是否分布相同,而参数,t,检验是检验均值是否相等,零假设是两配对样原来自两总体分布无显著差异,第16页,两个相关样本检验,Wilcoxon,检验也叫符号秩检验,,是一个改进符号检验,其效能高于符号检验。其基本思绪是,假如两样原来自两相关配对总体没有显著差异话,不但差值中正数个数和负数个数应大致相等,而且正值和负值秩和也大致相等。当然,它效率大约是,t,检验,95%,。,符号检验是,对配对样本值计算其差值,观察所得差值符号,假如差值中正数个数和负数个数差距较大,则认为两样本差异显著,它们来自两个不一样总体。,两个相关样本非参数检验方法有,4,种,依据数据类型确定。假如,数据是连续,,使用符号检验和,Wilcoxon,检验。,第17页,多个相关,/,配对样本检验,多个相关样本检验是判断它们是否来自同一个总体。,有三种检验方法:,Friedman,、,Kendall,W,、,Cochran,Q,原假设都是:多个配对样本总体分布无显著差异,Friedman,检验为双向方差分析,也是把全部样本值排列后利用秩及秩和结构统计量来判断。,Kendall,W,协同系数检验:适合用于几个分类变量均为有序分类情况;考查屡次评价,(,评判,),排列是否随机。,Cochran,Q,检验:是两相关样本,McNemar,检验多样本推广,适合用于定性变量和二分类变量。,第18页,在进行单个观察值正交试验资料方差分析时,其,误差,是由“空列”来预计。,实际上“空列”并不是“空”,它是留给试验原因间交互作用。,所以上述,误差,既包含试验误差,也包含试验原因之间交互作用,称之为模型误差。,假如试验原因间不存在交互作用,用模型误差预计试验误差是可行。,假如原因间存在交互作用,则模型误差会夸大试验误差,有可能掩盖考查原因显著性。这种情况下,经过重复试验能够预计出试验误差。所以进行正交试验最好有,2,次以上重复,采取完全随机或随机区组设计。,第19页,单一自由度正交比较,14,种多重比较法只适合用于两两处理平均数间比较,可是有时候需要,有时候需要进行一个处理平均数与多个处理平均数、或一组处理平均数与另一组处理平均数比较。,这种比较就需要利用单一自由度正交比较法。,第20页,
展开阅读全文