第四章非参数检验-上课材料.doc

资源描述

1、第四章非参数检验（Nonparametric Tests菜单）F 本章学习内容3.1 非参数检验概述3。2 卡方检验（Chi Square)单样本3。3 二项分布检验(Binomial)3.4 单样本K-S检验（1 Sample KS Tests）3。5 单样本变量值随机性检验（Runs）独立样本3.6 两独立样本非参数检验（2 independent Samples）3。7 多独立样本非参数检验(K independent Samples）样本3。7 两相关样本非参数检验（2 Related Samples)3.8 多相关样本非参数检验（K Related Samples)F 具体内容3。

2、1 非参数检验概述非参数检验是统计推断的一个重要组成部分，它与参数检验共同构成统计推断的基本内容。参数检验是在假定知道总体分布形式的情况下，对总体分布的某些参数,如均值、方差等进行推断检验。但是，在现实生活中,由于种种原因，人们往往无法对总体的分布形态作简单的假定，但又希望能从样本数据中获得尽可能多的所需要信息。非参数检验正是基于这种考虑,在总体分布位置或知道甚少的情况下，利用样本数据对总体的分布形态或分布参数进行推断。参数检验与非参数检验方法对照表样本类型参数检验方法非参数检验方法单个样本t检验法卡方检验二项分布检验单样本ks检验单样本变量值随机性检验两个独立样本独立样本t检验法两独立样本非

3、参数检验曼-惠特尼U检验两个相关样本配对t检验法两相关样本非参数检验普通符号法(sign）多个独立样本单因素方差分析多独立样本非参数检验K-W-H方法多个相关样本多因素方差分析多相关样本非参数检验Friedman方法3。2 卡方检验(Chi-Square）总体分布的卡方检验就是根据样本数据推断总体的分布与期望分布或某一理论分布是否有显著差异。它的零假设是H0：样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。总体分布的卡方检验是一种吻合性检验,比较适合于单个因素的多项分类的数据分析。实例分析：医学家在研究心脏病人猝死人数与日期的关系时发现,一周之中,星期一心脏病人猝死者较多，其他日期

4、则基本相当，比例近似为2.8:1：1：1：1：1：1。现收集到样本数据168个，据此推断其总体分布是否与假定的分布相吻合。见“心脏病人猝死日期.sav。具体操作如下：AnalyzeNonparametric Tests Chi-Square，打开卡方检验对话框，如下图。321可以看出，由于相伴概率值大于显著性水平0.05,因此不能拒绝零假设，可以认为样本来自的总体分布于指定的理论分布无显著差异，即：心脏病人猝死人数与日期的关系基本是2.8：1:1：1：1：1：1。3.3 二项分布检验（Binomial）现实生活中有很多数据的取值是两类的，例如人群可以分成男性和女性，产品可以分为合格和不合格,学

5、生可以分为三好学生和非三号学生等等.这时,如果某一类情况出现的概率是P，则另一类出现的概率就是1-P，这种分布成为二项分布。若说卡方检验是对单个因素多项分类（多重比例）进行检验，那么二项分布检验就是对单个因素的两项进行检验。实例分析：检验一种抗生素对于某种细菌的作用,看有效时间超过12小时的比例是否超过85%，为此进行了试验,结果如文件“抗菌时间.sav”。从题中可以知道,等价于有效时间不超过12小时的比例为15，因此，设分布比例为0。15：0.85，H0：P=0.15。具体操作如下:AnalyzeNonparametric Tests Binomial，打开二项分布检验对话框。43检验比例2

6、分割点值1Dichotomy n.两分, 二分法, 分裂Define dichotomy，定义二分。其中：get from data适用于变量数据都是二值数据的情况；cut point：如不是二值数据，则可输入一个具体值，即将数据分为两类：该值的为一类；该值的为另一类。Test proportion：检验比例，默认为0.5可以看出，由于检验结果中的P值为0。352，大于显著性水平0。05,因此不能拒绝“抗菌有效时间不高于12小时的比例为15”的零假设。习题1：见文件“抛掷硬币结果binomial.sav。检验抛掷硬币结果(1为正面，0为反面）的比例大体相等。3.4 单样本K-S检验(1 Sam

7、ple K-S Tests）若说前两种主要是对单样本的分布比例(多项或两项）的检验，那么单样本K(柯尔莫哥,Kolmogorov)S（斯米诺夫，Smirnov）检验是利用样本数据推断总体是否服从某一理论分布，包括正态分布、均匀分布、指数分布、泊松分布。其零假设是H0：样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。其中应用最多的是正态分布检验。实例分析：某条大街在一年内的交通事故按周次分为七类进行统计，见文件“交通事故周次分布。sav”。试问事故的发生是否与星期几有关？（a=0.05）我们作的零假设为H0：每天发生交通事故次数为均匀分布。步骤:AnalyzeNonparametri

8、c Tests 1 Sample K-S Tests，打开单样本KS检验对话框。213单样本ks检验结果显示:渐进的显著性概率为0.858,远远大于0。05这一给定的显著性水平值，因此没有理由拒绝原假设，即认为每天发生交通事故次数为均匀分布,也就是说事故的发生与星期几无关.习题2:见word文档：练习2。3。5 单样本变量值随机性检验（游程检验，Runs）单样本变量值随机性检验是对某一变量的变量值是否为随机性出现进行检验。例如：某厂质检员需要设计一个抽样方法，已保证质量检查的可靠。生产线上抽取的产品检查结果可简单地分为两类：有毛病、无毛病.一般来说,如果有毛病的产品是成群出现，则每天应频繁抽

9、取小样本，以保证估计可靠；如果有毛病的产品随机出现,则每天以间隔较长地抽取大样本，就可以得到一个比较好的估计。现随机抽取了30个产品,毛病编码为0，好的编码为1，按抽取顺序，结果为：0000111111001111110001111111问：该生产线上的产品检验，应采取何种方式？设H0：有毛病的产品随机产生。打开文件“有毛病产品出现的随机性。sav”.步骤：AnalyzeNonparametric Tests runs Test，打开单样本变量值随机性检验对话框。312结果显示：渐进观察显著性水平为0。000，这相对于a=0.05来说，是一个极小的值，因而数据不支持原假设,而是成群产生，因此，

10、应该每天频繁抽取小样本检验,以保证质量检查的可靠性.习题3：在投掷硬币后，出现了由1和0（1代表正面,0代表反面）组成的数据序列为：1011011010011000101010000111，试判断，硬币的正反面出现是否是随机的?3.6 两独立样本非参数检验(2 independent Samples)两独立样本的非参数检验是在对总体分布不甚了解的情况下，通过分析样本数据,推断样本来自的两个独立总体的分布是否存在显著差异。SPSS提供了四种用于两独立样本的非参数检验方法。在此只以曼惠特尼-U检验为例讲述。实例分析:美国某汽车协会每月编制一个顾客满意度指数，旨在测量顾客对新型汽车满意程度，此指数越

11、高则顾客满意度越高。下表给出了某年评比出的前10名汽车资料。车型（制造商）美国产或进口顾客满意度指数凌志（丰田）进口179无限（日产)进口167土星（通用）国产160阿拉库(本田）进口148梅塞德奔驰进口145丰田进口144奥迪进口139卡迪拉克（通用）国产138本田进口138捷豹（福特）国产137试分析顾客是否对美国的进口品牌汽车更加满意？我们建立的H0：美国产汽车与进口汽车的顾客满意指数相同.另外，我们还需对国产或进口资料进行重新编码(recode)以分出组别。打开文件“汽车满意度评比。sav”.步骤1：transformrecode into different variables，会弹

12、出如下对话框。之后会看到文件中生成新的变量“国产”，如下图。步骤2:AnalyzeNonparametric Tests 2 independent Samples，打开两独立样本检验对话框.可以看出，相应的渐进显著性检验值为0.253，大于给定的a值，因此,没有理由拒绝原假设，即认为顾客对美国产的新型汽车和进口汽车的满意指数没有显著性差异.习题4：某工厂用两种不同的工艺生产用一种产品，现在需要检验它们的使用寿命是否存在显著差异。具体数据如下:（单位：百小时)甲种工艺：675,682，692，679,669，661,693乙种工艺：662，649，672，663,650，651，646，652

13、用1表示甲，用2表示乙.3。7 两相关样本非参数检验（2 Related Samples）两相关样本的非参数检验是在对总体分布不甚了解的情况下，通过分析样本数据，推断样本来自的两个相关总体的分布是否存在显著差异.SPSS提供了三种用于两相关样本的非参数检验方法。在此只以普通符号法（sign）为例讲述.实例分析：考察广告对某商品的每日销量是否起作用。广告前后每日销售量见文件“广告对某商品的每日销量是否起作用.sav。我们设H0:广告前与广告后每日销量相同.步骤:AnalyzeNonparametric Tests 2 Related Samples，打开两相关样本检验对话框. Sig值为0.03

14、9，小于a值0。05，所以调查结果不支持H0，广告前后每日销量有显著的差异。我们认定广告对该种商品的促销还是起作用的.习题5：见word文档“习题5”。3.8 多独立样本非参数检验(K independent Samples)在参数检验中,检验多个样本是否来自均值相同的总体，采用的是方差分析法。运用方差分析的F检验的假定前提条件是:样本是从正态分布的总体中抽选的，且总体具有相同的方差。当这些条件不能满足时，就需要采用非参数检验方法了。针对多个独立样本的非参数检验，SPSS通过K independent Samples的子过程来完成，且提供了三种具体方法，在此以K-WH方法（克鲁斯卡尔瓦里斯）为

15、例。实例分析：假设某公司有三种方法供员工执行某生产任务使用。为检验这三种方法之间有无差异，设计了两个方案.方案1：先随机抽取6名员工，其中的每一名员工都使用方法1，然后再随机抽取6名员工，这6名都使用方法2。最后在抽取6名，他们都使用方法3。具体完成任务时间（分钟）见下表。表员工完成任务所用时间(方案1)员工方法123456方法17。26.87.36。06。67.0方法26.56。25.16.15.96.9方法37.67.17。46.37.56.4方案2：随机抽取6名员工,每一名员工都使用这三种方法执行该任务。6名员工完成任务时间（分钟)见下表。表员工完成任务所用时间(方案2）员工方法12

16、3456方法16。05。07.06。26。16.4方法25.45。26。55。96.05。8方法36.45.46.76.36.87。2可以看出，方案1 是3个独立样本,我们使用K-W-H方法来对其进行检验。首先建立零假设H0：三种方法之间没有差异。打开文件“例 79（KruskalWallis)。sav”步骤:AnalyzeNonparametric Tests K independent Samples，打开多独立样本检验对话框.P值为0.039，小于a值0。05，所以有理由拒绝H0,即认为三种方法之间完成该生产任务所用时间存在着显著性差异.习题6：假设要比较北京、上海、天津、广州四城市周岁

17、儿童的身高，试分析各总体的分布是否存在显著性差异。于是在四个城市随机抽取样本，得到以下20个数据.北京:79，75,78，76，72上海：72，71，74，74，73天津：76,78,78，77,75广州：70，72，71，71,693。9 多相关样本非参数检验（K Related Samples）另外，还可以看出，方案2 是3个相关样本，我们使用Friedman方法来对其进行检验.首先建立零假设H0：三种方法之间没有差异。打开文件“例 7-9（Friedman）。sav注意：可以看出此文件中的变量和刚才不同：独立样本中不同样本可以在一个变量中体现,而在相关样本文件中，不同样本各自建立不同的变量。步骤:AnalyzeNonparametric Tests K Related Samples，打开多相关样本检验对话框。P值为0.016，小于a值0。05，所以有理由拒绝H0，即认为三种方法之间完成该生产任务所用时间存在着显著性差异。

展开阅读全文