资源描述
第二章 单样本非参数检验,第一节 符号检验第二节中位数的置信区间第三节,Wilcoxon符号秩检验,第一节 符号检验,符号检验,(SING TEST)是利用正号和负号的数目对,某种假设做出判定的非参数方法,。,符号检验虽然是最简单的非参数检验,但它体现了非参数统计的一些基本思路首先看一个例子。,平均数mean(包括切尾平均数)中位数median 和众数 mode 都可用来表示数据的中心位置,参数数据分析中总体的中心位置常用均值表示,例如当总体服从正态分布时,使用 检验方法检验均值。而非参数数据分析方法中,总体的中心位置常用总体的中位数表示,故关于中心位置的检验问题就是关于中位数的检验问题。,例1联合国人员在世界上66个大城市的生活花费指数(以纽约市1996年12月为100)按自小至大的次序排列如下(这里北京的指数为99):,66 75 78 80 81 81 82 83 83 83 83,84 85 85 86 86 86 86 87 87 88 88,88 88 88 89 89 89 89 90 90 91 91,91 91 92 93 93 96 96 96 97,99,100,101 102 103 103 104 104 104 105 106 109 109,110 110 110 111 113 115 116 117 118 155 192,这个总体的中间水平是多少?北京市在该水平之上还是之下?(北京为99),这个例子经过简单计算,得到样本均值为96.45,而样本中位数为91;它们都可作为总体的中心的估计,除此之外,众数(频率最大的点,本例是88)可作为中间位置在本例中,总体分布是未知的,为此从看该数据的直方图中很难说这是什么分布。,假定用总体中位数M来表示中间位置,就意味着样本点 取大于M的概率应该与取小于M的概率相等。所研究的问题可以看作是只有两种可能“成功”或“失败”。成功为“+”,即大于中位数M;失败为“-”,即小于中位数M。,令,S,+,=得正符号的数目,S,=得负符号得数目,可以知道S,+,或S,均服从二项分布B(66,0.5)。,则S,+,和S,可以用来作检验的统计量.,左侧检验 ,当零假设为真的时,S,+,应该不大不小。当S,+,过小,即只有少数的观测值大于99,则认定中位数99可能太大,实际总体的中位数可能要小一些。,对于右侧检验 ,当零假设为真的时,,S,+,应该不大不小。当,S,+,过大,即有多数的观测值大于99,则,认定中位数99,可能太小,目前实际总体的中位数可能要大一些。,双侧检验 对备择假设H,1,来说关心的是等于正的次数是否与等于负的次数有差异。,例,生产过程是否需要调整。,某企业生产一种钢管,规定长度的中位数是l0米。现随机地:从正在生产的生产线上选取10根进行测量,结果:,9.8 10.1 9.7 9.9 9.8 10.0 9.7 10.0 9.9 9.8,分析:中位数是这个问题中所关心的一个位置参数。若产品长度真正的中位数大于或小于10米,则生产过程需要调整。故做双侧检验,建立假设,为了对假设作出判定,先要得到检验统计量,S,+,或S,。将调查得到数据分别与10比较,算出各个符号的数目:,s,+,=1,,s,=7,n=8。,p大于显著性水平0.05。表明调查数据支持原假设。即生产过程不需要调整。,第二节,基于符号检验的中位数置信区间,例 我国国有经济15个行业的1996年职工平均工资按从小到大的次序为(单位:元),4038 4940 5798 6161 6344 6610 6695 6709,6967 6992 7897 7987 8546 8679 8701,求中位数的置信区间。,定义2.1,把n个样本点按从小达到的顺序排列,得,假设顺序统计量 ,由 构成区间 作为中位数的置信区间。,由于大于和小于中位数M的样本点数服从B(N,0.5),由于得到的区域是以中位数位对称的,故,k,P(Kk),1-2P(KM0,即实际的中位数比M,0,大。,如果负等级的总和远远大于正等级的总和,表明大部分大的等级是负的差值,这时,数据支持备择假设MM0,即实际的中位数比M,0,小。,因为正等级和负等级的总和是个恒定的值,即 l+2+nn(n+1)2,因此对于双侧备择MM0来说,两个中无论哪一个太大,都可以被支持。,二、检验的步骤,(1),计算X,i-,M,0,,它们代表这些样本点到M,0,的距离;,(2),把上面的n个绝对值排序,并找出它们的秩;如果有相同的样本点,每个点取平均秩(如1,4,4,5的秩为1,2.5,2.5,4);,(3),计算,正等级的总和W,+,与负等级的总和W-,(4),选择检验统计量。对双边检验,在零假设下,,W,+与,W-,应大小差不多因而,当其中之一非常小时,应怀疑零假设;在此,取检验统计量W=min(,W,+,,,W-,)。类似地,对左侧检验,取W=,W,+,。对右侧检验,取W=,W-,。,(5),根据得到的W值,查Wilcoxon符号秩检验的分布表以得到在零假设下P值如果n很大要用正态近似,得到一个与W有关的正态随机变量Z的值,再查表得P值。,(6),如P值较小(比如小于或等于给定的显著性水平0.05)则可以拒绝零假设。,注意:,Wilcoxon符号秩检验利用符号检验没有用数据大小的信息,但Wilcoxon符号秩检验假设分布是对称的,如果对称性不成立,则还是符号检验好。,特别,当样本容量很大时,可利用正态近似,利用线性符号秩的概念有,于是统计量为,做为比较,现在利用正态近似对世界大城市再做,Wilcoxon,符号秩检验,检验统计量,Z=-2.5725,Z=-2.5725,P-值,=0.005,2 =0.01,检验的结果,拒绝零假设,拒绝零假设,结论,中位数小于99,中位数不等于99,注意,:该例利用,Wilcoxon,符号秩检验所得得结论与符号检验结论一样,但P值是符号检验的一半,这是因为,Wilcoxon,符号秩检验利用符号检验没有用的信息,但,Wilcoxon,符号秩检验假设分布是对称的,如果对称性不成立,则还是符号检验好。,需要说明的是,这里看上去是按照备择假设的方向选检验统计量。但是实际上往往是按照实际观察的T,+,或T,-,的大小来确定备择假设。在选定备择假设之后,我们之所以选T,-,作为检验统计量,是因为它们的观察值比T,+,的小,因而计算或查表(表只有一个方向)要方便些如果利用统计软件或大样本正态近似,则选哪一个都没有关系,打结的情况,在许多情况下,数据中有相同的数字,称为结(tie)结中数字的秩为它们按升幂排列后位置的平均值这样的秩称为中间秩。如果结多了,零分布的大样本公式就不准了。因此,在公式中往往要作修正。,其中用,i,表示第,i,个结的性同观测值的个数。用g表示结的个数。例如:,观测值,2 2,4,7 7 7,8,9 9 9 9,10,秩,1.5 1.5,3,5 5 5,7,9.5 9.5 9.5 9.5,12,结统计量,i,2,3,4,
展开阅读全文