1、第2章计数统计量和秩统计量,适应任意分布(Distribution-free)统计量;计数统计量符号检验;秩统计量一 Wilcoxon秩和检验;符号秩统计量一Wilcoxon符号秩检验;条件适应任意分布统计量;带结的秩和统计量和符号秩统计量。适应任意分布的统计量定义:设随机变量XX2,Xn是来自总体F(x)的 样本,一切可能的F(x)组成分布类如果统计量 T(X1,.,XJ对任意的e均有相同的分布,则称T关于 硯适应任意分布的。说明:-如可“大”可“小”,对于象正态分布这样的分布函数 族,T检验统计量也是d-free的。与秩相关的统计量对 函数F(x)要求最少(连续函数),对应于“大”的函数族
2、。例子(d-free统计量)x15x25,小跖),对于分布类=N(岀。冽,丁统计量7(羽.,X,J=何。)对于分布族礎适应任意分布的。其中为 样本均值,S为样本标准差。因为对一切00,T的分布均为自由度为1的t分布。计数统计量 设X是随机变量,对于给定的实数,定义随 机变量屮(X。)淇中(.)为符号函数,称随 机变量屮为X按。分段的计数统计量。定理1.1:如果X广F/x)相互独立,且。是任 意F。)的Po分位点,即Fj(。0)=p,则%=(X。)相互独立同分布,其共同分布 是参数为(1-Po)的二点分布。基于定理1.1,可以对分布的Po分位点值进行 检验符合检佥。符号检验 设XX2,,XnF(
3、x),F(x)在卩。点连续,考虑如下 的检验问题:H0:F(|Xq)=Pq H1:F(1q)Pg.符号检验统计量nB=砂(X,-4)H。下,BB(n,1-po)二项分布,从而可以定出否定域。存在常数 使得 P(B C1)c2)a/2,否定域为。,1,,。1 U C2,。2+1,八秩(Rank)统计量 定义:XrX2,,XnF(X),将观测样本按照 升序排列XW*2)X(n),每个观测样本 在序中的位置,即X旧)=x,n凡=/氏0=1观测值没有重复X30 23 203869192652 79Ri532681479结 观测值出现重复时,原秩定义不唯一X30 23 203869192352 79Ri
4、542681379Ri532681479 此时称有结存在。修正方法:将不唯一的秩定义为它们的平 5。结定义:将样本从小到大排列X=.=Xg)X(r+i)=.=Xg+72)G(n),且在 某些点不等式严格成立。Wilcoxon统计量:将Xm;Yi,丫。共 m+n个观测值起排序,产生秩向量 R=(Qi,,QM凡).定义Wilcoxon秩统 计量*此 i=lWilcoxon统计量参数检验:正态分布下T检验。直观意义:Y大于X,则相应的秩也偏大,秩和也偏大。X Y Wilcoxon秩和检验对应于参数统计的T检验。Wilcoxon统计量概率分布定理 15 在H。:F(x)=G(x)下,Wilcoxon统
5、计量W 的分布为Pr(W=%心其中d=n(n+1)/2,m+n(n+1)/2.1111rl(d)表示从 1,01+1I中取口个数和为0I的床有可能取法。说明:在定理1.2下,以上定理实际上是个平凡 的组合计算,如何求t叫”(cl)是关键。Wilcoxon统计量概率分布(I I)d的取值问题,最小对于与前n个数,和为 n(n+1)/2,最大对于与最后n个数,和为 m+n(n+1)/2.tmn(d)的计算:看混合样本中最大的样本,其秩为 m+n,这个样本只有两种可能。如果它属于总体X,没有被W记入,此时还是在m+n-1个数中选取,有tm-in(d);如果这个样本属于总体Y,被W记入,此时只要再选n
6、-1个数使其和为d-m-n即可。故可 以递推计算埼9).WHcoxon统计量概率分布(111)计算tm,n(d),可用如下递推关系式力gn(d)=力7n1,(+力gn1(一 一,()=1,,=1,一,加;力,0(d)=0,d 0,=1,*,TKI(注2)=1to,j(d)=();#山Lj=1,九对小样本用以上公式计算。大样本时用正 态近似。Wilcoxon统计量性质定理 17 在Ho:F(x)=G(x)下,Wilcoxon统 计量W有)=3+UVar(W)=mn(m+n+1)12且W的分布关于n(m+n+1)/2对称Mann-Whitney 统计量考察不同总体观测样本之间的差异。(丫 Xj),
7、如果丫大于X,则多数观测值对取正。将所有观测对的符号相加在起,得到的 统计量就是Mann-Wh让ney统计量,即m nu=(匕乂)i=l j=lXYWHcoxon统计量 和Mann-Wh让ney统计量 Wilcoxon统计量W和Mann-Wh计ney统计量 U满足如下关系证明思路:将丫排序),,)设它们在混 合样本中的序为,),那么我们可以 数出在这些样本前面的X样本的个数。它们 对应于U统计量的定义。Wilcoxon统计量 和Mann-Wh让ney统计量 R(1)R R(n)#Xi y(i),z=1,nz=R-1#Xi 几),=1,,m=R(j)_ j#X 0,X t)=P(0 X /)=:
8、P/(O X +人(一(|X|当Q=q时,Xi,Xn中正样本对应的绝对秩 记为SvSq,则Pt(Q=qS=力1=0,1,.otherwise Qq tq),心力 0O.令Zi=Xi-00,定义符号秩,构造统计量+=E%再 i=l 给定显著水平a.确定阈值+(a,n),拒绝域为W+(D+(a,n).Wilcoxon符号秩统计量概率分布(I)定理 1.11:设 x1,XnF(x).F(x)连续,关 于。点对称,相应的符号秩统计量为乎RJ,中R;,则卬+=亡Wm的概率分布为=1(Cn(k)n 1(+1)Pr(W+=k)=0J 0.Rt=#XJ+Xtoj 0j Ri=0结论的证明(II)n+=屮刀1=
9、171=E E w(x()+芻),=1 jRin=w(x(初+x)i=l j(乂+)1=1 70.在H0下,条件在X和Y的组取值 上,秩统计量(Q,R)在混合排序定义的秩的 排列上均匀分布,从而可以给出条件否定 域。定理1.13的证明对于(12,N)的任一排列r=(j厶)和N维实数 集合A C(旳,n)丨旳 Pr(R=r,X。e A)=Pr(Xi=X(n),Xn=X(n),X。W A)=Pr(Xd ,XdN)C A)=/(如,一)e 4)其中q=i当日,对一切ij.Pr(X e A)=P(R=r,X。e A)(ri,n)故=N!Pr&i:i,xN)e A)Pr(R=r,X0 eA)=Pr(X
10、e A)=Pr(R=r)Pr(X e A)带结的Wilcoxon秩和统计量 定理 1.14:X,XmF(x),丫1,YnF(x-).设观测数据中结长为g,结向量为(,,金+m)在H。下,条件在组观测值上,采用 平均秩,则秩和统计量仁兄满足,E”)=亠州一七夕i)定理1.14证明(I)首先引进计分函数a(r),r=1,2,n.对于第j 个结中的全部,计分函数取平均秩,即:/+1。()=勺+1+71+Tj-l+1 71+71+Tj 其次对计分函数有E(a(兄)=E飞Var(Q(凡)=(qR)-砂21 N(-7定理1.14证明(II)n对于计分函数下的秩和统计量印=”上)n 修石()=顼(凡)二万1
11、=1nVar(W)叫(矶凡)一菊)Ii=ln=5 Q(Q(兄)+2。(。(兄),Q(Aj)i=l lzJn/n n(n 1)、Z加W-)=-V(a(0-a)2N(N-1)乙、定理1.14证明(III)对于平均秩计分函数,N4=或i)=i=l+12N N2(Q(。).g)2=2 Q(NZ=1 2=1因此,只要计算在同一个结中平均秩的平 方和与无结时秩的平方和的差别即可。定理1.14的证明(IV)同一个结内的平均秩平方和,r+T+1,9 7+1 q9 厂产+.+产二丁卜十丁+1卩 2 J无结时的秩平方和,+12+=7广十”(丁十)十T(T+1)(27+1)6两者之间的差别12定理1.14的证明(V
12、)于是E(W)=na=単;-Vw(W)=N(N-1)E(万)2=2+j*(L”)nm(N+1)nm12N(N 1)g立()j=l带结的Wilcoxon符号秩和统计量定理1.15:X,XnF(x),F(x)连续关于0点 对称.设观测数据的绝对值存在g个结,结向 量为(卬那么条件在组观测值上,符号秩统计量仍=也“满足,E”+)=:1)V如+)=沢)-V一定理1.15的证明(I)首先引进计分函数纵。=1,2,.0对于第上个结中 的全部,计分函数取平均秩,即:/、7,+1Q()=+,.十万一1十厶71 H-H Tji+1 r(,)/2i=lVar(W)=、a(2/4定理1.15的证明(II)于是只看个结内的运算T+1 r H-2 7+11+-F r H-一2r+丁 十年2 J 7+1=r r H-L 2H-r+丁+122 J=t r+2 J没有结时的运算结果,+1+7=rr+r+121+i十.十十=7厂+”(+1)十T(T+l)(2r+1)6定理1.15的证明(III)平方和在前后两次运算中的差别在于少了12于是有结时nVar(W+)=a(z)/4i=i412+22+)J=1=(+l)(2n+1)_()24 乙 485=1作业 P27.2 P27.3 P27.4 P27.5