资源描述
基于Monte Carlo随机模拟的几种正态性检验方法的比较
章刚勇 阮陆宁
南昌大学经济与管理学院 330031
摘要:本文概述了几种主要的正态性检验方法,指出了它们的联系和区别。在Monte Carlo随机模拟的基础上,计算了Shapiro-Wilk检验、Kolmogrov-Smirnov 检验、Gramer-von Mises 检验和Anderson-Darling检验四等种检验方法分别在显著性水平为0.01,0.05和0.1,样本容量为10,20,30和100的条件下的检验功效。并在比较和分析各检验方法功效的基础上,给出了相关结论和建议。
关键词: 正态性检验;功效;随机模拟
A Comparison on Several Tests for Normality by Monte Carlo Simulation
ABSTRACT:The paper firstly outlines several tests for normality and outpoints the similarities and distinctions among them. Secondly, the powers of four main tests for normality, i.e., Shapiro-Wilk test, Kolmogrov-Smirnov test, Gramer-von Mises test and Anderson-Darling test, have been calculated by employing MCS method. Finally, the relevant conclusions and suggestions have been presented via analyzing the outcomes of MCS.
Key words: Power of test; Test for Normality; Simulation
中图分类号:C81-0212 文献标识码:A
正态意味“正常性态”,指若在观察或实验中不出现重大失误,则结果应遵从正态分布。这个看法既有大量的经验事实支撑,也有理论依据(中心极限定理)。基于正态总体的一系列重要检验统计量有形式完美简洁且在计算上可行的特点。但在小样本情况下,并且总体服从正态分布的假定不成立时,相应的参数检验是失效的,统计推断是不可信的。对于假定是否合理,需要使用已有的观测数据,进行正态性检验。判断一列数据的分布是否具有正态性规律,有许多种方法。第一类:使用图示法从直观上判断,如频率分布直方图,QQ图(四分位数图)和PP图(百分位数图)等;第二类:规范检验法,主要包括:卡方拟合优度检验,柯尔莫哥洛夫检验,W检验,D检验,偏度检验和峰度检验等等。各正态性检验方法有无异同,主流的检验方法有哪些,检验效果如何,在实践中应选择何种检验方法,应注意哪些问题?本文试图去回答这些问题。本文的第一部分概述和比较了主要的几种规范的正态性检验方法;第二部分在Monte Carlo随机模拟的基础上,计算了四种正态检验方法的功效;第三部分,在第二部分计算的结果的基础上,比较了检验方法的功效;第四部分是主要的结论和建议。
一、正态性检验
正态性检验方法的原假设一般为:数据服从正态分布;相应的备择假设为:数据不服从正态分布。在这种意义下,这类检验有时也称非正态性检验(non-normality test)。规范性检验方法主要有:
(一)W检验(Shapiro-Wilk检验)
W检验是Shapiro和Wilk在1965年提出来的。W检验的基本思想是在数据服从正态分布的原假设下,通过数据的顺序统计量对经标准化后的顺序统计量的期望值线性回归,得出拟合优度。拟合优度越大,表示两变量的相关程度越高,数据越近似服从正态分布。W统计量的值夹在0和1之间。W检验一般步骤为:
1.把n个样本观测值按由小到大的顺序排列:;
2.W检验的统计量为:
(1)
其中表示样本均值,表示的整数部分,的值,由统计量W系数表给出。W统计量可以看作为,基于顺序统计量的某种线性组合的平方得出的方差的最优估计量,与数据的样本方差之间的比值;
3.根据给定的显著性水平和样本容量n,查统计量W的p分位数表,确定分位数的值。其分位数表通过计算机模拟产生;
4.计算统计量W的值,若,则拒绝,认为数据不服从正态分布;反之,则不拒绝。由于W统计量分布具有较大的偏度,接近于1的W值也可能导致拒绝正态性原假设。
上述的W检验是一种有效的正态性检验方法,但由于随着样本容量的扩大,分位数的确定意味着庞大的随机模拟工作量,并且由于W的高于一阶的矩是未知的,有些分布拟合技术不能采用,一般适用于样本容量为3至50的样本。针对于此,D Agostino(1971)提出了D检验,与W检验类似,其基本思想也是在总体服从正态分布的原假设下,通过构造一个统计量评价样本的顺序统计量与其期望值之间的线性关系来判断样本数据是否取自于一正态总体。它所适用的样本容量n的范围为:,这种检验不需要附系数表,其检验统计量的分布渐近正态,但收敛速度较慢,当样本容量不太大时用正态分布去近似,误差太大。
对于一般的n,W的分布的密度函数形式目前还未确定,对于样本容量为3时,W的分布是确定的,可用于计算显著性水平,当样本容量大于3时,可通过计算机模拟的结果来计算显著性水平。随着计算机技术的发展,随机模拟工作也变得简单和轻松,Royston(1992)通过随机模拟的结果构造了一个近似正态变换,扩展了W检验。
(2)
在这,,是样本容量n的函数,通过随机模拟取得。值越大,意味着数据偏离正态分布的程度越大。这样,W检验适用范围扩展到样本容量为4至2000的样本的正态性检验。这样,D检验方法渐渐被统计软件的有关正态性检验的模块所摒弃[1] 在主流统计软件中,有关正态性检验,SAS使用的是 Shapiro-Wilk检验、Kolmogrov-Smirnov 检验、Gramer-von Mises 检验和Anderson-Darling检验;SPSS使用的是Kolmogrov-Smirnov 检验。我国关于正态性检验标准推荐的几种方法受统计软件等限制,在实践中难于普及,文中,目前主流的检验方法所指的是以上述的四种方法。
。
(二)经验分布函数检验法(empirical distribution tests)
若总体的分布函数未知,但有样本观测值,把它按由小到大的顺序排列成,得到经验分布函数:
(3)
根据格里汶科定理,当n很大时,是的良好近似。经验分布函数检验法原理是:先假设总体服从某一特定的分布,再根据样本数据得出其经验分布函数,通过计算经验分布函数与总体分布函数的偏差的某种形式来确定原假设是否成立。Kolmogrov和Smirnov为这类检验方法做了开创性的工作[2] 有关这类检验方法的详尽探讨可参阅陈希孺(1981),315-324,这里只给出有关的几种检验方法的形式。
。这类检验方法是通过度量经验分布函数与原假设成立时的总体分布函数之间的偏离来构建检验统计量,因此只适用于总体分布完全已知的情况,当总体理论分布包含未知参数时,人们往往用样本的信息也对参数进行估计。检验方法不但可以检验样本数据是否服从正态分布,也能检验数据是否服从其它分布。对于正态分布,假设总体服从具有参数和的正态分布,其中和可以由样本均值和样本方差代替。
1.K-S检验(Kolmogrov-Smirnov 检验)
Kolmogrov在1933年提出了统计量,并给出了统计量的极限分布。其具体形式为:
(4)
Smirnov(1948)给出了用于估计经验分布拟合度表,张里千(1956)给出了的有限分布形式。
2.Gramer Von-Mises 检验
Gramer Von-Mises(1928)定义了检验统计量,以此度量经验分布函数与总体分布函数的偏离程度。
(5)
3.Anderson-Darling检验
Anderson-Darling(1954)提出了检验统计量,以此来度量经验分布函数与总体分布函数的偏离程度。
(6)
(三)偏度检验与峰度检验
当具有总体在偏度方向或峰度方向具有偏离正态的先验信息时,使用偏度检验或峰度检验是适宜的。该类检验的使用条件是已知总体在偏度或峰度的方向上具有偏离正态的特点,且偏离方向是明确的。如果在实际应用中,有关的先验信息是未知的,需要用使用其它的检验方法(梁小筠,1997)。实践中,数据来自于何种总体,往往是不可知的,故在正态性检验中难于使用偏度检验和峰度检验方法。
目前,主流的规范性正态检验方法主要是几种无方向正态性检验方法,主要包括Shapiro-Wilk检验、Kolmogrov-Smirnov 检验、Gramer-von Mises 检验和Anderson-Darling检验。后三种是经验分布函数检验法。哪种方法更好,需要比较它们的功效,以下将在Monte Carlo随机模拟基础上计算这四种检验方法的功效。
二、Monte Carlo实验设计及模拟结果
Monte Carlo方法是使用随机抽样技术和计算机模拟技术去近似地解决数学或物理中的问题的一种方法,特别地当大批的值都具有计算出的概率,作为问题的解时[3] 引自Webster词典(Merriam-Webster, Inc., 1994, 754-755)。
3]。在统计定理的前提假设不成立,或当有关理论较弱或不存在的情况下,Monte Carlo方法经常被用于评价违背假设的后果和确定统计量的抽样分布。
(一)备择分布
在原假设为总体服从正态分布下,备择假设为总体服从非正态分布。非正态分布有许多,本文挑选了8种分布作为非正态分布的代表,分别为Beta分布、二项分布(bin(k, 0.5))、卡方分布、泊松分布、t分布、对数正态分布、Tukey分布和Weibull分布。通过改变有关参数的值,共有32种备择分布[4] 这里的备择分布大多数曾被D Agostino(1971)用于评价D检验的效果。
4]。参数是用于控制备择分布的偏度与峰度,用于考查检验方法对偏度和峰度的敏感性程度。其中Weibull分布的密度函数为:
(7)
>0,为形状参数;,为位置参数。在这固定b=1。
(二)样本容量、两类错误和检验的功效
由于抽样的随机性,我们可能作出正确的决策,也可能犯两类错误:当原假设为真时,可能作拒绝的决策,称为第I类错误(拒真);当原假设为错误时,可能作接纳的决策,称为第II类错误(纳假)。当样本容量确定时,犯两类错误的概率不能同时被控制。一种较好的检验方法,应该在控制犯第一类错误的概率,即显著性水平下,使得犯第二类错误的概率较小,即使得检验的功效较大(拒假的概率较大)。显著性水平一般取值为0.01,0.05和0.1,选择时,要考虑在实际问题中,当原假设为正确时,却拒绝了,所要付出的代价。
(三)实验步骤及经模拟计算的结果
前文所述的四种检验方法有无差异,效果如何,哪种方法比较好,在实际应用中应选择何种检验方法,需要比较它们的检验功效。我们采用Monte Carlo实验进行随机模拟,计算出各检验方法的功效。主要步骤如下:
1.产生服从前面所述的32种备择分布的随机数,并确定样本容量n,在这n分别取10、20、30和100。这样共产生四批随机数3210、3220、3230和32100;
2.上一步骤一共产生128个服从某一特定的备择分布的随机数系列,对每一个系列实施四种正态性检验方法,并记录各自的p值;
3.设定样本的个数为2000,即重复第(1)步和第(2)步2000次,并收集各自的p值。在样本容量确定下,对每一个随机变量系列实施一种检验方法,产生了2000个p值;
4.把得到的p值与选定的显著性水平进行比较,分别计算出在显著性水平、和下,2000个样本中,拒绝正态分态原假设的样本数,并以此样本数在总样本数2000中所占的比例,近似地表示各种检验方法在既定的样本容量,既定的备择分布和既定的显著性水平下的检验的功效。
经模拟计算的结果如表1、表2和表3所示。表里的数值表示检验的功效(%),数值是在统计软件SAS环境下通过编程计算产生,计算过程和结果可以重复验证。其中:检验方法W、KS、W2和A2分别表示Shapiro-Wilk检验、Kolmogrov-Smirnov 检验、Gramer-von Mises 检验和Anderson-Darling检验;表内的第1列为备择分布的形式,beta表示-分布,bin表示二项分布,chisq表示卡方分布,P表示泊松分布,t表示t分布,LN表示对数正态分布,Tukey表示Tukey分布,Weibull表示Weibull分布,各分布后紧随的括号里的数表示各自的参数。
表1 时,四种正态性检验方法的检验功效 (%)
样本容量
n=10
n=20
n=30
N=100
检验方法
W
KS
W2
A2
W
KS
W2
A2
W
KS
W2
A2
W
KS
W2
A2
beta(1,1)
1
1
1
1
4
3
4
5
9
3
6
9
95
27
57
79
beta(1.1,1.1)
1
1
1
1
2
2
2
3
6
3
5
7
84
19
44
63
beta(1.3,1.3)
1
1
0
1
1
1
1
2
3
2
4
4
66
13
28
44
beta(1.5,1.5)
1
1
1
1
1
1
1
1
1
2
2
2
42
9
18
28
beta(2,2)
1
1
1
1
0
1
1
1
1
1
1
2
14
4
7
10
beta(2,1)
4
3
3
4
9
6
8
9
21
10
16
19
98
56
78
90
beta(3,2)
1
1
1
1
1
2
1
1
2
2
2
2
18
8
12
16
bin(4,0.5)
18
23
24
28
38
60
62
62
66
92
96
96
100
100
100
100
bin(8,0.5)
7
11
9
9
9
26
17
16
18
51
40
37
100
100
100
100
bin(12,0.5)
4
6
4
4
5
17
9
9
6
30
15
15
79
100
100
100
bin(20,0.5)
2
4
3
3
3
9
4
4
3
15
7
6
22
87
78
73
chisq(1)
51
31
46
48
93
71
8
90
100
93
98
99
100
100
100
100
chisq(2)
24
13
20
22
61
34
5
56
88
57
76
82
100
100
100
100
chisq(4)
10
6
7
8
30
15
22
26
52
24
38
44
100
84
96
98
chisq(10)
4
3
4
4
10
5
7
8
19
9
11
14
76
37
53
62
P(1)
40
35
39
45
90
86
89
93
100
100
100
100
100
100
100
100
P(4)
5
7
5
5
6
15
8
8
13
30
16
16
88
99
100
100
P(10)
2
3
2
2
2
5
2
2
2
2
2
2
18
57
25
25
t(1)
46
43
47
47
80
75
81
1
93
90
94
94
100
100
100
100
t(2)
19
15
17
18
39
30
37
38
57
44
53
55
97
90
95
96
t(4)
6
4
5
6
14
8
10
11
21
11
15
16
56
31
43
47
t(20)
1
1
1
1
1
1
1
1
2
1
2
2
4
2
2
2
LN(0,1)
40
26
37
38
82
60
76
80
97
83
93
95
100
100
100
100
Tukey(0.1)
4
3
3
4
6
5
7
6
9
6
8
9
31
22
34
34
Tukey (0.2)
2
2
2
2
2
2
3
3
4
3
4
4
8
8
11
11
Tukey (0.7)
1
1
1
1
0
1
1
1
0
1
0
0
1
1
1
1
Tukey (1.5)
1
1
0
0
0
1
1
0
0
1
1
1
1
1
1
1
Tukey (3)
2
3
3
3
2
5
6
4
2
9
9
7
13
40
47
39
Tukey (10)
50
59
63
59
81
91
95
92
95
99
100
99
100
100
100
100
Tukey (20)
83
90
93
91
99
100
100
100
100
100
100
100
100
100
100
100
Weibull(0.5)
75
54
71
73
99
95
99
99
100
100
100
100
100
100
100
100
weibull(2)
2
2
2
2
5
3
4
4
8
4
7
6
52
17
26
34
表2 时,四种正态性检验方法的检验功效 (%)
样本容量
n=10
n=20
n=30
n=100
检验方法
W
KS
W2
A2
W
KS
W2
A2
W
KS
W2
A2
W
KS
W2
A2
beta(1,1)
9
7
8
9
20
11
14
18
38
13
23
30
100
59
84
95
beta(1.1,1.1)
7
6
6
7
16
10
12
14
29
11
23
24
98
49
73
87
beta(1.3,1.3)
5
5
5
5
10
6
8
9
20
9
13
16
93
46
61
75
beta(1.5,1.5)
5
5
5
5
8
6
7
9
14
8
11
13
81
26
43
58
beta(2,2)
5
5
5
5
5
5
5
5
8
5
8
8
46
16
24
32
beta(2,1)
14
10
12
13
32
17
23
26
54
27
38
35
100
81
95
99
beta(3,2)
5
5
5
5
7
6
8
8
10
8
9
10
53
23
32
39
bin(4,0.5)
50
46
54
55
71
87
93
93
100
99
100
100
100
100
100
100
bin(8,0.5)
21
26
24
24
33
55
50
50
54
82
84
81
100
100
100
100
bin(12,0.5)
13
18
16
16
21
39
30
29
30
61
43
49
100
100
100
100
bin(20,0.5)
10
13
10
11
12
25
17
16
16
38
25
24
73
100
100
100
chisq(1)
73
54
65
69
98
88
95
97
100
99
100
100
100
100
100
100
chisq(2)
46
31
40
43
84
57
71
77
97
78
90
94
100
100
100
100
chisq(4)
24
17
20
23
53
32
42
46
75
46
59
66
100
100
99
99
chisq(10)
13
10
12
12
24
13
18
20
36
21
26
30
90
61
74
90
P(1)
77
60
69
76
99
98
99
100
100
100
100
100
100
100
100
100
P(4)
14
19
16
16
21
35
27
27
36
58
45
46
100
100
100
100
P(10)
8
9
8
8
11
17
12
11
8
11
8
8
45
86
68
66
t(1)
58
57
60
61
86
84
87
88
96
95
96
97
100
100
100
100
t(2)
29
28
30
30
52
45
51
52
69
68
66
68
98
96
98
98
t(4)
14
12
13
14
24
18
21
23
31
22
26
28
71
69
59
64
t(20)
6
5
5
6
6
5
6
6
8
6
6
7
11
6
8
9
LN(1)
59
46
54
56
92
80
89
90
99
93
98
98
100
100
100
100
Tukey(0.1)
11
11
11
11
16
15
18
18
20
16
20
20
51
43
56
56
Tukey (0.2)
7
8
8
8
9
8
9
9
12
11
13
12
21
23
28
27
Tukey (0.7)
4
4
4
4
4
4
4
4
3
4
4
4
6
4
4
5
Tukey (1.5)
4
4
4
4
3
4
4
4
4
4
4
4
11
5
5
7
Tukey (3)
8
11
11
10
9
16
16
14
11
23
23
20
43
65
71
66
Tukey (10)
68
79
80
77
93
97
95
97
99
100
100
100
100
100
100
100
Tukey (20)
93
97
97
97
100
100
100
100
100
100
100
100
100
100
100
100
Weibull(0.5)
89
76
85
87
100
99
100
100
100
100
100
100
100
100
100
100
Weibull(2)
8
8
7
8
15
10
12
14
23
13
16
19
78
39
52
62
表3 时,四种正态性检验方法的检验功效 (%)
alpha=0.1
n=10
n=20
n=30
n=100
W
KS
W2
A2
W
KS
W2
A2
W
KS
W2
A2
W
KS
W2
A2
beta(1,1)
19
14
16
18
36
20
25
29
58
26
47
45
100
77
92
98
beta(1.1,1.1)
15
12
13
14
30
17
21
25
46
23
31
37
100
66
84
94
beta(1.3,1.3)
13
11
11
12
21
13
17
18
38
19
24
30
98
54
74
87
beta(1.5,1.5)
12
10
10
12
17
12
14
16
28
16
20
23
92
43
58
73
beta(2,2)
9
10
10
10
12
10
11
11
17
13
15
16
64
28
37
47
beta(2,1)
24
19
21
22
49
29
36
40
70
43
52
59
100
91
97
100
beta(3,2)
11
10
11
12
15
13
13
14
20
15
17
18
70
36
45
44
bin(4,0.5)
59
68
64
68
92
97
99
100
100
100
100
100
100
100
100
100
bin(8,0.5)
31
42
35
38
54
73
73
70
78
93
96
95
100
100
100
100
bin(12,0.5)
23
24
25
28
36
58
49
48
52
78
76
72
100
100
100
100
bin(20,0.5)
18
22
18
19
22
42
29
29
29
55
41
41
93
100
100
100
chisq(1)
83
67
76
79
99
95
98
99
100
100
100
100
100
100
100
100
chisq(2)
57
44
51
55
90
70
81
86
99
87
94
96
100
100
100
100
chisq(4)
35
26
30
33
65
45
54
59
83
59
70
76
100
98
99
100
chisq(10)
20
18
18
20
35
24
27
30
49
31
37
41
94
73
82
87
P(1)
84
82
82
88
100
100
99
100
100
100
100
100
100
100
100
100
P(4)
24
31
25
26
38
52
43
44
55
85
68
68
100
100
100
100
P(10)
14
18
15
15
20
28
21
22
24
38
27
28
64
95
90
88
t(1)
64
65
65
68
89
89
90
90
97
96
97
98
100
100
100
100
t(2)
38
35
37
38
59
54
59
60
74
67
73
75
99
97
99
99
t(4)
20
19
20
21
32
25
29
31
40
31
35
37
78
60
68
70
t(20)
11
11
11
12
12
11
12
12
14
12
12
13
17
14
14
15
LN(1)
70
57
64
67
96
88
92
94
99
96
99
99
100
100
100
100
Tukey(0.1)
17
19
19
19
24
24
26
26
28
26
30
31
62
58
67
67
Tukey (0.2)
13
15
14
14
15
14
16
17
19
18
20
20
31
34
39
38
Tukey (0.7)
8
10
10
8
8
9
9
9
7
8
8
8
15
11
12
11
Tukey (1.5)
8
8
8
8
8
9
9
9
9
9
9
9
23
11
11
14
Tukey (3)
13
18
18
16
16
26
25
22
29
34
34
30
63
62
81
77
Tukey (10)
87
86
86
85
96
98
99
99
100
100
100
100
100
100
100
100
Tukey (20)
96
98
99
98
100
100
100
100
100
100
100
100
100
100
100
100
Weibull(0.5)
93
84
90
92
100
99
100
100
100
100
100
100
100
100
100
100
Weibull(2)
15
14
14
15
26
18
20
12
36
23
26
29
88
54
64
73
三、检验功效的比较
通过比较随机模拟的结果,可以看出四种正态性检验的功效随样本容量的增加而增大,并随显著性水平的增大而增大。四种检验方法在小样本(n=10,n=20)条件下,其检验的功效一般较低。
注意到,当备择分布为beta(3,2)、binomial(20,0.5)、chisq(10)、Possion(10)、t(20)、Tukey(0.7)、Tukey(1.5)和Weibull(2)等分布时,各检验的功效都较小。即使在大样本(n=30,n=100)条件下,各检验的功效也不大。这些分布的特点是偏度为0或接近于0,峰度接近于3,在大样本的条件下一般有近似服从正态分布的性质。此时若各检验方法没有拒绝正态性原假设是正常的。同时,还注意到当备择分布为binomial(4,0.5)、chisq(1)、chisq(2)、Possion(1)、Tukey(10)、Tukey(20)和Weibull(0.5)时,即使在小样本(n=10)的条件下,各检验方法的功效都很大。这些分布的特点是峰度异于3
展开阅读全文