资源描述
关于英超球队的分析
摘要:
欧洲足球联赛11/12赛季终于落下帷幕,几家欢喜几家愁。蓝军切尔西最终捧得欧冠冠军,西甲豪门巴萨被他们斩于马下。有人说切尔西用钱堆出来的,算不上豪门,也正因为切尔西的崛起,改变了英超传统豪门的格局,曼联,利物浦,阿森纳,传统豪门,而切尔西仿佛更像是一个暴发户,但是不管用如何,需要用数据来说话。本文先进行聚类分析,选出第一梯队的球队,进行分析,运用主成分分析,因子分析选出对结果影响的主要因素。再选近五年成绩看看近两年切尔西是否保持着第一集团。
本文数据来自网易的国际足球数据库主要用2011—2012年度,包括20支球队:曼城,曼联,阿森纳,托特纳姆,切尔西,纽卡斯尔,诺维奇,埃弗顿,布莱克本,富勒姆,利物浦,博尔顿,桑德兰,西布朗,斯旺西,女王公园巡游者,维甘,狼队,阿斯顿维拉,斯托克城。(见附表一)
关键词:
强队,豪门,分类
正文:
如今处在信息化社会,任何理论都要有数据的支持才能站得住脚,在足球中,进球仿佛成了一支球队是否是强队的有力依据,但不要忘了,射门次数,射正次数,角球,犯规,传球成功率,抢断成功率,黄红牌,控球率。只有把这些综合考虑进去才会得出最综合的答案。
聚类表
阶
群集组合
系数
首次出现阶群集
下一阶
群集 1
群集 2
群集 1
群集 2
1
7
8
20887.680
0
0
3
2
6
14
21580.510
0
0
10
3
7
18
33429.030
1
0
10
4
5
11
34171.790
0
0
11
5
12
16
35449.500
0
0
7
6
3
15
51101.850
0
0
8
7
12
19
92441.590
5
0
12
8
1
3
100836.445
0
6
9
9
1
2
174877.907
8
0
15
10
6
7
289694.115
2
3
13
11
4
5
366364.655
0
4
15
12
12
13
395278.347
7
0
14
13
6
17
614152.368
10
0
16
14
9
12
1762278.400
0
12
16
15
1
4
2279144.772
9
11
17
16
6
9
3675296.917
13
14
18
17
1
10
7034957.266
15
0
19
18
6
20
12594604.894
16
0
19
19
1
6
36440659.465
17
18
0
通过上述聚类过程,得出了下面的分类的树状图。
从树状图中我们可以看出分成五类比较好。
群集成员
案例
5 群集
1:曼城
1
2:曼联
1
3:阿森纳
1
4:托特纳姆
1
5:切尔西
1
6:纽卡斯尔
2
7:诺维奇
2
8:埃弗顿
2
9:布莱克本
3
10:富勒姆
4
11:利物浦
1
12:博尔顿
3
13:桑德兰
3
14:西布朗
2
15:斯旺西
1
16:女王公园巡游者
3
17:维甘
2
18:狼队
2
19:阿斯顿维拉
3
20:斯托克城
5
从图片中看出
类别
球队
球队数量
第一类
曼城,曼联,阿森纳,托特纳姆,切尔西,利物浦,斯旺西
7
第二类
纽卡斯尔,诺维奇,埃佛顿,西布朗,维甘,狼队
6
第三类
布莱克本,博尔顿,桑德兰,女王公园巡游者,阿斯顿维拉
5
第四类
富勒姆
1
第五类
斯托克城
1
从分类结果显示出强队中除了曼联,利物浦和阿森纳。也有了曼城,托特纳姆热刺,斯旺西以及切尔西的的加入,使得英超比西甲多了观赏性。西甲的防守过于孱弱,不堪一击,两大豪门皇家马德里和巴塞罗那过于强大,联赛缺乏竞争力。也许这正是近些年英超球迷越来越多的原因吧。
ANOVA
平方和
df
均方
F
显著性
进球
组间
3209.978
4
802.494
6.933
.002
组内
1736.222
15
115.748
总数
4946.200
19
半场
组间
541.700
4
135.425
7.373
.002
组内
275.500
15
18.367
总数
817.200
19
失球
组间
2355.978
4
588.994
5.233
.008
组内
1688.222
15
112.548
总数
4044.200
19
射门
组间
169061.394
4
42265.349
38.536
.000
组内
16451.556
15
1096.770
总数
185512.950
19
射正
组间
31622.161
4
7905.540
47.087
.000
组内
2518.389
15
167.893
总数
34140.550
19
角球
组间
31207.300
4
7801.825
19.884
.000
组内
5885.500
15
392.367
总数
37092.800
19
犯规
组间
12631.494
4
3157.874
2.673
.073
组内
17721.056
15
1181.404
总数
30352.550
19
传球
组间
1.734E8
4
4.335E7
35.812
.000
组内
1.816E7
15
1210564.470
总数
1.916E8
19
传球成功率
组间
458.943
4
114.736
17.789
.000
组内
96.749
15
6.450
总数
555.692
19
抢断
组间
17366.333
4
4341.583
1.746
.192
组内
37306.667
15
2487.111
总数
54673.000
19
抢断成功率
组间
45.437
4
11.359
5.174
.008
组内
32.929
15
2.195
总数
78.366
19
越位
组间
3717.450
4
929.362
3.316
.039
组内
4203.500
15
280.233
总数
7920.950
19
黄牌
组间
511.533
4
127.883
1.798
.182
组内
1066.667
15
71.111
总数
1578.200
19
红牌
组间
25.978
4
6.494
1.940
.156
组内
50.222
15
3.348
总数
76.200
19
控球率
组间
639.136
4
159.784
33.361
.000
组内
71.842
15
4.789
总数
710.978
19
通过上面这个分析表可以看出分组情况非常好,至于抢断,黄红牌的P值比较大的原因恐怕是因为足球是一个团体项目,再强亦或者再弱的球队抢断这一项的数据都不会差很多。而红黄牌随着比赛向技术流发展,大动作的犯规或者恶意犯规已经减少,各队差异不太大。
通过上述报告,从这十项技术统计中可以看出,处在第一梯队的六支球队的进球率明显高于其他球队,从这方面体现出了强队应有的成绩。与此同时在防守方面失球率也是明显低于其他球队,最少的也有八个球。射门次数,射正次数也更是多余其他队伍大约100次之多,强队不是吹出来的,靠技术说话,让人不得不服。而传球和传球成功率这两项数据也是更好地说明了球星的作用,好的中场球星能够起到穿针引线的作用,使整支球队进攻更流畅,也更富想象力。强队是技术流,是球星的作用,更是想象力的天堂。而足球比赛充满偶然性,充满机遇,只有丰富的想象力才能获得精彩的结果。
通过判别分析来验证一下分组是否合理:
按照案例顺序的统计量
案例数目
实际组
最高组
第二最高组
判别式得分
预测组
P(D>d | G=g)
P(G=g | D=d)
到质心的平方 Mahalanobis 距离
组
P(G=g | D=d)
到质心的平方 Mahalanobis 距离
函数 1
函数 2
函数 3
函数 4
p
df
初始
1
1
1
.904
4
1.000
1.041
4
.000
2712.779
47.008
1.573
.172
-.834
2
1
1
.326
4
1.000
4.644
4
.000
3007.256
49.697
2.023
.945
-.758
3
1
1
.206
4
1.000
5.911
4
.000
2694.963
47.281
-.793
.712
.796
4
1
1
.517
4
1.000
3.249
4
.000
2747.209
47.668
.561
-.870
-1.635
5
1
1
.982
4
1.000
.406
4
.000
2778.791
47.678
1.354
.799
-.726
6
2
2
.135
4
1.000
7.026
4
.000
265.338
-12.334
.642
-1.389
2.765
7
2
2
.546
4
1.000
3.068
4
.000
151.489
-10.198
-2.132
-1.346
.605
8
2
2
.479
4
1.000
3.494
4
.000
171.893
-9.446
-1.355
-1.931
2.444
9
3
3
.433
4
1.000
3.809
5
.000
191.789
-43.337
.620
1.916
1.027
10
4
4
1.000
4
1.000
.000
2
.000
189.475
-3.262
-11.690
-2.322
-2.721
11
1
1
.716
4
1.000
2.106
4
.000
2833.225
47.902
2.352
.609
.384
12
3
3
.561
4
1.000
2.979
5
.000
173.008
-44.100
2.165
2.639
-1.542
13
3
3
.205
4
1.000
5.920
5
.000
241.277
-43.585
.573
4.636
-1.930
14
2
2
.340
4
1.000
4.525
4
.000
191.077
-12.104
-2.663
-.018
2.387
15
1
1
.978
4
1.000
.455
4
.000
2776.915
47.717
1.255
-.320
-.180
16
3
3
.354
4
1.000
4.402
5
.000
240.429
-41.482
.910
3.020
.424
17
2
2
.976
4
1.000
.472
4
.000
186.570
-10.445
-1.090
-.323
1.592
18
2
2
.826
4
1.000
1.506
4
.000
190.575
-10.373
-.913
.210
1.456
19
3
3
.288
4
1.000
4.989
5
.000
164.531
-43.243
.481
.668
-1.829
20
5
5
1.000
4
1.000
.000
3
.000
197.787
-51.044
6.128
-7.804
-1.724
交叉验证a
1
1
1
.000
14
1.000
48775.730
4
.000
155009.536
2
1
1
.000
14
1.000
713.079
4
.000
48442.460
3
1
1
.000
14
1.000
2778.308
2
.000
12739.133
4
1
1
.000
14
1.000
50.548
4
.000
2624.598
5
1
1
.000
14
1.000
80.638
4
.000
2612.445
6
2
2
.000
14
1.000
3294.401
3
.000
20459.264
7
2
4**
.000
14
1.000
772.610
2
.000
2104.281
8
2
4**
.000
14
1.000
185.582
2
.000
1175.802
9
3
3
.000
14
1.000
128.801
5
.000
206.146
10
4
2**
.000
14
1.000
189.475
3
.000
1778.567
11
1
1
.000
14
1.000
582.719
2
.000
4003.650
12
3
5**
.000
14
1.000
178.452
3
.000
304.267
13
3
3
.000
14
1.000
100.895
5
.000
672.096
14
2
2
.000
14
1.000
75.527
4
.000
215.178
15
1
1
.000
14
1.000
642.909
4
.000
2692.694
16
3
3
.000
14
1.000
276.661
5
.000
1439.531
17
2
4**
.000
14
1.000
730.848
2
.000
1072.084
18
2
2
.000
14
1.000
397.228
4
.000
443.426
19
3
5**
.000
14
1.000
234.942
3
.000
255.471
20
5
3**
.000
14
1.000
197.787
2
.000
1734.696
由上表,我们可以看出分组无误。
分类结果b,c
Average Linkage (Between Groups)
预测组成员
合计
1
2
3
4
5
初始
计数
1
7
0
0
0
0
7
2
0
6
0
0
0
6
3
0
0
5
0
0
5
4
0
0
0
1
0
1
5
0
0
0
0
1
1
%
1
100.0
.0
.0
.0
.0
100.0
2
.0
100.0
.0
.0
.0
100.0
3
.0
.0
100.0
.0
.0
100.0
4
.0
.0
.0
100.0
.0
100.0
5
.0
.0
.0
.0
100.0
100.0
交叉验证a
计数
1
7
0
0
0
0
7
2
0
3
0
3
0
6
3
0
0
3
0
2
5
4
0
1
0
0
0
1
5
0
0
1
0
0
1
%
1
100.0
.0
.0
.0
.0
100.0
2
.0
50.0
.0
50.0
.0
100.0
3
.0
.0
60.0
.0
40.0
100.0
4
.0
100.0
.0
.0
.0
100.0
5
.0
.0
100.0
.0
.0
100.0
a. 仅对分析中的案例进行交叉验证。 在交叉验证中,每个案例都是按照从该案例以外的所有其他案例派生的函数来分类的。
b. 已对初始分组案例中的 100.0% 个进行了正确分类。
c. 已对交叉验证分组案例中的 65.0% 个进行了正确分类。
由上表说明,100%的判别率证明上述得出的聚类的结果分类成功。
下面通过主成分分析欲找出其主要作用的几个成分。
KMO 和 Bartlett 的检验
取样足够度的 Kaiser-Meyer-Olkin 度量。
.490
Bartlett 的球形度检验
近似卡方
250.709
df
91
Sig.
.000
取样足够度的 Kaiser-Meyer-Olkin 度量才达到了0.49说明不太适合做主成分分析,但是sig值小于0.000说明可以做主成分分析。
解释的总方差
成份
初始特征值
提取平方和载入
旋转平方和载入
合计
方差的 %
累积 %
合计
方差的 %
累积 %
合计
方差的 %
累积 %
1
6.606
47.187
47.187
6.606
47.187
47.187
5.899
42.137
42.137
2
1.761
12.582
59.769
1.761
12.582
59.769
1.831
13.079
55.216
3
1.603
11.449
71.218
1.603
11.449
71.218
1.660
11.856
67.072
4
1.052
7.512
78.730
1.052
7.512
78.730
1.411
10.078
77.150
5
.974
6.956
85.686
.974
6.956
85.686
1.195
8.536
85.686
6
.701
5.004
90.690
7
.395
2.821
93.511
8
.343
2.451
95.962
9
.291
2.076
98.038
10
.163
1.165
99.203
11
.060
.432
99.635
12
.031
.221
99.855
13
.017
.122
99.978
14
.003
.022
100.000
提取方法:主成份分析。
通过解释的总方差可以看出第1,2,3,4,5成分对结果影响很大。其中第一个主成分的特征根为6.606,占总特征根的的比例(方差贡献率)为47.187%,而前五个主成分方差贡献率的和为85.686%。这表示第一个主成分解释了原始15个变量85.686%的信息,可见第一个主成分对原来的15个变量解释的已经很充分了。而下面这张碎石图也很好地证明了这一观点。
成份矩阵a
成份
1
2
3
4
5
射正
.948
.038
.206
.041
-.141
传球
.928
-.079
-.178
-.051
-.188
射门
.922
-.004
.205
.262
-.112
传球成功率
.895
.004
-.166
-.136
-.241
进球
.855
-.076
.273
-.193
-.100
半场
.847
-.153
.229
-.317
.033
角球
.840
-.078
.101
.291
.078
失球
-.730
-.277
.115
.043
-.352
抢断成功率
.230
.781
.178
-.086
.034
越位
.374
.560
-.220
.513
.352
红牌
-.086
-.555
.518
.538
-.048
犯规
-.359
.305
.691
.148
-.011
黄牌
-.335
.352
.660
-.305
-.048
抢断
.260
-.438
.219
-.247
.760
提取方法 :主成份。
a. 已提取了 5 个成份。
通过上面的成分矩阵可以列出:
Y1=0.948X1+0.928X2+0.922X3+0.895X4+0.855X5+0.847X6+0.840X7-0.730X8+0.230X9+0.374X10-0.086X11-0.359X12-0.355X13+0.260X14
Y2=0.038X1-0.079X2-0.004X3-0.004X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14
……
Y5=0.948X1+0.842X2-0.741X3+0.916X4+0.943X5+0.842X6-0.375X7+0.946X8+0.910X9+0.248X10+0.209X11+0.353X12-0.339X13-0.080X14
运用MANOVA分析:
多变量检验b
效应
值
F
假设 df
误差 df
Sig.
截距
Pillai 的跟踪
1.000
3044.123a
15.000
5.000
.000
Wilks 的 Lambda
.000
3044.123a
15.000
5.000
.000
Hotelling 的跟踪
9132.369
3044.123a
15.000
5.000
.000
Roy 的最大根
9132.369
3044.123a
15.000
5.000
.000
a. 精确统计量
b. 设计 : 截距
因为Wilks' Lambda 的sig 值0.00小于0.05 拒绝原假设,差异显著
经过同样的处理方法处理了2010到2011赛季的数据得出如下结论:(数据详见附表二)
在这次分组中,分成2到5组,无论如何切尔西均出现在第一集团。可见切尔西一直处在强队之列。
经过这两年的比较也可以看出,处在第一集团的球队由三支增加到了7支。这也从侧面反映了英超的精彩度在增加。
英超已不是过去的英超,同样西甲亦不是过去的西甲。每个联赛都在吸收其他联赛的优势。当你还沉迷于过往时光时,世间变换迅速。仅仅经过一年的时间,英超就已经有了如此巨大的变化。现如今也不用去谈到底是不是暴发户的问题,有了资本的投入,才会有好的球员,才能踢出精彩的比赛。有了一个好的开端,才会使一支球队向着更好的方向走下去。那些传统豪强门之所以成为豪强只不过是资本的投入早,让他们有了好的球队的精神。让他们能够一直延续下去。2012年的欧冠,我们看到了铁血的切尔西,他们用顽强拼搏,用不放弃,用他们的激情,他们对足球的热爱书写了历史的新篇章,华丽的巴萨不是不可战胜,只要这支球队有自己的队魂,有这种精神!那么肯定胜多负少,豪门也许就是经过了这些过程,他们很早就留下了这些传统罢了。但足球同时也要拼运气。切尔西欧冠冠军,让他们也迈入了豪门的队列。豪门都是由强队的转换,强队则是由背后一串串数字来做推动力,让大家信服的数字。本文就足球的一些基本数据简单的分析了强队的必要条件,也证明了自己喜欢的球队——切尔西,真的是强队,豪门!无可争议,因为有数据!
附表一:
球队
场次
进球
半场
失球
射门
射正
角球
犯规
传球
传球成功率
抢断
抢断成功率
越位
黄牌
红牌
控球率
曼城
38
93
30
29
738
250
269
430
21707
83.50%
694
73.90%
85
51
5
58.20%
曼联
38
89
40
33
646
243
279
389
21202
82.30%
803
75.20%
89
51
1
57.80%
阿森纳
38
74
34
49
637
237
262
406
21492
82.00%
750
74.50%
88
64
4
60.20%
托特纳姆
38
66
30
41
701
230
284
375
20412
82.30%
731
74.30%
93
43
3
56.70%
切尔西
38
65
29
46
671
224
254
429
19738
82.00%
698
77.70%
70
74
4
55.80%
纽卡斯尔
38
56
28
51
489
154
172
409
15368
74.20%
744
73.90%
97
67
2
47.30%
诺维奇
38
52
24
66
514
164
167
405
16028
73.40%
692
71.40%
74
58
3
46.80%
埃弗顿
38
50
18
40
520
164
180
481
15940
74.40%
624
78.20%
116
61
2
48.00%
布莱克本
38
48
21
78
453
143
166
458
13035
70.30%
690
75.10%
58
66
5
41.80%
富勒姆
38
48
20
51
541
195
188
377
18317
79.90%
669
77.10%
85
54
0
49.40%
利物浦
38
47
22
40
667
207
309
402
19896
77.70%
728
73.80%
128
53
5
55.50%
博尔顿
38
46
20
77
495
163
210
463
14349
69.10%
732
73.10%
55
50
5
46.60%
桑德兰
38
45
20
46
458
141
180
410
14777
71.70%
824
76.10%
76
59
4
44.60%
西布朗
38
45
20
52
544
167
213
422
15474
74.30%
682
76.40%
127
48
1
45.80%
斯旺西
38
44
21
51
472
145
203
318
21512
83.50%
709
72.10%
67
40
2
58.00%
女王公园巡游者
38
43
19
66
539
150
195
409
14181
71.50%
764
72.40%
83
54
9
45.10%
维甘
38
42
20
62
519
162
210
485
16461
77.80%
728
73.40%
71
67
3
50.20%
狼队
38
40
17
82
473
152
207
375
15851
73.30%
619
75.40%
82
64
4
48.20%
阿斯顿维拉
38
37
17
53
438
138
218
413
13992
70.10%
774
75.60%
85
70
2
43.90%
斯托克城
38
36
14
53
376
94
166
451
11643
66.30%
655
70.70%
62
60
2
40.30%
附表二:
球队
场次
进球
半场
失球
射门
射正
角球
犯规
传球
传球成功率
抢断
抢断成功率
越位
黄牌
红牌
控球率
曼联
38
78
34
37
618
212
245
423
19875
78.40%
693
75.60%
102
56
3
56.20%
阿森纳
38
72
34
43
654
238
253
453
21078
81.00%
772
74.10%
93
65
6
60.40%
切尔西
38
69
31
33
745
244
257
441
20231
80.70%
769
73.90%
113
59
1
58.80%
曼城
38
60
33
33
546
176
233
486
18524
79.80%
825
75.30%
103
71
5
53.00%
利物浦
38
59
26
44
582
205
214
459
17552
74.50%
908
69.50%
87
63
2
52.10%
西布朗
38
56
19
71
597
184
191
430
15063
74.90%
725
73.50%
102
52
7
48.30%
纽卡斯尔
38
56
28
57
507
168
203
473
15215
72.70%
666
74.80%
82
78
2
50.40%
托特纳姆
38
55
26
46
657
191
256
398
17745
77.10%
754
72.80%
59
51
2
53.90%
布莱克浦
38
55
28
78
530
161
186
440
15951
73.70%
780
75.00%
97
47
2
49.60%
博尔顿
38
52
18
56
570
173
203
513
13554
64.60%
938
72.00%
57
67
5
46.40%
埃弗顿
38
51
23
45
580
181
247
499
15380
72.80%
768
73.30%
78
55
5
50.50%
富勒姆
38
49
19
43
547
172
194
487
17204
73.70%
797
73.70%
100
52
1
50.10%
阿斯顿维拉
38
48
23
59
506
165
234
466
15583
71.00%
845
69.60%
93
71
2
48.70%
布莱克本
38
46
23
59
453
135
173
498
11998
62.20%
748
74.70%
87
65
5
41.40%
斯托克城
38
46
16
48
482
143
192
442
11116
61.30%
716
72.10%
74
68
2
38.90%
狼队
38
46
22
66
459
139
243
477
15927
68.80%
677
71.20%
93
62
2
50.70%
桑德兰
38
45
21
56
532
155
181
440
15019
69.00%
816
71.40%
98
57
5
48.20%
西汉姆
38
43
22
70
572
174
186
460
14177
72.70%
782
75.20%
120
59
1
44.70%
维甘
38
40
15
61
511
170
171
496
15807
73.40%
913
71.50%
71
67
4
50.10%
伯明翰
38
37
15
58
401
121
153
435
14820
69.00%
668
67.70%
91
57
3
47.60%
1. 基于C8051F单片机直流电动机反馈控制系统的设计与研究
2. 基于单片机的嵌入式Web服务器的研究
3. MOTOROLA单片机MC68HC(8)05PV8/A内嵌EEPROM的工艺和制程方法及对良率的影响研究
4. 基于模糊控制的电阻钎焊单片机温度控制系统的研制
5. 基于MCS-51系列单片机的通用控制模块的研究
6. 基于单片机实现的供暖系统最佳启停自校正(STR)调节器
7. 单片机控制的二级倒立摆系统的研究
8. 基于增强型51系列单片机的TCP/IP协议栈的实现
9. 基于单片机的蓄电池自动监测系统
10. 基于32位嵌入式单片机系统的图像采集与处理技术的研究
11. 基于单片机的作物营养诊断专家系统的研究
12
展开阅读全文