资源描述
现代汉语常用词表(草案)
现代汉语常用词表(草案)
1.范围
本规范(草案)提出了现当代社会生活中比较稳定的、使用频率较高的汉语普通话常用词语 56 008个,形成《现代汉语常用词表》,给出了词语的词形。
本规范(草案)可供中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等方面参考、采用。
2.术语和定义
2.1 常用词
现代汉语普通话范畴中使用频率高、适用范围广的词语。
2.2 词形
本规范(草案)指词语的书写形式。
2.3 词频
在一定数量的语料中同一个词语出现的频度,一般用词语的出现次数或覆盖率来表示。本规范(草案)指词语的出现次数。
2.4 频级
同一语料调查范围中词频数相同的为一个频级。本词表频级统计分两步:第一步形成不同类型语料库的频级,即原始频级。第二步形成总语料的频级,就是将几个原始频级之和再除以不同类型语料库的数目。
3.研制原则
3.1 词和语兼顾原则
本规范(草案)的词语收录,以单音节词和双音节词为主。同时,根据语言使用的实际情况,也收录一些常用的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
3.2 系统性和实用性兼顾原则
本规范(草案)的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“‘晚’+季节”的词语,只收录“晚春”“晚秋”,未收录“晚冬”“晚夏”;对于“‘残’+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。
4.《现代汉语常用词表》(草案)说明
4.1 本表研制过程中,收集词语同国家语委“现代汉语通用语料库”核心语料库、厦门大学的新词语语料库、《现代汉语规范词典》、《现代汉语词典》、《新华词典》等所收词语进行了比对,并查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况。
4.2本表用来检测词频的语料库有:国家语委 “现代汉语通用语料库”中经分词标注的4 500万字语料、《人民日报》2001年~2005年约1.35亿字的分词标注语料和厦门大学的现当代文学作品语料库约7 000万字的语料。总共2.5亿字。
4.3 本表共收录常用词语56 008个,包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。表内条目按频级升序排列,频级相同的按汉语拼音音序排列。
4.4 本规范(草案)提供了《现代汉语常用词表》的音序索引,按汉语拼音音序排列,同音的条目按笔画数由少到多排列。其中,词语的读音只供检索使用,不代表词语的读音规范。
频序号
词语
1
的
2
是
3
在
4
一
5
不
6
有
7
这
8
个
9
上
10
也
11
他
12
人
13
就
14
对
15
说
16
我
17
要
18
到
19
大
20
我们
21
多
22
把
23
来
24
等
25
年
26
两
27
从
28
而
29
能
30
又
31
他们
频序号
词语
32
以
33
时
34
没有
35
会
36
之
37
但
38
三
39
被
40
很
41
下
42
自己
43
后
44
中国
45
并
46
使
47
向
48
已
49
出
50
用
51
新
52
所
53
里
54
给
55
她
56
更
57
次
58
最
59
于
60
可以
61
可
62
去
频序号
词语
63
由
64
问题
65
小
66
工作
67
让
68
其
69
你
70
这个
71
生活
72
起
73
这样
74
天
75
它
76
高
77
做
78
家
79
已经
80
再
81
或
82
才
83
前
84
走
85
这些
86
一些
87
却
88
二
89
条
90
位
91
起来
92
各
93
成
频序号
词语
94
什么
95
元
96
现在
97
社会
98
比
99
同
100
四
101
关系
102
名
103
想
104
如
105
第一
106
因为
107
该
108
开始
109
许多
110
内
111
时间
112
人们
113
今天
114
国家
115
本
116
点
117
思想
118
至
119
此
120
一定
121
如果
122
副
123
无
124
张
125
同时
126
需要
127
月
128
则
频序号
词语
129
重要
130
为了
131
日
132
老
133
就是
134
作
135
五
136
人民
137
事
138
认为
139
成为
140
像
141
北京
142
历史
143
水
144
方面
145
情况
146
而且
147
党
148
学生
149
每
150
这里
151
但是
152
孩子
153
可能
154
发生
155
必须
156
只有
157
外
158
要求
159
全
160
发现
161
进行
162
特别
163
因
频序号
词语
164
岁
165
得到
166
件
167
文化
168
分
169
便
170
同志
171
发展
172
即
173
日本
174
总
175
因此
176
对于
177
领导
178
带
179
既
180
时候
181
钱
182
自
183
政府
184
吃
185
非
186
决定
187
进
188
还是
189
受
190
国
191
应该
192
近
193
美
194
政治
195
话
196
公司
197
干部
198
出现
频序号
词语
199
开
200
一切
201
研究
202
认识
203
写
204
十分
205
十
206
站
207
之间
208
问
209
希望
210
快
211
虽然
212
相(xiānɡ)
213
美国
214
知道
215
讲
216
大家
217
学校
218
组织
219
见
220
由于
221
正在
222
法
223
表示
224
一样
225
活动
226
如何
227
教育
228
书
229
据
230
城市
231
道
232
艺术
频序号
词语
233
经济
234
以及
235
部
236
影响
237
太
238
其中
239
学
240
先生
241
完全
242
连
243
主要
244
继续
245
头
246
革命
247
之后
248
参加
249
能够
250
住
251
上海
252
经过
253
非常
254
低
255
甚至
256
听
257
先
258
一直
259
学习
260
仍
261
办
262
所以
263
代表
264
变
265
最后
266
一起
267
万
频序号
词语
268
所有
269
那么
270
心
271
越
272
较
273
办法
274
路
275
有些
276
未
277
通过
278
找
279
按
280
拿
281
解决
282
一般
283
另
284
经
285
半
286
强
287
或者
288
时代
289
手
290
作品
291
不断
292
以后
293
关于
294
青年
295
各种
296
真
297
其他
298
农民
299
那些
300
余
301
段
302
有的
频序号
词语
303
买
304
根本
305
县
306
作者
307
者
308
请
309
叫
310
感到
311
怎么
312
任何
313
六
314
表现
315
反
316
存在
317
然而
318
准备
319
送
320
约
321
比较
322
书记
323
爱
324
单位
325
群众
326
应当
327
王
328
早
329
女
330
门
331
个人
332
座
333
全国
334
意义
335
花
336
条件
337
环境
频序号
词语
338
了解
339
搞
340
力量
341
不仅
342
目前
343
经验
344
产生
345
真正
346
回
347
队
348
有关
349
字
350
会议
351
生命
352
今年
353
努力
354
靠
355
八
356
市
357
类
358
共
359
意见
360
死
361
民族
362
块
363
只要
364
文学
365
成功
366
变化
367
句
368
管
369
你们
370
指
371
地区
372
方
频序号
词语
373
和(hé)
374
项
375
注意
376
当然
377
达
378
面
379
坐
380
家庭
381
原因
382
进入
383
病
384
介绍
385
下来
386
事情
387
方式
388
首
389
计划
390
人类
391
报告
392
世纪
393
方法
394
入
395
信
396
化
397
步
398
生
399
声
400
图
401
电话
402
能力
403
片
404
作用
405
台
406
如此
(略)
附 录
《现代汉语常用词表(草案)》音序索引
词语
汉语拼音
频序号
阿爸
ābà
18137
阿昌族
āchānɡzú
50849
阿斗
ādǒu
42632
阿飞
āfēi
48603
阿富汗
āfùhàn
3461
阿訇
āhōnɡ
34432
阿拉伯数字
ālābó shùzì
35937
阿拉伯语
ālābóyǔ
30476
阿妈
āmā
16220
阿门
āmén
47913
阿Q
āQ
20845
阿司匹林
āsīpǐlín
40294
阿嚏
ātì
54643
阿姨
āyí
6842
啊(ā)
ā
16090
啊呀
āyā
15418
啊哟
āyāo
23908
啊(á)
á
28693
啊(ǎ)
ǎ
18287
啊(à)
à
5514
啊(ɑ)
ɑ
1175
哎
āi
5497
哎呀
āiyā
8456
哎哟
āiyāo
11815
哀兵必胜
āibīnɡ-bìshènɡ
53102
哀愁
āichóu
25684
哀悼
āidào
8091
哀告
āiɡào
36418
哀歌
āiɡē
40509
哀号
āiháo
29605
哀嚎
āiháo
45194
哀叫
āijiào
35031
哀哭
āikū
41402
哀怜
āilián
35032
哀鸣
āimínɡ
28081
哀戚
āiqī
46661
哀泣
āiqì
44322
哀求
āiqiú
11984
哀伤
āishānɡ
19763
哀思
āisī
23975
哀叹
āitàn
26507
哀恸
āitònɡ
46377
哀痛
āitònɡ
27828
哀婉
āiwǎn
32720
哀怨
āiyuàn
23209
哀乐
āiyuè
20602
埃
āi
6336
埃及
āijí
3121
挨(āi)
āi
4736
挨边儿
āibiānr
53583
挨次
āicì
40951
挨个儿
āiɡèr
42370
挨户
āihù
17735
挨肩儿
āijiānr
46979
挨近
āijìn
26596
唉(āi)
āi
7474
唉声叹气
āishēnɡ-tànqì
24870
唉呀
āiyā
25872
挨(ái)
ái
4436
挨饿
ái'è
16362
挨批
áipī
34907
挨整
áizhěnɡ
37482
挨揍
áizòu
36941
皑皑
ái'ái
28598
癌
ái
10793
癌变
áibiàn
35321
癌细胞
áixìbāo
19156
癌症
áizhènɡ
6730
癌肿
áizhǒnɡ
44071
嗳
ǎi
9372
矮
ǎi
5267
矮墩墩
ǎidūndūn
53103
矮胖
ǎipànɡ
27829
矮小
ǎixiǎo
16293
矮子
ǎizi
22440
艾
ài
9226
艾蒿
àihāo
36593
艾窝窝
àiwōwo
55566
艾滋病
àizībìnɡ
3427
唉(ài)
ài
4115
爱
ài
323
爱不释手
àibùshìshǒu
24929
爱财如命
àicái-rúmìnɡ
54115
爱称
àichēnɡ
46662
爱答不理
àidābùlǐ
52602
爱戴
àidài
11712
爱尔兰
ài'ěrlán
6977
爱抚
àifǔ
19330
爱国
àiɡuó
2338
爱国主义
àiɡuó zhǔyì
3990
爱好
àihào
5492
爱河
àihé
36942
爱护
àihù
5862
爱将
àijiànɡ
34908
爱克斯光
àikèsīɡuānɡ
55082
爱怜
àilián
23303
爱恋
àiliàn
22255
爱美
àiměi
21216
爱面子
àimiànzi
31481
爱莫能助
àimònénɡzhù
31595
爱慕
àimù
18550
爱女
àinǚ
29712
爱情
àiqínɡ
2005
爱人
àiren
5519
爱神
àishén
30357
爱屋及乌
àiwū-jíwū
47287
爱惜
àixī
14976
爱心
àixīn
4350
爱憎
àizēnɡ
24550
爱憎分明
àizēnɡ-fēnmínɡ
33081
隘口
àikǒu
39452
碍
ài
10576
碍口
àikǒu
54644
碍难
àinán
48993
碍事
àishì
24816
碍手碍脚
àishǒu-àijiǎo
45495
碍眼
àiyǎn
43825
暧昧
àimèi
17148
安
ān
1651
安步当车
ānbù-dànɡchē
53104
安插
ānchā
27587
安抵
āndǐ
45796
安定
āndìnɡ
4956
安度
āndù
27830
安顿
āndùn
15085
安放
ānfànɡ
15202
安分
ānfèn
19045
安分守己
ānfèn-shǒujǐ
30358
安抚
ānfǔ
16334
安好
ānhǎo
36594
安徽
ānhuī
3002
安家
ānjiā
21467
安检
ānjiǎn
20603
安静
ānjìnɡ
5113
安居
ānjū
15923
安居工程
ānjū ɡōnɡchénɡ
28340
安居乐业
ānjū-lèyè
10051
安康
ānkānɡ
12674
安乐
ānlè
19724
安乐死
ānlèsǐ
38044
安乐窝
ānlèwō
37483
安乐椅
ānlèyǐ
44323
安理会
ānlǐhuì
4752
安谧
ānmì
36770
安眠
ānmián
32861
安眠药
ānmiányào
21184
安民告示
ānmín ɡàoshì
45797
安宁
ānnínɡ
6724
安排
ānpái
613
安培
ānpéi
22659
安贫乐道
ānpín-lèdào
46980
安琪儿
ānqí'ér
38213
安寝
ānqǐn
44324
安全
ānquán
709
安全带
ānquándài
19797
安全岛
ānquándǎo
48994
安全阀
ānquánfá
48251
安全感
ānquánɡǎn
11863
安全帽
ānquánmào
30135
安全门
ānquánmén
42371
安全套
ānquántào
23630
安全系数
ānquán xìshù
29177
安然
ānrán
11659
安如磐石
ānrúpánshí
55849
安如泰山
ānrútàishān
55083
安设
ānshè
42847
安身
ānshēn
27022
安身立命
ānshēn-lìmìnɡ
27259
安神
ānshén
34572
安生
ānshenɡ
22441
安适
ānshì
31376
安睡
ānshuì
28897
安泰
āntài
39037
安土重迁
āntǔ-zhònɡqiān
53584
安危
ānwēi
10168
安慰
ānwèi
3875
安稳
ānwěn
14568
安息
ānxī
18762
安闲
ānxián
25466
安详
ānxiánɡ
12330
安享
ānxiǎnɡ
33609
安歇
ānxiē
38045
安心
ānxīn
4180
安养
ānyǎnɡ
54116
安逸
ānyì
18491
安营
ānyínɡ
36943
安营扎寨
ānyínɡ-zhāzhài
27510
安于
ānyú
24930
安葬
ānzànɡ
17219
安之若素
ānzhī-ruòsù
43360
安置
ānzhì
2645
安装
ānzhuānɡ
3200
桉树
ānshù
32345
氨
ān
11115
氨基酸
ānjīsuān
15442
氨气
ānqì
41641
氨水
ānshuǐ
34573
庵
ān
12110
庵堂
āntánɡ
46088
谙练
ānliàn
55567
谙熟
ānshú
36771
鹌鹑
ānchún
29290
鞍马
ānmǎ
26027
鞍马劳顿
ānmǎ-láodùn
48604
鞍前马后
ānqián-mǎhòu
44325
鞍子
ānzi
38627
俺
ǎn
2677
埯
ǎn
51701
岸
àn
4679
岸然
ànrán
50468
按
àn
279
按兵不动
ànbīnɡ-bùdònɡ
27023
按部就班
ànbù-jiùbān
25179
按键
ànjiàn
32346
按揭
ànjiē
23054
按理
ànlǐ
30787
按例
ànlì
48995
按脉
ànmài
52135
按摩
ànmó
10229
按捺
ànnà
25943
按钮
ànniǔ
18863
按期
ànqī
12723
按时
ànshí
5677
按说
ànshuō
19355
按图索骥
àntú-suǒjì
39235
按压
ànyā
37125
按语
ànyǔ
34909
按照
ànzhào
634
案
àn
1109
案板
ànbǎn
28985
案牍
àndú
48605
案发
ànfā
13946
案犯
ànfàn
20151
案件
ànjiàn
1461
案卷
ànjuàn
23156
案例
ànlì
7184
案情
ànqínɡ
11301
案头
àntóu
18138
案由
ànyóu
36095
案值
ànzhí
13209
案子
ànzi
6523
暗
àn
2609
(略)
《现代汉语常用词表(草案)》研制报告
一 研制背景
为给语文应用和有关政策的制定提供科学的词汇依据,积极服务于汉语规范化、推广普通话,积极服务于中小学语文教学、扫盲教育、汉语教育、中文信息处理和辞书编纂等工作,1998年7月国家语言文字工作委员会批准立项,成立《现代汉语通用词表》研制课题组。该词表作为国家已经公布的《现代汉语通用字表》等的配套规范,是我国语言文字规范化、语文教育和研究方面的基本建设项目。研制工作自1998年7月启动,于2001年年底完成并通过了专家鉴定。
鉴于5年来汉语词语发展变化很大,研究和统计手段又有很大提高,为把词表研制工作做得更加扎实完善,课题组希望对原词表进行修订。2005年6月教育部语信司决定在原词表的基础上进行修订,此项工作由原课题组和新立项的《现代汉语通用词量与分级》课题组合作进行,共同研制一个常用词表。根据5年来语言发展变化的情况和对词条增删调整,按新的统计处理方法确定其常用度并以此重新排序,使之能更真实地反映我国现代汉语词汇系统的概貌。这次修订工作进行了一年半,主要是对词语作了较大规模的增删调整,并根据词频调查结果确定了使用频级。修订的主体工作于2007年1月完成,之后又根据有关专家和部门的意见陆续作了增补和修改。
二 研制过程
(一)初稿的形成
本词表初稿的研制工作,主要包含下列几方面的内容:
(1)搜集有关文献资料,研究前人制订各种词表的经验和教训;
(2)比较现有的、在社会上影响较大的辞书的词目,并研究它们的取舍标准;
(3)进行社会调查,了解群众使用汉语词汇的具体情况;
(4)在把《现代汉语规范词典》开编时的词目和其他10多本词典、词表进行对比后进行增删的基础上,用山西大学和清华大学计算机中心所储存的语料进行词汇覆盖率的检验。
对条目的增删,除了利用计算机之外,还进行了人工干预,逐条审核。
通过以上工作,形成了总词目为61 000多个的“词表”。2000年2月26日在北京经专家鉴定通过。鉴定委员有陆俭明、陈章太、曹先擢、常宝儒、刘庆隆、林杏光和苏培成,由苏培成主持。
(二)词表的修订
2005年春天,为了加快词表研制工作的进度和提高质量,在教育部语言文字信息管理司的组织下,研制组联合苏新春主持的“现代汉语通用词量与分级”课题组对原词表作了修订并再次进行词频统计工作。
将“词表”同国家语委研制的“通用语料库”的核心语料库所收词语进行比对。核心语料库约有15万多个词语,除去专有名词、行业词语、人名、地名等以外,语文类词语约10万个。将“词表”同这10万个词语进行逐一比对,按照常用词表既定的收录原则逐条筛选。在审慎分析各词语在通用语料库中词频的基础上,考察社会语文生活中的实际使用情况,经过人工干预增选出约4 000多个词语。
将“词表”同《现代汉语规范词典》、《现代汉语词典》(第5版)、《新华词典》等所收词语进一步比对。排除其中的方言词语、专有名词、行业词语以及现代语文生活中存活率或使用率明显偏低的文言词语,再按照常用词表既定的收录原则进行审核,增补了500多个词语。
将“词表”同新词语语料库所收新词语进行比对。利用厦门大学研制的新词语语料库,按照课题组既定的收录原则进行筛选,经现代汉语通用语料库检测,增补了1 000余个词语。至此,“词表”的词语收录总数扩展到了66 000多个。
对“词表”词语进行综合审读,必要时查验了该词在人民网《人民日报》报系网页以及Google网简体中文网页、百度网等常用网页上的使用情况,作了再次调整(主要是删除尚不具备本表所界定的“常用”规格的词语),另外也考虑到作为常用性词表的词,不宜象一般词典那样因语音或语法的细小差异而将词目作过细的区分。后来在送专家和有关部门审读中,又根据审读意见陆续作了调整和删减。
最终形成的《现代汉语常用词表》,收录词语共56 008个。
[1]包括单音节词3 181个,双音节词语40 351个,三音节词语6 459个,四音节词语5 855个,五音节和五音节以上词语162个。
调查所有词语的使用频次。用来检测词频的语料库有三种:第一种是国家语委主持研制的“通用语料库”中经分词标注的4 500万字语料。第二种是《人民日报》2001年~2005年约1.35亿字的分词标注语料。第三种是厦门大学研制的现当代文学作品语料库,约7 000万字的语料。总共2.5亿字。以上三种语料均作有分词与标注,从中获得词频数据。对以下两种情况作了人工检测。第一种是分词后在该语料中没有出现的词语。做法是将被检词放到未作分词标注的原始语料中以查检字符串的方式调出所有用例进行人工甄别,从而避免原始语料中有词却因软件分词而消失了。在查检时对数量大的语例则用随机抽样的方法抽检。第二种是同形词。对同形异义词在实际语例中进行人工干预,区分意义,分别统计词频。
三 研制原则和方法
(一)收词原则
本词表所称的“常用词”是指以汉语为母语的中等文化程度的人,在社会语文生活中经常见到和使用的现代汉语普通话词语。本词表要求给现当代社会语文生活中通用的、稳定性较强、使用频率较高的汉语普通话词语划出一个范围,作为现代汉语词汇系统的基干部分,从而为语言应用和有关语言文字政策的制订提供科学的词汇依据。在研制中,既注重了书面词语的收集,也兼顾了常用口语词语的考察,还适当收了一些在现代社会大众传媒中时有出现,跟语文生活有所关联的行业性、历史性词语。至于更专业些的词语将另行研制,作为《现代汉语常用词表》的附表。
本词表以收录单音节词和双音节词为主。同时,根据语言交际实际也收录一些使用频率明显较高的缩略语、成语、惯用语等熟语,以及表达整体概念名称的其他固定短语。
1.鉴于汉语词语本身在缩略、扩展、拆用,以及跟别的词语组合成新的固定语等方面的灵活性和复杂情况,本词表的词语筛选还贯彻了以下规则:
(1)对于带有词根性质的词语(如“群众化”“群众性”中的“群众”)和它们的扩展词形、组合短语,从词语构成的能产性考虑,优先收录带有词根性质的词语,对它们的扩展词形或组合短语,根据实际使用频度和规范状况等有选择地收录,原则上双音节者适当从宽,三音节及其以上者适度从严。
(2)对于简缩词语或简称和它们的原形词语,根据实际使用频度和规范状况等做出不同的选择。如:“安理会”“安全理事会”“联合国安全理事会”,收录“安理会”,而不再收录“安全理事会”和“联合国安全理事会”;“福利彩票”和“福彩”,收录“福利彩票”,而不收录“福彩”。
(3)可以拆用的四字以上的固定语(多是八字熟语),原则上收录其完整式,而不分别收录拆用式。如:收录“种瓜得瓜,种豆得豆”,不分别收录“种瓜得瓜”和“种豆得豆”。
(4)经常出现的双音节结构,如果其中一个组成语素在现代汉语中基本不单用,则把该结构视为词加以收录,如“乌云、李子、鲫鱼、松树”等;如果该结构中有一个成分的意义已经虚化,也视为词加以收录,如“达到、酿成、成为、致以、觉得”等。
2.鉴于本词表的研制目的和使用价值,对于确实存活在社会语文生活中、但较为特殊的几类词语,采用以下处理办法:
(1)人名。原则上不予收录,但有比喻、借代等引申意义的,适当收录其中稳定而高频的。如“阿Q”“诸葛亮”等。
(2)地名。原则上不予收录,但收录使用频率相对较高的我国各省(及其省会)、自治区(及其首府)、直辖市名称,以及它们常用的别称或简称。
(3)国名。只收录我国周边国家以及在社会语文生活中出现频率明显较高的一些国家和城市的名称。
(4)我国各历史朝代名称。只收录历史上影响较大、在现当代社会语文生活中出现频率明显较高的朝代名称。
(5)党、国家、社会团体和企事业各机构的名称,以及这些机构的领导职务的名称。原则上不予收录,但在现当代社会语文生活中明显稳定而高频的“支部”、有着明确比喻意义的“班长”等,则予以收录。
本词表的词语收录,既注意词语的系统性,又注意词语在语用中的实用性。如以表示季节为根词的一些词,全部收录它的加缀词“初春”“初冬”“初秋”“初夏”,但对于“晚+季节”的词语,只收录“晚春”“晚秋”未收录“晚冬”“晚夏”;对于“残+季节”的词语,只收录“残冬”未收录“残春”“残秋”“残夏”。总之,在词语收录的具体操作中,尽量处理好词语的系统性和词语的常用性的相互关系,特别注意词频的高低,一切从语言使用实际出发。
本词表的词语收录,既充分尊重社会语文生活的客观实际,又严格控制不符合规范以及格调低俗的词语,切实起到促进社会语文生活向着规范、文明方向发展的积极作用。
本词表所收录的词语,在用字上基本涵盖了《现代汉语常用字表》中的全部汉字,不超出《现代汉语通用字表》的范围。凡是独立成词的字,列出单音节词;不能独立成词的字,收录于复音词中。单音节词条中包括了某些只作常用姓氏的字,如“邓”。
(二)根据“词频频级排序法”确定词语的使用频度顺序
本词表确定词语的使用频度顺序使用的是“词频频级排序法”。由于词语的来源面比较宽,各种语料都有自己的覆盖面与构成特点,词表中的词语不能在每种语料中都得到全部显现。同一个词语在不同语料库中的频次也可能相差较大,因而不同语料库中的具体频次之间缺乏严格的可比性。用频级统计则能较客观地显示每个词语的使用情况。频级排序法就是同一语料库中所有词语按频次数的多少进行的一种排序方法。相同频次的为一个频级。频级统计分两步施行。第一步形成不同类型语料的频级。检测语料有“通用语料库”、“人民日报”、“文学作品”三种,这样每一个词语就有了三个不同的原始频级。第二步形成总语料的频级,就是将每个词语的三种语料的频级之和除以三。总语料的频级共有2 969级,1级为最高,2 969级为最低。同一频级的词语最多有1 781条,最少的只有1条词语。相同频级的词语,根据总频次的多少由高到低排序,相同频次的根据读音按字母升序排列。
四 研制的内容
本词表包括“频级序号”“词语”等内容。“频级序号”是根据“频级统计法”排序,其方法详见上文。由于“频级统计法”是根据一个词在三个语料库中的平均频级来决定的,那些总频次相同或相近的词,如果在三个库中分布不匀等,则在“频级”的排名上会稍显排后。
(一)用字
词表使用的汉字总数为5 144个,涵盖了《现代汉语常用字表》的所有有构词能力的字,并均在《现代汉语通用字表》的用字范围。
词表全部使用规范汉字,即符合《第一批异体字整理表》(1955年12月22日中华人民共和国文化部、中国文字改革委员会发布)、《简化字总表》(1986年10月10日经国务院批准国家语言文字工作委员会重新发表)、《现代汉语常用字表》(1988年1月26日国家语言文字工作委员会、国家教育委员会发布)、《现代汉语通用字表》(1988年3月25日国家语言文字工作委员会、中华人民共和国新闻出版署发布)的规定。
(二)词形
全部词语使用规范词形。对于异形词,执行《第一批异形词整理表》(GF 1001—2001中华人民共和国教育部、国家语言文字工作委员会2001年12月19日发布)的规定。对一些仍在使用且有一定使用频率的异形词,则附列在正形词后并用括号表示。
在条件成熟时将再进行“附表”的研制。计划中的“附表”包括五部分:(a)常用科技词表;(b)常用方言词(实为方源词)表;(c)常用人名、地名表;(d)常用文言词表;(e)常用字母词表。考虑到字母开头的词语(习惯上称之为“字母词”)在社会语文生活中使用虽较频繁,但多数尚不够稳定,语言学界的认识也不一致,所以本词表没有收录这类词语,将在日后把这类词语列为附表。
五 相关资料
研制单位:《现代汉语规范词典》编委会
厦门大学中文系
研制人:
前期研制人员
负 责 人:李行健
参加成员:陈松岑、季恒铨、余志鸿、谢自立、张卫国、郑宝倩、孙茂松(兼计算机工作)、程荣、叶根祥、刘开瑛(计算机工作)
后期修订人员
负 责 人:李行健、苏新春
参加成员:季恒铨、余志鸿、钮葆、朱振平、程国甡、徐婷、刘扬涛、钟安妮、李连伟
学术顾问:胡明扬、曹先擢、傅永和
本词表立项研制过程中,始终得到教育部国家语委的支持。许嘉璐、陈章太、陆俭明、徐通锵、苏培成、韩敬体、晁继周、黄昌宁、李宇明、王铁琨等同志先后参加过制定“词表”的研讨会,给制定工作很多指导和帮助;商务印书馆、语文出版社、外语教学与研究出版社等单位也给予了支持和协助;责编余桂林同志做了不少不可或缺的工作。在本词表出版之际,谨向上述同志和单位表示衷心的感谢!
《现代汉语常用词表》课题组
2008年6月24日
展开阅读全文