资源描述
意义组合原理及汉语中的“词”处理
王淑华作者简介:王淑华(1976 - ),女,安徽安庆人,上海大学文学院博士后,研究方向为计算语言学、现代汉语语法。
(上海大学 文学院,上海 200444)
摘要:从表层看,汉语中由字组词的情况很复杂,语法与语义之间不存在对应关系。以意义组合原理为依据,可把汉语中的复合词分为两类,一类是不遵循意义组合原理的原子词,另一类是遵循意义组合原理的组合词,组合词的意义可以从组成成分和语法结构的意义中求解出来。通过意义组合原理,描写并分析语素构词的主要形式,挖掘构词层面上语法与语义之间的对应关系,可为计算机处理未登录词提供语言学知识的支持。
关键词:词;原子词;组合词;意义组合原理;
中图分类号: 文献标识码: 文章编号:
一、汉语中的“词”
汉语研究中关于词的争论由来已久。
我国传统汉语文的研究以“字”为基本单位,“词”专指“虚字”。汉语语言学研究中的“词”是从西方语言学中引进的,最早引进“词”这个概念的是章士钊的《中等国文典》。自此,“词”逐渐成为研究汉语语法的一个基本单位。从引进“词”的概念到现在,已经过了一百多年。在汉语是否存在“词”这一级语法单位的问题上,学界已基本达成共识。关于“词”的研究也在不断地向各个方向拓展,但是,传统的“字”的概念对“词”影响很深。什么是“词”,如何确定汉语中的“词”,如何辨别“词”与“非词”,仍然没有明确的结论。在认定某一个语言单位是不是“词”的时候,“独立运用”、“语素的自由或粘着”、“音节长度”、“使用频率”、“意义的透明度”等因素通常都会影响我们的认识与判断。
一般认为,区分词和语素,是看能否“独立运用”。而区分词和短语,要比区分词和语素更难。吕叔湘指出:“词和短语的区分大致涉及五个因素:第一,这个组合能不能单用,这个组合的成分能不能单用;第二,这个组合能不能拆开,也就是这个组合的成分能不能变换位置或者让别的语素隔开;第三,这个组合的成分能不能扩展;第四,这个组合的意义是不是等于它的成分的意义的总和;第五,这个组合包含多少个语素,也就是它有多长。”[1]这五个因素中,前三个属于语法标准,后两个属于词汇标准。在确定“词”的实践中,语法标准和词汇标准经常不太一致。也就是说,同一个语言单位,运用语法标准和词汇标准有时会得出不同的结论。而且,对于同一个标准,不同的人理解也不太相同。在一些语法著作中,我们经常能看到互相矛盾的论述。譬如,一般都认为,词是“最小的能独立运用的语法单位”,它以“最小”区别于短语,以能“独立运用”区别于语素。但是,“独立运用”有着不同的内涵。张斌指出:“独立运用”或称之为“自由运用”,包括下列内容:第一,能单说的(包括能单独回答问题的)最小语言单位。第二,虽然不能单说,但是在句子中抽去可以单说的词之后,剩下的又不属于词的一部分,也是词[2]。符淮青指出:词的“能独立运用”的特点主要表现在以下两个方面:一是能单说,能单独回答问题。二是虽然不能单说却可以独用,即充当词组或句子的成分。[3]对“独立运用”的不同理解,关系到虚词的词类资格确定问题,。按符淮青的标准,介词、连词、助词、语气词等虚词是不能称其为“词”的。
又如,一般认为,词表达的概念比较单纯、凝固,复合词的意义不能是语素所表示意义的简单相加,即不能简单地从语素义求解出词义。据此可以判断,“白药”、“白领”是词,而“白马”、“白布”是短语。但是,有些词典中也收录了“牛肉、羊肉、运费、用法”等可以“见字知义”的语言单位,这或许是考虑到这些单位的音节长度和使用频度等因素。
为了避开关于“词”的争论与矛盾,有学者提出,要区分语法词、词汇词、书写词。但是,对于汉语来说,没有分词连写的习惯,短期内也不可能实现分词连写,所以“书写词”没有什么意义。至于由词典提供的“词汇词”,在语法分析时作用不大。重要的仍然是“语法词”。还有些学者提出了“韵律词”、“语音词”、“语境词”、“理论词”等术语。随着中文信息处理事业的发展,从便于工程处理的角度出发,又出现了“切分单位”、“分词单位”、“切词单位”、“拼写单位”、“信息词”、“工程词”、“形式词”等术语。术语的增多并没有促进汉语中什么是“词”这个基本问题的解决。到现在为止,它仍然在不断地困扰着我们。而汉语中大于语素、小于短语的单位——“词”客观存在的事实,加上它对汉语本体、对外汉语教学、中文信息处理等研究等具有的重要作用,使得我们无法回避。
综观多年来关于“词”的讨论,可以发现,大家在心中比较认可的仍然是意义标准,也就是吕叔湘提到的第四点:一个语言单位的意义是不是等于它的成分的意义的总和。如果是,那么这个语言单位是词;如果不是,这个语言单位就是短语。
但是,意义是一个很抽象很模糊的东西,常常因人因境而异,不好把握。什么是意义,怎么样意义就算发生了变化,怎么样意义算还没有变化,这些问题都没有明确的判别标准。因此,大家又都认为意义标准过于含糊,在确定“词”的实践中,不具有可操作性。
不过,意义真的是抽象、模糊、不可捉摸的么?意义标准真的不具有可操作性?语言单位的意义如何能从它的组成成分的意义中求解出来?本文将立足于意义组合原理,对这些问题做出力所能及的回答,同时也希望能在一定程度上廓清汉语中与“词”相关的意义问题。
二、意义组合原理
意义组合原理(principle of compositionality)也叫弗雷格原理,由现代数理逻辑的创始人、德国著名的数学家、哲学家、逻辑学家弗雷格提出。其基本思想是“一个复合表达式的意义是它的部分表达式意义的函项”。[4]由于在一阶逻辑中,一个语言表达式的意义就是它的所指或者说是外延,因此,意义组合原理可以解读为:一个复合表达式的外延就是它的部分表达式外延的函项;又因为它把语句的外延看作真值,所以,意义组合原理还可以解读为:一个复合语句的真值就是它的原子语句的真值函项。以原子语句p、q组成的复合表达式“p∧q”为例,“p∧q”的真值只和p、q的真值有关,而与p、q的具体涵义无关,只要p、q的外延为真,那么“p∧q”的外延也为真,否则,就为假。例如语句“雪是白的”真值为真,“雪是黑的”的真值为假,“1是奇数”真值为真,“1是偶数”真值为假。利用联结词“∧”可以组成命题如:(1)雪是白的并且1是奇数;(2)雪是黑的并且1是奇数;(3)雪是白的并且1是偶数;(4)雪是黑的并且1是偶数。在上述4个命题中,只有第(1)个命题是真命题。
弗雷格虽然为逻辑语义学的建立和发展奠定了重要的基础,但是他并没有清晰地区别出语形和语义,没有建立起完整的语义系统。美国著名的逻辑学家蒙塔古在弗雷格意义组合原理的基础上更进一步,主张把自然语言作为与逻辑人工语言本质上相通的一种符号系统进行研究。自然语言中,一个语言表达式的语形和它的语义是有联系的。意义计算的根据就在句法生成那里,即对每个句法规则而言,都存在一个语义规则与之相对应,句法生成必定伴随相应的语义计算。也就是说语形上(即句法上或者说是语法上)组合一次,语义上也就组合一次。由于语形形式化的可能,所以语义形式化也变得可能。这就是蒙塔古确定的句法和语义的对应原则。
蒙塔古认为,不仅复合句的意义由其直接构成成分的意义组合而成,其他层面的表达式,如简单句、名词短语和动词短语等也是如此。复合语言表达式的意义组合,不仅有其直接成分的意义参与,还跟句法生成所涉及的结构运算的“意义”分不开。换而言之,复合语言表达式的意义是由其直接成分的意义同有关句法结构运算的意义组合而成的。更确切地讲,是句法结构运算的意义对复合表达式直接成分的意义进行运算的结果。[5]这是蒙塔古对意义组合原理的更彻底更严格的表述。假定“s1 conj s2”是一个复合表达式,则|s1 conj s2|= |conj| (|s1|,|s2|) 语言单位外加双竖线表示此语言单位的意义,后文同此。
,也就是说,要得到|s1 conj s2|,不仅需要知道|s1|和|s2|,也离不开|conj|。如英语语句“John walks”,其直接成分为“John”和“walk”,其句法结构运算为F4,即F4(John,walk)= John walks 英语表达式的内涵逻辑翻译式可间接表示其语义解释。
。于是整个句子的语义翻译表现为:
[John walks] ' = [F4(John,walk)]'
= G4(John',walk')
= John'(^ walk')
从上文可以看出,句子“John walks”的翻译结果是需要句法结构运算F4的意义参与的。句法结构运算F4的意义就是与之对应的语义运算G4。意义组合原则是蒙塔古语法的精髓,回答了自然语言复合表达式的意义从何而来的问题。
蒙塔古所强调的句法与语义的对应原则有两个特点:“第一,句法规则总是从最小的基本表达式开始,逐层逐级由小到大生成语句。遵循句法规则的节奏,句法规则每生成一次,就据此定义相应的语义计算,这样语义的获得就不会成为任意的‘无源之水,无根之木’;第二,自然语言比逻辑语言复杂丰富,要严格地实行句法和语义的对应原则,需要解决大量的技术问题。自然语言句法生成受语言习惯影响而不能随意变动,这就要求在语义学方面多动脑筋,设计适当的语义规则去和句法生成建立对应关系。”。[6]
英语在语形上最自然的结构单位是“词”,蒙塔古构思了许多方案,以“词”为起点,在英语部分语句系统中成功地贯彻了句法与语义的对应原则。这种强调语形与语义互相对应的意义组合原理同样也适用于汉语。不过,由于汉语和英语有诸多不同,所以在贯彻意义组合原理的过程中,实现句法和语义的对应方面,有着自己的特殊性。这种特殊性表现在两个方面:一、贯彻意义组合原则,在汉语中应该从“字”做起,因为“字”是汉语中最自然的结构单位,在语形上有明显的特征,同时大部分也是语义上的最小单位。二、由于汉语的一些特点,要在汉语中实现语法和语义的对应,在技术上有更多的要求,也就是说在语义方面要动更多的脑筋。因此,在汉语中贯彻意义组合原理,努力实现语法和语义的对应,要从有意义的“字”开始,探讨从字到词、从词到短语、从词或短语到句子的逐层组合过程。由于本文的主要讨论对象是汉语中的“词”,故下文仅仅考察从字到词的组合过程。
三、意义组合原理与汉语中的“词”
运用意义组合原理来考察汉语中的词,对照词典中的相关释义,很容易发现,平时被我们看作“词”的单位,实际上可以分为两类:一类单位不遵循意义组合原理,即复合表达式——“词”的意义不能从组成词的成分——“字”的意义以及语法结构的意义中运算出来;譬如“白菜”不是“白颜色的菜”,它的意义不能从定中结构的意义和“白”、“菜”的意义中运算出来;“白领”不是“白色的领子”,它的意义不能从定中结构的意义和“白”、“领”的意义中运算出来;类似的还有“火车”、“马路”等等。另一类单位遵循意义组合原理,即复合表达式——“词”的意义能够从组成词的成分——“字”的意义以及语法结构的意义中运算出来;譬如:“羊肉”的意思是“羊的肉”,“羊毛”的意思是“羊的毛”,“运费”指的是“运输的费用”,“用法”指的是“使用的方法”。
对于前一类语言表达式,我们称为原子词 命名为“原子词”,一是取“原子”内部不可拆分之义,二是从逻辑上的原子语句得来。
;对于后一类语言表达式,我们称为组合词。就一般词典收录的“词汇词”来说,其入选途径多种多样,如组成成分之间的凝固度、意义的透明度、使用频率、单位长度等。在这些“词汇词”中,既有不遵循意义组合原理的原子词,也有遵循意义组合原理的组合词。把这两种性质有很大差别的语言单位放在同一个层面,不利于深化对“词”的认识,也不利于语言教学和信息处理工作的深入。下文我们将以自由语素“飞”为例,对词典中收录的相关词条作穷尽性地分析,探讨意义组合原理在汉语组词的过程中所起的作用。
《现代汉语词典》中共收录了“飞”居于首位的组合60个,以双字组合为主:
飞白 飞镖 飞播 飞车 飞驰 飞船 飞弹 飞地 飞碟 飞归 飞红 飞鸿 飞花 飞机 飞溅 飞快 飞灵 飞轮 飞盘 飞蓬 飞禽 飞泉 飞人 飞散 飞身 飞升 飞逝 飞鼠 飞速 飞腾 飞天 飞艇 飞吻 飞舞 飞翔 飞行 飞旋 飞檐 飞眼 飞扬 飞鱼 飞语 飞跃 飞越 飞灾 飞贼 飞涨 飞舟 飞毛腿 飞行器 飞行员 飞车走壁 飞短流长 飞蛾扑火 飞黄腾达
飞来横祸 飞潜动植 飞沙走石 飞檐走壁 飞扬跋扈
运用意义组合原理考察上述语言单位,我们发现,有18个语言单位的意义不能从组成成分的意义以及语法结构的意义中运算得出,这些语言单位是原子词。分别是:
飞白 飞地 飞归 飞花 飞轮 飞泉 飞天 飞吻 飞檐 飞眼 飞毛腿 飞短流长 飞蛾扑火 飞黄腾达 飞来横祸 飞潜动植 飞檐走壁 飞扬跋扈
借助于词典中对参与组合的其他语言单位的释义以及该语言单位自身的语义信息,我们可以用一定的元语言框架来表示那些组合词的词义以及同类词的理解模式:
(1)如果“飞”后的语言单位在语义类上属于“动物/用具/武器/自然物”等,则“飞”取“在空中移动义”,“在空中移动”可以看成是一种能力,即:
|飞X|=|飞|+|X|
|飞鸿、飞禽、飞鼠、飞鱼| “飞”有时是X的定义特征,如鸿、禽,这时“飞”起描述、凸显的作用;有时不是X的定义特征,如鼠、鱼;当“飞”不是X的定义特征时,说明“飞X”是X中比较特殊的小类。这些可以作为附加条件信息。
=(会飞的鸿、鸟类、鼠、鱼)或(在空中移动的鸿雁、鸟类、鼠、鱼)
|飞镖、飞弹、飞碟、飞盘|= 利用动力在空中移动的镖、枪弹或炮弹、碟形物、盘形物
|飞蓬|=在空中移动的蓬
类似的语言单位还有:飞虫、飞蛾、飞蝗、飞凫、飞龙、飞翰、飞骑、飞刀、飞铙、飞蝶、飞蚁、飞鸽、飞鹰、飞燕、飞雁、飞鹭、飞云、飞雪等。
(2)如果“飞”后的语言单位在语义类上属于“人/机器/交通工具”时,“飞”取“在空中移动”义,或取“速度很快”之义;只有在具体的上下文中,才能准确地确定“飞X”的含义。即:
|飞X|=(在空中移动的X)或(速度很快的X)
|飞人、飞贼|=(在空中移动的人、贼)或(速度很快的人、贼) “飞人、飞贼”从语素义中仅可求出部分词义。当表示“跳得特别高的人”、“手脚灵便能很快地登墙上房的贼”等义时,应看作作原子词。
|飞机、飞车、飞舟、飞船、飞艇|=(在空中移动的机器、车、舟、船、艇)或(速度很快的车、舟、船、艇) “车、舟、船、艇”的移动是“在陆地”和“在水中”,这和“飞”的定义特征相矛盾,因此如果该词语指称的对象是在空中时,“车、舟、船、艇”的相应特征要被抑制。词典中收录了飞船飞艇移动于空中、飞车驰于陆上、飞舟驶于水中的情况,但是在文本中我们也发现了飞艇用于水中、飞车飞舟用于空中的情况,并且不是孤例。这反映了词典释义的某些不足。
(3)如果“飞”后的语言单位表示“飞”的动作主体时,“飞”取“使X(在空中)快速移动”义。即:
|飞X|=使X(在空中)快速移动
|飞车、飞身、飞沙走石|=使车快速移动、使身体快速移动、使沙石在空中快速移动
类似的语言单位还有:飞脚、飞针走线、飞车走壁等。
(4)如果“飞”后的语言单位在语义类上属于“言语/灾祸”时,“飞”取“意外的、没有根据的”义,即:
|飞X|=(意外的X)或(没有根据的X)
|飞语、飞灾|=没有根据的话、意外的灾祸
类似的语言单位还有:飞祸、飞谤等。
(5)“飞”用在动语素前,有两种意义,一是凸显速度,取“快速”义;二是凸显处所,取“在空中”义。即:
|飞X| =(快速地|X|)或 (在空中|X|)
|飞驰、飞逝、飞腾、飞涨、飞跃|=快速地跑、(时间等)快速地过去、快速上升、快速升高或提高、快速跳跃
|飞播、飞溅、飞散、飞升、飞舞、飞翔、飞行、飞旋、飞扬、飞越、飞跃 “飞跃”用于不同的环境中,意义略有差别。例如:“飞跃而出的黑骏马”侧重于黑骏马速度快,“飞跃五米多宽的人工河”侧重于在空中越过。
|= 在空中播种、液体受冲击向空中射出、在空中散开、由低往空中移动、在空中舞动、在空中盘旋地飞、在空中移动、在空中盘旋地飞、在空中飘扬、在空中越过、在空中越过
“飞行器、飞行员”两个单位的意义可以通过定中结构的意义对“飞行”、“器”、“员”的意义进行运算求出。
和“飞驰、飞逝”等类似的语言单位还有:飞奔、飞跑、飞转、飞报、飞递、飞驶、飞卷、飞溢、飞渡等。
和“飞舞、飞翔”等类似的语言单位还有:飞架、飞泻、飞悬、飞动等。
(6)“飞”用在形容词性语素前,表示程度,即:
|飞X|=特别|X|
“飞红、飞快、飞灵、飞速|=特别红、迅速或锋利、灵敏或灵验、迅速
目前,在语料和其他词典中,我们均没有发现“飞”以“特别”义构成新词的情况。
从上面的分析可以看出,“飞”取“在空中移动”义跟名词性的语素构成新词与“飞”取“快速”义或“在空中”义跟动词性的语素构成新词是两种比较能产的构词模式。
对词典中的其他词条进行分析,我们发现,词典中收录的单位,大部分都可以根据是否遵循意义组合原理区分为原子词和组合词。例如:“木版、木船、木雕、木筏、木屐、木简、木刻、木偶、木排、木器、木琴、木炭、木锨、木马、木牛、木鱼”都是“材料”与“器物”的组合,“车把、车帮、车钩、车筐、车门、车篷、车身、车头、车闸、车轱辘、车轮、车胎、车辕子、车轴”等都是“整体”与“部件”的组合。这一类语言单位的意义可以从语素义入手通过一定的元语言框架求出,前者是“以木头为材料制成的X”,后者是“车的X”。
同样,也有很多能产的语素,位于后一位置,按照固定的模式、遵循意义组合原理组成很多词。例如:“汇费、邮费、运费、学费”是做“X”这件事情所需的费用,“车费、电费、水费”等是“使用X所需的费用”;“学员、演员、教员、译员、办事员、乘务员、承审员、保育员、指导员、服务员、勤务员、售票员、售货员、投递员、通讯员、研究员、战斗员”等是“从事X或负责X的人”,“病员、伤员、冗员”是“具有X特征的人”,“会员、团员、党员、社员、店员、阁员、委员”是“属于X这个集体的人”。
上面所举的词,从意义组合的角度来考虑,都属于组合词。但词典收词、包括传统语法中对“词”的认识都是意义、音节、频率等多种标准放在一起综合考虑的结果,这导致语素与词、词与短语的界限混淆不清。一般语法著作中区分语素与词是采用替换法,区分词与短语是采用扩展法。但不管是替换法还是扩展法,对计算机来说,实际上都不具有可操作性。
如果我们摒弃多重标准,采用单一的意义标准,以意义组合原理为依据,重点关注复合语言单位的意义能否通过一定的技术手段从组成成分和语法结构的意义中求出,同时针对能产的构词类型,设计出求解整体意义的元语言框架,相对而言是具有可操作性的。
扩大范围,运用意义组合原理来考察短语,短语也是分为两类:遵循意义组合原理的短语是自由短语,其性质和组合词类似;不遵循意义组合原理的短语是固定短语,其性质和原子词类似。计算机在遇到原子词或者固定短语时,可以把它们看作一个固定点,不做内部分析。
从意义组合原理的角度来考察汉语中的语言单位,在一定程度上,淡化了语法本体研究中比较重视的词与短语的界限:组合词和自由短语占汉语词汇系统的大部分,它们都是遵循意义组合原理的语言单位,意义求解过程相似,所以计算机在处理时,可以采用相似的计算法则。
四、原子词、组合词的区分意义与应用
随着社会的发展与变化,新词新语的数量迅速增加,而且通常是以“词族”的形式出现。例如:“酒吧、网吧、茶吧、氧吧、话吧、书吧、咖啡吧”等是“吧”族词,这些词的意思可以用元语言“提供与X有关的服务的场所”来表示;“房奴、车奴、卡奴、儿奴、气奴、医奴、油奴、教育奴”等可看作是“奴”族词,这些词的意思可以用元语言“为X所役、丧失自由的人”来表示。鉴于这点,即使词典更新的速度再快,规模再大,仍然会遇到很多新词。因此,区分原子词和组合词,不论是对于本体研究还是对于应用研究来说,都具有积极的意义。
(1)以意义组合原理为唯一标准,可以避免语法本体研究中定义“词”、辨别“词”所面临的一系列的矛盾问题。
语法学界关于“词”的定义很多,吴蔚天、罗建林列举了19种,有的是意义角度,有的是结构角度,有的是意义和形式相结合的角度。[7]判断一个语言单位是不是“词”也需要考虑多种因素,因此对于“鸡蛋、鸭蛋、羊肉、羊毛、吃饭、人造革、人造纤维”等语言单位的处理不免见仁见智。《现代汉语词典》收了“鸡蛋”但没有收“鸭蛋”,收了“羊毛”但没收“羊肉”,收了“人造”、“人造革”但也收了“人造纤维”。关于“吃饭”,《现代汉语词典》仅列了作为词的意义“泛指生活或生存”,《应用汉语词典》除列了此义之外,还列了作为短语的意义“吃米饭”、“进食”。实际上,“饭”这个语言单位本身既有特指大米饭的意义,也有每天定时吃的食物之义。所以,当“吃饭”指“吃米饭”或“进食”时,是不需要收入辞典的。上面这些单位,从意义组合角度来考察,都是看作遵循意义组合原理的语言单位。多重标准的同时使用导致无法对相关的问题做出令人信服的、一以贯之的解释。
也许有人认为在各种判断标准中,可以以组成成分意义的凝固程度为主要标准,如果凝固了就看成词,没有凝固就看成短语,把其它的标准都看作参考标准。但“凝固度”的确定同样完全是根据个人的语感,不同的人有不同的判断标准,很难操作。根据苑春法、黄昌宁的统计数据,在名词、动词、形容词中,合成词的词义是词素意义组合的比例分别为:87.8%、93.2%、87.0% ;[8]这是一个非常高的比例。如果坚持词的意义应该凝固成一个整体的标准,那么,必然面临着一个两难的选择,要么承认意义的凝固可以包括合成词的词义是词素意义组合的情况,要么把这一部分单位剔除出词的集合,那么所谓“词”的数量将大大减少。不管作何种选择,都很为难。而我们以意义组合原理为依据,通过一定的技术手段对词典中的语言单位重新进行分类,区分了标准的层次性,可以避免词典收录单位性质不一致的问题。
(2)可以更好地服务于未登录词以及已登录词的未登录义项的处理。
所谓未登录词,就是指没有在词典中登录的人名、地名、机构名、新词语等。其中,“人名、地名、机构名”属于专名,所以我们这里主要讨论新词新语。计算机遇到未登录词时,一般是先把它们分割成单个的汉字,因此,处理的首要目的就是把单字重新组合并确定其词性。虽然语言中的未登录词在不断增加,但是汉语中的“字”数量有限(“GB-2312”里收录的是6763个),人们就是不断使用这些已知的、有限的“字”去创造新词。因此,要解决中文信息处理中未登录词的问题,就要把单字作为基础资源,寻找它们组合为新词的规律,用以识别和理解未登录词。北大的《现代汉语语法信息词典详解》也指出:词典中把基本的词部件(语素、词、固定短语)收录进来,并辅之以对这些词部件的构词能力及其组合规则的描写,就可以让计算机运用这些知识处理新词或词典中未登录的词。 [9]除了未登录词以外,另一个是已登录词的未登录义项问题。即词典中收录有该词,但是文本中该词的意义不是词典中已经登录的意义。这一种情况也很常见,应该予以足够的重视。
把词典中的语言单位区分为原子词和组合词,描写出组合词的组合规则和意义求解过程,对未登录词的处理有很大的帮助。相反,如果不重视从组合词的内部寻找组合条件和组合规律,只是简单地直接把它们收入词表,考虑到未登录词随时随地都会产生,所以无论词表如何扩大,始终要面对未登录词的问题。显然,对组合词不作处理直接收录进词典的方法不太合理,对计算机处理未登录词也不会产生很大的帮助。
(3)在满足需要的同时减小系统开支。
自然语言中的词汇随着人们的言语实践和社会发展的需要在不断地变化更新,旧词的转义、新词的产生,这些因素使得不论机器可读词典的规模如何扩大,也终究不能覆盖真实文本中出现的全部词语。根据意义组合原理,可以考虑把机用词典分为两个部分:原子词表与组合词的组合规则。由于原子词表的数量肯定大大少于一般词表的数量,而且利用原子词表和组合规则来求解组合单位的意义,词典的规模就不会过于庞大,减少了系统开支。同时,我们还可以根据不同应用领域的需要给出组合词表,这样可以在提高效率和增加系统开支之间进行平衡,具有一定的灵活性。因此,原子词和组合词的区分显示了明显的优越性,能适用于中文信息处理的需要。
五、结语
很多人认为,汉语的语法和语义之间关系很复杂,不存在对应关系,也就是说并不遵循意义组合原理,尤其是在构词这一环节上。语素义在词义中的表现很繁杂,并且存在比喻义、借代义等比较复杂的情况,因此主张在中文信息处理过程中从“词”做起,把“词”作为固定点收在词表中,机器只处理“词”组合成短语、词或短语组合成句子的情况。
但是,从本文对《现代汉语词典》中“飞”下词条的分析可以看出,虽然不能说在所有的“词”中都存在语法和语义的对应关系,但完全可以说在大部分的词条中,语法和语义是存在对应关系的。关键在于,汉语构词过程中,语法和语义的对应途径比较隐蔽,需要通过一定的技术手段,设计出适当的语义规则,才有可能实现语法和语义的对应。
当然,原子词和组合词的区分并不是绝对的。在规则的复杂度和处理的效率之间有一个平衡的问题。我们区分原子词和组合词,是为了挖掘汉语中隐藏的语法和语义的对应关系,进一步为计算机理解各种语言单位的组合提供语言知识的支持,提高计算机处理的速度和准确率。如果一条规则计算不太复杂,并且有相当高的覆盖率和能产性,那么计算机在处理相关词条时,肯定是通过规则。但是如果语义规则计算比较复杂,而且能产性很低的话,那么从效率的角度出发,我们应该直接把相关复合词放入词表,计算机遇到这类语言单位的时候,直接查表即可。
的确,汉语中语素构词的情况很复杂,不可能穷尽说明一切情况。但是,在汉语词汇系统中,不能由组成成分的意义求解出复合词意义的原子词不多,只占一个较小的比例,大部分词语都属于组合词,可以由组成成分的意义和组合方式中求解出整个复合词的意义。因此,如果把这些特殊的原子词放到一边,对大部分组合词内部的语素组合形式进行分析和描写,寻找出其中隐藏的语法和语义的对应关系,计算机就可以根据这些对应关系,运用意义组合原理,正确处理文本中大部分的未登录词。宋春阳、王淑华的考察也证明了这种方法的可行性。古人云,授人以鱼不如授人以渔。现代社会日新月异的变化决定了新词将不断产生,所以,与其无限制地扩大机用词典的收词范围,不如教给计算机典型的构词模式和理解策略,这样才能以不变应万变,提高计算机理解未登录词的正确率,并进一步提高计算机理解短语和句子的正确率。
参考文献:
[1]吕叔湘.20世纪现代汉语语法八大家吕叔湘选集[M].长春:东北师范大学出版社,2002.132.
[2]张斌.汉语语法学[M].上海:上海教育出版社,1998.15-16.
[3]符淮青等.现代汉语专题教程[M].北京:北京大学出版社.2003.110.
[4]陈波.逻辑哲学原理[M].北京:北京大学出版社.2000.27.
[5]邹崇礼.逻辑、语言和信息——逻辑语法研究[M].北京:人民出版社.2002.27
[6]邹崇礼.逻辑、语言和信息——逻辑语法研究[M].北京:人民出版社.2002.26
[7]吴蔚天、罗建林.汉语计算语言学[M] .北京:电子工业出版社.1994.28
[8]苑春法、黄昌宁.基于语素数据库的汉语语素及构词研究[J].世界汉语教学. 1998(2).7-12
[9]俞士汶等著《现代汉语语法信息词典详解》(第二版).北京:清华大学出版社,2003.30
[10]宋春阳.面向信息处理的现代汉语“名+名”逻辑语义研究[M].上海:学林出版社.2005.
[11]王淑华.基于内涵逻辑的动名组合问题研究[D].上海师范大学博士学位论文.2005.
8
展开阅读全文