资源描述
汉语语句的类型表达
蒋严 潘海华
香港理工大学 香港城市大学
中文及双语学系 中文、翻译及语言学系
ctyjiang@ polyu.edu.hk cthpan@cityu.edu.hk
摘 要 本文介绍逻辑语义学中广为采用的以词汇类型驱动的析句方法,并将其应用于汉语语句的分析﹑表达和解释中。通过对词汇逻辑语义的赋类,可以将句法规则化解为词汇的逻辑信息,进而得出从词到句的组合过程,而语句生成的过程同时也是一个语句解释的过程。这样,句法和语义的操作同步同构,符合组合性原则。词库中的词汇信息因此需要充实,加入类型信息。类型信息也有助于降低自动分词的复杂程度,使其更经济有效。
关键词 逻辑语义学﹑类型﹑语句分析﹑语义解释
Representing Chinese Sentences with Types
Jiang Yan Pan Haihua
Department of Chinese & Bilingual Studies Department of Chinese, Translation & Linguistics
The Hong Kong Polytechnic University City University of Hong Kong
ctyjiang@hkpucc.polyu.edu.hk cthpan@cityu.edu.hk
Abstract In this paper, we introduce the familiar notion of type in logical semantics and demonstrate how type information of lexical items can be exploited to generate, analyze, and interpret Chinese sentences. The implications of this approach to computational processing of Chinese are also briefly explored.
Keywords Logical semantics, type, syntactic analysis, semantic interpretation
1 句法-语义同构
如果把句法和语义看成是两代数系统A和B,A包括造句成份(如词﹑词组和单句)和造
句的操作运算,B包括两个真值{0,1}和与句法操作相对应的﹑确定真值语义的运算,那么,对A﹑B两者的关系有着不同的看法。一种代表性的观点认为句法是自在的,句法的内容自成一体,与语义无关。句法系统A的输出是语义解释系统B的输入。句法和语义分工明确,各顾一端。但是,以蒙太格语义学为代表的逻辑语义学不承认句法的自在性,而是把语句的句法分析和语义解释看成是同构(isomorphic)的。根据这种观点,词的组合成句及其语义的模型论解释有着一一对应的关系,而且操作内容也要一致,也就是说,语义解释是从句法代数A到语义代数B的同构映像。类型论(type theory)使得这种同构映像成为可能。
2 类型论与语句生成
从逻辑的观点看,语句S的两个关键成份为谓词(predicate)和论元(argument)。较简单的语句的谓词仅含单个动词或形容词,论元NP仅由专名NN充当。从外延的角度看,专名指谓(denote)个体(individual entity,记作e),语句指谓真值(truth-value,记作t),谓词指谓个体的集合(set of entities)。如果把e和t设定为基本类型,则其它较复杂的类型都可以根据以下定义导出︰
(1) 类型论定义︰
a. e和t为基本类型
b. 如果a,b各为类型,则<a , b>为类型。
(1)中的a﹑b可以是基本类型,也可以是复杂类型。这样,谓词可以通过e和t来间接定义,表达成从e1到e2…到en到t的函项,其中e1…en为论元的数目。汉语的谓词可分别表示为(2a)—(2d)︰
(2) a. V1 / Adjp = < e, t > [一元动词 / 谓语形容词]
b. V2 = < e, < e, t >> [二元动词]
c. V3 = < e, < e, < e, t >>> [带双宾语的三元动词]
d. V S = < t, < e, t >> [带内嵌从句的动词]
根据语义的外延定义,可得其它词的类型︰
(3) a. CN = < e, t > [类名词]
b. AdjM = << e, t >, < e, t >> [修饰性形容词]
c. AdvVP = << e, t >, < e, t >> [修饰动词词组的副词]
d. AdvS = < t, t > [修饰句子的副词]
e. Neg = < t, t > [否定词]
f. Conj = < t, < t, t >> [连接词]
AdjM
g. PP = AdvVP [介词组]
AdvS
将上述类型与具体的词汇及其逻辑表达式相匹配,可以得出一些结构较为简单的语句的组合过程,如例(4)。其语句组合从谓词出发,根据词汇的类型作泛函贴合运算(functional application)[见(5)],即把具类型<a , b>的概念当作函项(function) f,把具类型a的概念当作主目(argument) a,把主目a代入函项f,将概念的组合结果写成f(a)。这样,类型驱动着词语组合成t类表达式即语句,不需要另立句法规则。
名词组NP并非全由专名充任,还有更为复杂的结构,即由限定词 (Det) 和类名词 (CN)组合而成的NP,如汉语的 “每个人”﹑“一本书”等。这种NP是广义量词(NPGQ),所指谓的是集合的集合,所以被赋予(6)中的类型,与之相应的是对限定词的赋类(7),由此又可以推出介词的类型(8)。
(4) 昨天张三很快地看了西游记。
昨天 张三 很快地 看了 西游记 [词汇]
(AdvS) (NN=NP) (AdvVP) (V2) (NN = NP) [词类]
zuotian’ zhangsan hen-kuai’ Kan’ xiyouji’ [逻辑式]
<t , t> e <<e , t>,<e , t>> <e, <e , t>> e __ [类型]
1.VP; Kan’(xiyouji’):<e,t>
看了西游记__
2.VP; hen-kuai’(Kan’(xiyouji’): <e,t>
很快地看了西游记_____
3. S; (hen-kuai’(Kan’(xiyouji’)))(zhangsan’): t
张三很快地看了西游记__________
4. S; zuotian’ [(hen-kuai’(Kan’(xiyouji’)))(zhangsan’): t
昨天张三很快地看了西游记
(5) 泛函贴合运算规则︰设f是具类型<a , b>的概念,a是具类型a的概念,则f(a)是具类型b的概念。
(6) NPGQ = <<e , t>, t> [广义量词]
(7) Det = <<e , t>, <<e , t>, t>> [限定词]
<e , <<e , t>, <e , t>>>
(8) P = <<<e , t>, t>, <<e , t>, <e , t>>> [介词]
<NN 或 NPGQ,<t , t>>
位于论元位置的NPGQ与句子的其它部份组合时,被处理成函项。由于主﹑宾语位置都可能为NPGQ所占据,所以需要让动词先与自由变项组合成t类表达式,然后通过l-抽象,弃置自由变项,再通过l-还原使NPGQ占据空缺的论元位置。这一系列的操作是在逻辑式上进行的,与之相对应的类型也同时作出变动。此时,具<<e , t>, t>类型的NPGQ为函项,而具<e , t>类的V-NP或NP-V结构则是主目,得出的结果为t类表达式。l-抽象和l-还原统称l-转换,其定义如下︰
(9) l-抽象
设F为B类表达式,F含有自由变量a且a为A类表达式,则la [F]为<A,B>类合法表达式。
(10) l–还原
设la [F]为<A,B>类合法表达式,F含有变量a,且T为A类表达式,则la[F] (T)为B类表达式。
现举一例说明︰
(11) 每个男孩爱一个女孩。
a. 每(个) = lP[lQ["x(P(x)àQ(x))]] <<e , t>, <<e , t>, t>>
b. 每(个)男孩 = lP[lQ["x(P(x)àQ(x))]] (lx[Nanhai’(x)]). <<e , t>, t>
=> lQ["x(Nanhai’(x) à Q(x))] <<e , t>, t>
c. 一(个) = lP[lQ[$x(P(x) & Q(x))]] <<e , t>, <<e , t>, t>>
d. 一(个)女孩 = lP[lQ[$x(P(x) & Q(x))]]lx[Nühai’(x)] <<e , t>, t>
=> lQ[$x(Nühai’(x) & Q(x))]] <<e , t>, t>
e. z爱w = (Ai’(w))(z). t
f. z爱 = lw[(Ai’(w))(z)]. <e , t>
g. z爱一个女孩 = lQ[$x(Nühai’(x) & Q(x))] (lw[(Ai’(w))(z)]). t
=> $x (Nühai’(x) & lw[(Ai’(w))(z)] (x). t
=> $x (Nühai’(x) & (Ai’(x))(z)). t
h. 爱一个女孩 = lz[$x(Nühai’(x) & (Ai’(x))(z))]. <e , t>
i. 每个男孩爱一个女孩 =
lQ["x(Nanhai’(x) à Q(x))](lz[$x(Nühai’(x) & (Ai’(x))(z))]). t
=>lQ["x(Nanhai’(x)à Q(x))](lz[$y(Nühai’(y) & (Ai’(y))(z))]). t
=>"x(Nanhai’(x)à lz[$y(Nühai’(y) & (Ai’(y))(z))]). t
=>"x(Nanhai’(x)à $y(Nühai’(y) & (Ai’(y))(z))). t
(11)的组合顺序令我们得出了“每个男孩”的辖域大于“一个女孩”的解释,要想得到宾语的辖域大于主语辖域的解,只需变更对自由变量充任的论元作l-抽象的次序。如果我们首先抽取(V2(y))(x)中的x,则主语NPGQ先加入命题,然后才是宾语NPGQ,这样便使宾语NPGQ取寛域了。
从以上例子可以看到,l-转换既可作用于个体变项,又可以作用于命题变项。借助l-转换,我们可以得出具有复杂类型的词汇和结构的逻辑式。除例(11)中已给出的 “每(个)”和 “一(个)”外,还有其它一些常用的逻辑式︰
(12) a. AdjM = lP[ly[Adj’(y)&P(y)]]1 詳細解釋請參見蔣嚴﹑潘海華(1998)。
b. 且 = lP[lQ[P&Q]]
c. 或者 = lP[lQ[P Ú Q]]
d. 如果 = lP[lQ[P ® Q]]
e. 当且仅当= lP[lQ[P « Q]]
运用l–转换还可以处理许多特殊的语序和结构。限于篇幅,我们在此集中讨论汉语 “的”字结构的处理。请看例(13)︰
(13) 三毛学的胜过李四学的。
(13) 中的关键在于 “的”字结构的生成。我们在此把 “的”处理成一个修饰标记词,简称
Mod,该函项与一个语言单位a相结合,得到一个类型为<b, b>的修饰结构,后者再与右边的中心语组合,得到名词性结构。所以Mod的类型就是<a,<b, b>>。由于“的”与左边的a组合后得到的是类名词的修饰语,所以b的类型应是<e, t>。而a的类型可以有多种,一种是e类名词,如“张三”等专名,这时“的”的类型就是<e,<<e, t>,<e, t>>>;另一种a是<e, t>类的形容词,如“红”,这样“的”的相应类型就是<<e, t>,<<e, t>,<e, t>>>;第三种a就是我们在(13)中要处理的成份,它是个不完整的子句,其中缺少了一个论元。我们先用自由变项填入空缺的论元的位置,从而生成完整的子句,然后再对自由变项作l-抽象,得到<e, t>类的l表达式,这时,“的”的类型取<<e, t>,<<e, t>,<e, t>>>,两者组合后得到的是具有<<e, t>,<e, t>>类型的逻辑表达式。根据上述讨论,我们在(13)中把“的”字的逻辑式表达为lP[lQ[lx[P(x)&Q(x)]]],其中P与上面讨论的a相对应,Q与“的”字结构所修饰的中心语相对应。x是满足集合P和Q的任何个体。“的”后面的中心语经常可以不出现,那样我们可以得到的结构似乎只能是lQ[lx[$P[P(x)&Q(x)]]],其类型为<<e, t>,<e, t>>。可实际上,“的”字结构不仅能作定语用,还可以作名词性结构用,其后的中心语虽不出现,却不影响理解,仿佛是承前文而省略了,可以承前补足这个空缺的中心语。为求简便,我们可以假设一个隐性的补足过程,使我们从lQ[lx[$P[P(x)&Q(x)]]]直接得到<e, t>类的lx[$Q[$P[P(x)&Q(x)]]]。但这个结果仍不是我们所需要的最终结果,因为<e, t>类结构不能作为论元使用。我们可以假设一个“个体化”过程,将某个集合所规定的性质具体化,转化成e类个体c’,后者就可以充当论元了。应用以上讨论结果,我们得到了(14)︰
(14) 学(V2)︰Xue’: <e, <e, t>> x: e
三毛(NN): sanmao’: e 学x: Xue’(x): <e, t>
三毛学x: (Xue’(x)) (sanmao’): t
ß
三毛学D: lx [(Xue’(x))(sanmao’)]: <e, t> 的: lP[lQ[lx[P(x) & Q(x)]]]:
<<e, t>, <<e, t>, <e, t>>>
(三毛学D)的:
lP[lQ[lx[P(x) & Q(x)]]] (lx [(Xue’(x))(sanmao’)])
Þ lP[lQ[lx[P(x) & Q(x)]]] (ly [(Xue’(y))(sanmao’)])
Þ lQ[lx [ly [(Xue’(y))(sanmao’)]] (x) & Q(x)]]
Þ lQ[lx[(Xue’ (x)) (sanmao’) & Q(x)]]: <<e, t>, <e, t>>
ß [隐性的补足过程]
(三毛学D)的: lx[$Q[(Xue’ (x)) (sanmao’) & Q(x)]]: <e, t>
ß [个体化过程]
(三毛学D)的: c’½$Q[(Xue’ (c’)) (sanmao’) & Q(c’)]]: e
同理可得出“李四学的”并进而得出整个句子的组合。类型论对汉语的应用尚有许多工作可做,特别是对汉语的特殊结构和特殊句型的分析,如“把”字句﹑“被”字句﹑动补结构﹑存现句﹑兼语句﹑连谓句和主谓谓语句等等。
3 语义解释
在类型驱动的语句分析过程中,语义解释也同步进行。与之相关的类型解释规则如下︰
(15) 设有算子f和主目a,如f的类型为<a, b>且a的类型为a,
则【f(a)】M =【f】M(【a】M)。
其中的关键在于与泛函贴合运算相对应的特征函项(characteristic function)验证法。前者作用于语句生成,后者作用于模型语义解释。谓词的指谓可以被看作是一种函项,fS(a) ={0, 1}。其中a是模型的论域A中的成员,S是某些特定个体的集合,{0, 1}是值域,是真值的集合。A中的成员有的是S的成员,有的不是,即S是A的子集。fS的作用是对A中的个体作筛选。凡属于S的个体做主目a,fS就把它映像到1,也就是肯定aÎS。凡属A但不属S的个体(也就是凡S的补集中的个体)做主目a,fS就把它映像到0,也是否定aÎS,即肯定aÏS。这种映像到值域{0, 1}的函项称作特征函项。每个个体的集合S都与一个特征函项fS相对应,具体定义如下︰
(16) 对所有aÎA而言,如aÎS,则fS(a) =1,否则为0。
所有的复杂类型的解释都可以分阶段地化解成特征函项,如(17)所示,这样,就得到了词语组合与语义解释的同构效果。
(17)
Den
De1
Dt
De2
[D表指谓。]
4 几点说明
以上我们简略地介绍了以类型论为基础的语句生成和分析方法。限于篇幅,许多相关问
题无法详释,在此作些补充说明。
首先要说明的是类型与范畴的关系。根据语义类型来生成语句,尚欠一项重要信息,就是对句子成份的位置的规定。比如一个二元动词要求从右边先与宾语合并,然后再与左边的主语合并。解决的办法是引入范畴语法在语义类型的基础上设计的语形范畴(category)以及一系列对范畴的操作运算规则。2 詳見Carpenter(1998)和Wood(1993)。
范畴的基础是类型,但又相对独立。不同范畴可对应于相同的类型。句法的演算就可以在语形上进行,而不必在语汇的指谓内容上操作。这样,词汇的信息至少要包括五个方面︰书写形式﹑语音内容﹑逻辑表达式﹑语形范畴和语义类型。
其次要说明的是类型的设计问题。本文所介绍的类型论仅仅是现有的类型论的一种。如果对基本类型的设置不同,那么相应的复杂类型也必然有异。另外,在同一个类型理论中,类型之间可以作有限度的转换,比如具有e类型的NN和具<<e, t>, t>类型的NPGQ就可以互相转换。3 請參見蔣嚴﹑潘海華(1998)。
最后,本文对类型的讨论仅局限于外延类型,未涉及内涵类型。外延类型与内涵类型之间也可作有限的转换。4 同上。
5 类型信息与自动语句分析
词汇的类型信息为自动分词提供了较经济有效的辅助手段。就歧义切分字段而言,如果
句子的所有可能形式解都带有其赋类信息,则可看出不少切分是无法做泛函贴合运算的,也无法得出t类语句,因此可以迅即排除。现举一例说明之︰
(18) 张三有机会成功。
该句至少有两种切分可能,即(19)和(20)。前者无法得到t类表达式,惟有后者才能得到t。
(19) 张三ï 有机 ï 会 ï成功
NN AdjM VM(情态动词) V1
e <<e, t>,<e, t>> <<e, t>,<e, t>> <e, t>
<e, t> VP
?
由于不能修饰,所以推导无法进行下去。如果加入了范畴就会更加明显。因为虽然“有机”的类型为<<e, t>,<e, t>>,但它的范畴不是IAV(IV/IV)即修饰VP的副词,所以无法与具有范畴IV的“会成功”合并。
(20) 张三ï 有 ï 机会 ï成功
NN V3 CN V1
e <<e, t>,<<e, t>, <e, t>>> <e, t> <e, t>
<<e, t>, <e, t>>
<e, t>
t
当然,“有机”也可以作方式副词(manner adverb)用,这时它便可以修饰动词组,最后得到t类表达式。但“会”作为情态动词,其语义域应大于方式副词,所以“会成功”不能被“有机”修饰,这可以在语义解释上加以排除,而无须在分词阶段考虑。
此外,对词汇的赋类结果也要求我们重新评估词类的划分标准,以期建立更精密的词库。这又是一个专门的研究课题。
参考文献
[1] Carpenter B. Type-Logical Semantics. Massachusetts: The MIT Press, 1998
[2] Wood M. Categorial Grammars. London: Routledge, 1993
[3] 蒋严,潘海华。形式语义学导论。北京︰中国社会科学出版社,1998
作者简介
蒋严 男,1984年获复旦大学英美语言文学学士学位,1987年获复旦大学现代英语语言学硕士学位。1986至1989年在复旦大学外文系任教。1995年获伦敦大学哲学博士学位,1993年秋至今在香港理工大学中文及双语学系任教,研究专项为语义学和语用学。
潘海华 男,1983年获华中理工大学计算器学士学位,1986获武汉大学语息处理硕士学位。1986至1988年在华中理工大学语言研究所任教。1995年获美国德州大学奥斯汀分校哲学博士学位。1995年上半年在香港中文大学系统工程与管理工程系从 事博士后研究。1995年下半年至今在香港城市大学中文﹑翻译及语言学系任教,研究专项包括句法理论﹑语义学﹑计算语言学﹑机器翻译等。
8
展开阅读全文