从语料库中挖掘知识-北语.doc

资源描述

语言信息处理与汉语知识研讨会，2010/5/29-30，北京语言大学从语料库中挖掘知识 Mining Knowledge from Corpus 冯志伟提要：本文主要介绍中国传媒大学依存树库研究团队从依存树库中获取语言学知识的一些工作，如，汉语名词语法功能的研究，20种语言中心词居前与中心词居后的分布研究，汉语复杂网络的研究。这些工作都是在汉语依存树库的基础上进行的。本文也简要地介绍了国外从语料库中获取非语言学知识的研究。 20世纪90年代以前，从事计算语言学系统开发的绝大多数学者，都把自己的目的局限于某个十分狭窄的专业领域之中，他们采用的主流技术是基于规则的句法-语义分析，尽管这些应用系统在某些受限的“子语言”（sub-language）中也曾经获得一定程度的成功，但是，要想进一步扩大这些系统的覆盖面，用它们来处理大规模的真实文本，仍然有很大的困难。因为从自然语言系统所需要装备的语言知识来看，其数量之浩大和颗粒度之精细，都是以往的任何系统所远远不及的。而且，随着系统拥有的知识在数量上和程度上发生的巨大变化，系统在如何获取、表示和管理知识等基本问题上，不得不另辟蹊径。这样，就提出了大规模真实文本的自动处理问题。1990年8月在芬兰赫尔辛基举行的第13届国际计算语言学会议（即COLING'90）为会前讲座确定的主题是：“处理大规模真实文本的理论、方法和工具”，这说明，实现大规模真实文本的处理将是计算语言学在今后一个相当长的时期内的战略目标。为了实现战略目标的转移，需要在理论、方法和工具等方面实行重大的革新。1992年6月在加拿大蒙特利尔举行的第四届机器翻译的理论与方法国际会议（TMI-92）上，宣布会议的主题是“机器翻译中的经验主义和理性主义的方法”。所谓“理性主义”，就是指以生成语言学为基础的方法，所谓“经验主义”，就是指以大规模语料库的分析为基础的方法。从中可以看出当前计算语言学关注的焦点。当前语料库的建设和语料库语言学的崛起，正是计算语言学战略目标转移的一个重要标志。随着人们对大规模真实文本处理的日益关注，越来越多的学者认识到，基于语料库的分析方法（即经验主义的方法）至少是对基于规则的分析方法（即理性主义的方法）的一个重要补充。因为从“大规模”和“真实”这两个因素来考察，语料库才是最理想的语言知识资源。但是，要想使语料库名符其实地成为自然语言的知识库，就有必要首先对语料库中的语料进行自动标注，使之由“生语料”变成“熟语料”，以便于人们从中提取丰富的语言知识。可以看出，计算语言学现在正在面临着一场战略转移。这场战略转移的关键是知识的获取方式和方法：从依靠“内省”方式转向依靠“语料”的方式，从基于“规则”的方法转向基于“统计”的方法。面对计算语言学的战略转移，我觉得，语言学在获取知识的方式方法也应当进行一场战略转移。与计算语言学相似，传统语言学家获取语言知识的方法基本上是通过“内省”进行，由于自然语言现象充满了例外，治学严谨的学者们提出了“例不过十不立，反例不过十不破”的原则，这样的原则貌似严格，实际上却是片面的。在成千上万的语言数据中，只是靠十个例子或十个反例就来决定规则的取舍，难道真的能够保证万无一失吗？显然是不能保证的。因此，“例不过十不立，反例不过十不破”的原则只是一个貌似严格的原则，实际上是一个很不严格的原则。现在，是抛弃这个原则的时候了。语料库是客观的、可靠的语言资源，语言学研究应当依靠这样的宝贵资源。语料库中包含着极为宝贵的语言知识，我们应当使用新的方法和工具来获取这些知识。当然，前辈语言学家数千年积累的语言知识（包括词典中的语言知识。语法书中的语言知识）也是宝贵的，但由于这些知识是通过这些语言学家们的“内省”或者“洞察力”发现的，难免带有之主观性和片面性，需要我们使用语料库来一一地加以审查。语言学的一切知识，都有必要放到语料库中来检验，决定其是正确的，还是片面的，还是错误的，甚至是荒谬的，从而决定其存在的必要性，决定其是继续存在，还是放弃其存在。我们可以预见，语言学研究战略转移的时代必将到来！一种新的基于语料库的研究方式必将代替传统的依靠“内省”的研究方式，“内省”的研究方式今后只能是基于语料库研究方式的补充，而决不能是语言学研究的主流。“从语料库挖掘知识”—这应当现代语言学的基本研究方法。自然语言处理中的战略转移，必将影响到传统的语言学，传统语言学战略转移的时刻或迟或早总会来临。从语料库可以挖掘的知识，可以是语言学的知识，也可以是非语言学的其他有用的知识。由于时间的限制，这里我们着重讲怎样从语料库挖掘语言学知识，最后，我们举一个例子说明怎样从语料库中挖掘非语言学知识。一、从语料库中获取语言学知识语言学的研究必须以语言事实作为根据，必须详尽地、大量地占有材料，才有可能在理论上得出比较可靠的结论。传统的语言材料的搜集、整理和加工完全是靠手工进行的，这是一种枯燥无味、费力费时的工作。计算机出现后，人们可以把这些工作交给计算机去作，大大地减轻了人们的劳动。后来，在这种工作中逐渐创造了一些独特的方法，提出了一些初步的理论，形成了一门新的学科 -- 语料库语言学（corpus linguistics），由于语料库是建立在计算机上的，因此，很多学者把它看成是自然语言处理的一个分支学科。语料库究竟有什么用处。中国传媒大学依存树库研究团队（包括硕士生、博士生和部分青年教师）近年来在从语料库中获取语言学知识方面做了一些初步的探索。这里，我们只举例说明。如果我们有关于副词“多半”用法如下的例句： 1. 游览北京名胜古迹的多半是外地人。（表示“大部分”） 2. 过了立秋，天气多半会变得凉爽起来。（表示“通常”） 3. 他们多半会同意的，你不用着急。（表示“很有可能”）仔细观察，发现句子3有歧义。除了表示“很有可能”之外，还可以表示“他们”中的“大部分”。也就是说，“多半”的语义指向可以向后指向“同意”，还可以向前指向“他们”。最近，我的博士生高松带着这样的问题，对北大语料库提供的500条语料进行分析，得出了如下的统计结果：条目数比例切分错误 22 4.4% 无歧义 329 65.8% 有歧义 149 29.8% 合计 500 100% 发现如果不分词，会产生如下的切分错误句子： 4. 我差不多半年都没去书店了。其实句子4中根本没有“多半”这个单词。在有歧义的149条中，歧义格式可以分为两类： -- 名词、名词性短语 + 多半 + 动词 5. 考到外地大学生又多半不想回来。 -- 人称代词 + 多半 + 动词 6. 她们多半是妙龄女子。进一步分析发现，出现歧义的条件是：句子的主语必须是群体性的名词、名词词组或者人称代词。句子3之所以有歧义，就是因为主语“他们”是表示群体的人称代词。这样就解释了句子3出现歧义的原因。可见，语料库是语言研究的有力工具，值得我们注意。我们从语料库中获取知识的过程大致如下：语料库数据à带标语料库à树库à数据挖掘à结构化的数据à统计分析à知识（包括语言学知识和非语言学知识）。可以看出，树库（tree-bank）在数据挖掘中起着重要的作用。树库是在词性标注的基础上，对每个句子加注句法关系的语料库。近年来，树库作为获得句法结构的知识源和评价句法分析结果的工具，受到很多研究者的重视 (Abeillé，2003)。越来越多的研究发现：树库资源不仅可以使用在计算语言学的研究中，也可以使用在理论语言学的研究中，它是语言学研究有用的工具 (Hinrichs et al., 2005; Nivre, 2005; Hudson, 200) 。树库中含有的大量句法分布信息可为句法研究提供坚实的基础 (刘海涛，2009)。依存树库是一种用依存语法标注的语料库，通过建立词语之间的联系来描述句法的结构，以依存关系为基础。依存关系是两个词之间一种有向的、非对称的关系。它具有三个组成部分：支配词、从属词、依存关系标记。句子中的每个词都有自己的支配词，即它是受哪个词支配的，它依存于哪个词。把这种依存关系用符号标记出来，这些符号就是依存关系标记。有关依存语法理论，可参见冯志伟(1983)、Hudson (2007)、刘海涛(2009)。图1为汉语句子“这是一本书。”的依存句法结构图。图1 “这是一本书。”的依存句法结构图图1中带箭头的弧的起点为支配词，箭头指向的是从属词，弧上标记为依存关系标记。动词“是”是句子的谓语，它支配主语“这”和宾语“书”。“是”是支配词，“这”和“书”是从属词，“s”、“subj”、“obj”是依存关系标记。数词“一”作量词“本”的量词补足语，“本”是支配词，“一”是从属词，“qc”是依存关系标记。数量短语“一本”作名词“书”的定语，名词“书”支配量词“本”，“atr”是依存关系标记。我们在汉语树库中使用的标记集（最新版）如下： 1．词性标记集 ID 标记中文含义标记类别 1 np 专有名词词类标记 2 nt 时间名词词类标记 3 ns 处所名词词类标记 4 nl 方位名词词类标记 5 n 其它名词词类标记 6 vu 助动词词类标记 7 vd 趋向动词词类标记 8 vl 系动词词类标记 9 vi 不及物动词词类标记 10 vts 小句宾语词类标记 11 vtd 双宾动词词类标记 12 vtc 兼语动词词类标记 13 vt 其它及物动词词类标记 14 v 其它动词词类标记 15 pba 介词“把” 词类标记 16 pbei 介词“被” 词类标记 17 pjiang 介词“将” 词类标记 18 p 其他介词词类标记 19 cc 并列连词词类标记 20 cs 从属连词词类标记 21 ua 动（时）态助词词类标记 22 uc 比况助词词类标记 23 ur 替代助词词类标记 24 um 语气助词词类标记 25 up 介词框架助词词类标记 26 uo 其他助词词类标记 27 usde 结构助词“的” 词类标记 28 usdi 结构助词“地” 词类标记 29 usdf 结构助词“得” 词类标记 30 m 数词词类标记 31 q 量词词类标记 32 a 形容词词类标记 33 d 副词词类标记 34 r 代词词类标记 35 e 叹词词类标记 36 o 拟声词词类标记 37 zdi 字“第” 语素标记 38 zmen 字“们” 语素标记 39 bnd 句中标点标点标记 40 bjd 句末标点标点标记 2．依存关系标记集 ID 标记中文含义 1 s 谓语 2 subj 主语 3 obj 宾语 4 obj2 间接宾语 5 subobj 兼语 6 soc 兼语补语 7 pobj 介词宾语 8 fc 方位结构补语 9 comp 补语 10 dec “的”字结构补足语 11 dic “地”字结构补足语 12 dfc “得”字结构补足语 13 baobj “把”字句宾语 14 plc 名词复数 15 oc 序数补足语 16 qc 量词补足语 17 beis 被字句 18 sentobj 小句宾语 19 obja 能愿动词宾语 20 adva 状语 21 va 连动句 22 atr 定语 23 top 主题 24 coor 并列关系 25 epa 同位语 26 ma 数词结构 27 ta 时态附加语 28 esa 句末附加语 29 ina 插入语 30 cr 复句关系 31 csr 连带关系 32 auxr 助词附着关系 33 punct 标点符号树库标注实例：在这个树库的基础上，中国传媒大学依存树库研究团队进行了一系列的研究。我们将最主要的一些研究介绍如下。 1.1 高松对于汉语名词语法功能的研究中文信息处理系统在进行现代汉语自动句法分析时，需要量化的研究成果，特别是需要词的各种语法功能的量化描写。量化的信息也有助于语言的本体研究与对外汉语教学。名词是现代汉语词类中的重要成员，是三大类实词之一。语言学家们从定性的角度对名词语法功能进行了研究，得出了一些有共识的结论。博士生高松通过定量分析，统计出汉语名词的语法功能，可以验证和补充前人的研究结论，有助于对名词语法功能的认识更清晰。在对外汉语教学中，可以根据名词各语法功能出现频率的高低区分出典型、非典型功能来分阶段教学。刘海涛、冯志伟 (2007)提出了概率配价模式理论 (Probabilistic Valency Pattern Theory，简称PVP) 刘海涛，冯志伟，自然语言处理的概率配价模式理论[J]，载《语言科学》，2007年第3期。p. 32-41. 。该理论是对传统配价理论的发展，吸收了配价理论的优点，将配价理论和依存语法很好地结合起来，形成了一种较完整的自然语言分析和理解理论。他们提出该理论时，给出的汉语词类概率配价模式图是凭借着语感用粗细不同的线条表示词类结合力的大小。线条粗的，词类的结合力大；线条细的，词类的结合力小。我们从真实语料出发，构建汉语依存树库，从树库中提取汉语词类的配价模式，用精确的数据来表示词类结合力的大小，改变了原来凭借语感用线条的粗细表示结合力的大小，这是对概率配价模式理论的进一步发展。高松利用汉语依存树库，统计出名词作为支配词时，它支配从属词所形成的支配关系和和这种支配关系出现的频次；以及，名词作为从属词时，支配词支配名词所形成的名词从属关系和这种从属关系出现的频次；由此总结出汉语名词所具有的句法功能；将统计结果与前人的研究结果进行对比，验证和补充以前的研究结论；并按照汉语名词各语法功能出现频率的高低区分出名词的典型功能和非典型功能，以此来为对外汉语教学提供参考。 1959年，法国语言学家泰尼埃的《结构句法基础》一书出版。此后，他所提出的配价理论与依存语法引起了世界各国语言学界的广泛重视。在语法研究、语言教学、自然语言处理中，配价理论都得到了广泛的应用。这体现出配价理论是一种面向实用的语言学理论。刘海涛、冯志伟 (2007) 认为：配价是对词汇的一种静态描述，它是词与其他词结合的潜在能力。在词典中，词的配价有多种可能。但当词进入到具体的语境中，它与其他词结合的潜在能力得以实现，多种可能的配价变为一种，这也就形成了依存关系，依存关系是一种实现了的配价。配价是一个词的结合力，力有大小，我们可以用一个词类支配或被支配的依存关系在数量上的不同来描述力的大小，可以通过依存树库来获得精确的定量描述。这就是概率配价模式理论。它就是在描述一个词或词类的配价模式时，不仅用定性的方式来描述它可支配什么样的依存关系，可受什么样的依存关系的支配，还用定量的方式给出这些依存关系的权重或概率分布。高松的研究以概率配价模式理论为理论基础。高松研究使用的树库是中国传媒大学依存树库研究团队开发的面向有声媒体语言的汉语依存树库。选取的语料为2007年电视台和广播电台31档节目的转写文本。电视节目如“新闻联播”、“实话实说”、“鲁豫有约”、“百家讲坛”等；广播节目如“新闻和报纸摘要”、“今日论坛”、“海峡时评”、“中国之窗”等。选取的语料既包含新闻播报类又包含访谈会话类，涉及的范围和内容比较广泛。语体上，既有书面语体又有口语体。语料中共有3600个句子，98236个词次，使用软件工具进行了自动分词和词性标注，并采用依存语法对其进行了句法标注。为确保标注的一致性，对汉语的某些特殊结构，给出了统一的标注方法(高松、赵怿怡、刘海涛, 2009)。所有的标注结果都经过了人工和工具的核对校正。所用的汉语依存关系句法标注体系见Liu and Huang (2006)。在依存树库中，高松用excel电子表格统计出“从属词词性”、“支配词词性”与“依存类型”之间的关系，得到汉语名词通过哪些依存关系支配从属词，支配词通过哪些依存关系支配名词。名词支配从属词形成的依存关系，能得出名词可以带什么成分，受什么词修饰；支配词支配名词形成的依存关系，能得出名词在句中作什么成分。分析这两种依存关系能得出汉语名词具有的句法功能分布。高松实验的结果与分析 1 汉语名词的语法功能分布在依存树库中，高松首先统计了名词为支配词时，它与从属词所形成的支配关系，包括支配关系标记、这种支配关系出现的频次、每种支配关系占名词作支配词所形成的所有支配关系的比例以及在树库中的例句。见表1。表1：名词为支配词，支配从属词所形成的依存关系、依存关系出现的频次、比例和例句支配关系频次比例例句定语atr 依存关系标记基本上是根据相应英语单词缩写的，如subj是subject的缩写，表示主语; obj是object的缩写，表示宾语；adva是adverbial的缩写，表示状语。 12018 73.70% 援助巴勒斯坦国际会议昨天在巴黎结束例句中双下划线的词为支配词，单下划线的词为从属词。表2同表1。。标点符号punct punct表示标点符号，这里考虑到句法结构的完整性，所以给每个标点符号以相应的支配词。实际上，标点符号并不参与句法成分，也不体现语法功能。 3275 20.09% 如果他当选总统，普京准备出任总理。同位语epa 331 2.03% 胡锦涛总书记发表了重要讲话。并列关系coor 127 0.78% 大力推进社会主义民主政治制度化。状语adva 121 0.74% 他在电视上都谈论很学术的问题。助词附着关系auxr 111 0.68% 很多老年人都患有心脑血管等多种慢性病。复句关系cr 108 0.66% 昨天星期天，他想这该好好歇歇了。主语subj 56 0.34% 王主任家俩屋一厅。名词复数plc 50 0.31% 向为我国航天事业做出贡献的同志们致敬。句末附加语esa 37 0.23% 这是什么原因呢？量词补足语qc 33 0.20% 该项工程启动了三年多，成效显著。连带关系csr 连带关系指的是在一个复句中，从属连词和其所在分句谓词之间的关系。 31 0.19% 那里需要的不是军队，而是行政资源。插入语ina 8 0.05% 比方说，你的书的销量。 Total 16306 100% 从表1中，可以得到的结论主要有： 1) 汉语名词支配补足语可以形成的依存关系有：主语、名词复数、量词补足语。名词带各补足语的比例在名词支配从属词的比例中都很低。其中，名词带主语的比例在名词带所有补足语的比例中是最高的，占0.34%。其次是带名词复数，占0.31%。接下来是带量词补足语，占0.20%。 2) 汉语名词支配说明语可以形成的依存关系有：定语、同位语、并列结构、状语等。其中，名词带定语的比例在名词带所有说明语的比例中是最高的，占73. 70%。其次是带同位语，占2.03%。然后是带状语、带助词附着成分、带复句谓语、带句末附加语、带复句连词、带插入语。 3) 语言学家们指出汉语名词能受数量短语修饰、特定条件下可受副词修饰、指人的普通名词后边可加“们”表示复数。我们统计出来的汉语名词可以带量词补足语(如“一个人”)、可以带状语(如“很学术”)、可以带名词复数(如“朋友们”)验证了这些结论。一些语言学家认为汉语名词不能受否定副词“不”修饰(胡裕树，1995；邵敬敏，2001)，而在我们的树库中有“不中国”、“不男人”、“不青春”、“不学术”等名词受“不”修饰的例子，所以我们认为现在有少量名词可以受“不”修饰，这些名词带有形容词的性质。 4) 由数据可以得出汉语名词作支配词时，语法功能是：受数量短语修饰、部分名词后可加“们”表复数、一定条件下可受副词修饰带状语、少量带有形容词性质的名词可受否定副词“不”修饰、可以带主语(此时名词作谓语)、可以带定语作其修饰语、带同位语、带并列结构、带助词附着成分、带复句谓语、带句末附加语、带复句连词、带插入语。 5) 从统计数据来看，汉语名词支配说明语的比例是99.15%，支配补足语的比例是0.85%。基于传统的配价理论，通常考虑汉语名词带补足语的情况很多，对带说明语的关注程度不高。本文的统计数据显示：汉语名词支配说明语的比例远高于补足语。这说明我们应当加大对汉语名词支配说明语的考察力度。汉语名词作从属词时，支配词支配名词所形成的名词从属关系，包括从属关系标记、从属关系出现的频次、每种从属关系占名词作从属词所形成的所有从属关系的比例以及在树库中的例句。见表2。表2：名词为从属词，支配词支配名词所形成的依存关系、依存关系出现的频次、比例和例句从属关系频次比例例句宾语obj 5480 33.76% 俄罗斯昨天成功试射了一枚洲际弹道导弹。主语subj 3516 21.67% 报纸指出，发达国家基本上不发展炼焦了。定语atr 2526 15.57% 建议制定科索沃问题路线图。介词宾语pobj 1212 7.47% 新政策对外资银行是个机遇。 “的”字结构补语dec 971 5.98% 机关的耗电量大约是城镇居民的10倍。方位结构补语fc 736 4.53% 国际上取消了对食用味精量限制的规定。状语adva 511 3.15% 过去，该地区劳动力出现过短缺现象。同位语epa 428 2.64% 国务院总理温家宝昨天会见了世界银行行长。兼语subobj 294 1.81% 我们要带领人民从新的历史起点出发。话题top 197 1.21% 这件事我没有听说过。谓语s 179 1.10% 这种方式呢？并列关系coor 126 0.78% 审议关于加强食品药品安全监管情况的报告。插入语ina 31 0.19% 本台消息，昨日阿尔及尔市发生爆炸袭击事件。间接宾语obj2 13 0.08% 政府给这些下岗职工支持和帮助。小句宾语sentobj 10 0.06% 您看您这么大年纪了，还继续工作呢！该例句中小句“您这么大年纪了”是谓语动词“看”的宾语。“看”要支配小句的谓词，依存关系标记为小句宾语。名词“年纪”是小句的谓词，因此由“看”来支配，作“看”的从属词。 Total 16230 100% 从表2中，可以得到的结论主要有： 1) 汉语6种主要的语法功能，即主语、谓语、宾语、定语、状语，补语，除了补语之外，其余的语法功能名词都具备。其中，名词作宾语的比例最高，占33.76%。其次是作主语，占21.67%；作定语，占15.57%；作状语，占3.15%；作谓语，占1.10%。对名词这几种主要语法功能的统计，结果与莫彭龄、单青(1985)一致。 2) 除了主要的语法功能之外，汉语名词还可以作介词宾语、“的”字补足语、方位结构补语、同位语、兼语、话题、插入语、间接宾语、小句宾语，以及与其他词形成并列结构。 3) 语言学家们提出汉语名词经常充当主语、宾语、定语，能用在介词后边构成介词短语，少数名词可作状语。我们统计出来的汉语名词可作主语、宾语、定语，可作介词宾语、可作状语，验证了这些结论。 4) 由数据得出汉语名词为从属词时，语法功能是：作宾语、作主语、作定语、作介词宾语、作“的”字补足语、作方位结构补语、作状语、作同位语、作兼语、作话题、作谓语、与其他词形成并列结构、作插入语、作间接宾语、作小句宾语。 2 汉语名词的概率配价模式刘海涛、冯志伟(2007) 认为把依存关系和词类联系到一起，可以形成现代汉语词类组合能力的模式，即汉语词类的配价模式。因为一个词类可支配的依存关系是不均衡的，某个词类可以通过若干依存关系支配其他若干类词，但这些依存关系出现的概率是不一样的，所以可以在词类的句法配价模式中引入量的概念。在树库中，可以统计词类依存关系的强度和词类结合力的大小。某种依存关系出现得多强度就大、结合力就大，出现得少强度就小、结合力就小。他们提出此类配价模式时，因为缺乏精确的统计数据，所以仅凭借着语感，用线条的粗细来表示词类结合力的大小。高松的统计可以为汉语名词的结合力提供精确的数据，用数据来来表示名词结合力的大小。汉语名词的概率配价模式图如下：图2 汉语名词的概率配价模式图由图2可见，汉语名词是结合力较强的词类，它既可以是支配词，又可以是从属词。结合力分为离心力和向心力。当结合力是离心力时，名词是支配词，图中用向外的箭头表示名词可以支配的关系，如：“美丽的家乡”中名词“家乡”是支配词，支配结构助词“的”，“美丽的”作“家乡”的定语；当结合力是向心力时，名词是从属词，图中用向内的箭头表示名词可以满足的关系，如：“他是学生。”中名词“学生”是从属词，受谓语动词“是”的支配，作“是”的宾语。依存关系后的数字是名词可支配、可满足关系的比例(%)。可以看出，我们根据树库对于汉语名词的研究，补充了前辈语言学家的结论，加深了我们对于汉语名词的认识。 1.2 刘海涛对于20种语言词序的研究刘海涛使用了20种语言的树库，对于这些语言中的中心词居前（head-initial，简称HI）与中心词居后（head-final，简称HF）的分布进行了统计分析 Liu Haitao, Dependency direction as a means of word-order typology: a method based on dependency treebanks. （依存方向作为语序类型学的指标）, Lingua， 2010年第6期，SSCI、A&HCI检索期刊。。这些树库如下： -- Prague Dependency Treebank (PDT, Czech); -- Prague Arabic Dependency Treebank (PADT); -- Slovene Dependency Treebank (SDT); -- Danish Dependency Treebank (DDT); -- Swedish Talbanken05; -- Turkish Metu-Sabanci treebank; -- German TIGER treebank; -- Japanese Verbmobil treebank; -- The Floresta sinta´ (c)tica (Portuguese); -- Dutch Alpino treebank; -- Spanish Cast3LB; -- Bulgarian BulTreeBank; -- Romanian dependency Treebank15; -- English Penn Treeban; -- CuC Chinese dependency Treebank; -- Italian Syntactic-Semantic Treebank (ISST); -- Basque Treebank; -- CESS-Cat Catalan treebank; -- Szeged Treebank (SzTB，匈牙利语树库); -- Greek Dependency Treebank (GDT). 例如，使用Japanese Verbmobil treebank，他发现日语中的HI和HF的分布如下：图3 日语的HI和HF的分布 20种语言的统计结果如下：图4 HI和HF在20种语言中的分布情况其中，使用的ISO ISO 639-2: Codes for the Representation of Names of Languages. http://www.loc.gov/standards/iso639-2/php/code_list. 的语言名称简写：Chinese (chi), Japanese (jpn), German (ger), Czech (cze), Danish (dan), Swedish (swe), Dutch (dut), Arabic (ara), Turkish (tur), Spanish (spa), Portuguese (por), Bulgarian (bul), Slovenian (slv), Italian (ita), English (eng), Romanian(rum), Basque (eus), Catalan (cat), Greek (ell), Hungarian (hun). Size表示树库中的句子数，也就是树库的规模，msl表示平均句长（mean sentence length），genre表示文体，type表示树库的标注方法，其中，D表示依存标注（Dependency），C表示成分标注（Constituent），CF表示使用成分标注和语法功能标注的混合方法；%n.p.表示非映射依存关系的比例（non-projective dependency relation），存在这种非映射依存关系的语言，句子的依存结构图中会出现交叉的弧（a crossing arc in the dependency graph of a sentence）。图5 出现非映射依存关系的交叉弧例如，英语句子“I saw a dog yesterday which was a terrier”（昨天我看到一个猎狐狗）中，yesterday会造成交叉弧。这种非映射依存关系在20中语言中的分布情况如下：图6 20种语言中非映射依存弧的百分比可以看出，在20种语言中，这种非映射依存弧最多占6%（荷兰语），最少为0%（汉语）。刘海涛根据HI和HF在20种语言中的分布情况，做出如下的统计分布图：图7 20种语言中HI和HF的分布统计图著名语言学界泰尼埃（Tesniere）在1959年曾经根据依存关系的方向，对于语言做过大致的分类，在轴线前的语言中心词居先（head-first），在轴线后的语言中心词居后（head-final）。图8 Tesniere在1959年根据依存方向对语言的分类可以看出，在刘海涛的研究中，巴斯克语（eus）是中心词居后的，而在Tesniere的研究中，巴斯克语却是中心词居前，刘海涛的工作明显地改进了Tesniere的结论。使用语料库，我们有可能对于前辈语言学家的结论进行检验，从而对这些结论作出证实或证伪。刘海涛还进一步把HI和HF分为VS和SV，VO和OV，NAdj和AdjN三种情况进行统计，结果如下：图9 VS和SV，VO和OV，NAdj和AdjN的分布其中，VS表示动词在前主语在后，SV表示主语在前动词在后；VO表示动词在前宾语在后，OV表示宾语在前动词在后，NAdj表示名词在前形容词在后，AdjN表示形容词在前名词在后。WALS表示在某种语言中占统治地位的词序。?号表示在该语言中某种词序是否在统治地位尚有争议。据此可以画出相应的统计图。图10 20种语言中SV和VS的分布图图11 20种语言中VO和OV的分布图根据上述分析，刘海涛对于20中语言进行聚类，得到如下的聚类分布图：图12 20种语言的聚类分布图使用树库对前辈语言学家的结论进行的证实和证伪，可以进一步深化我们对于语言规律的认识，说明了语料库在获取语言学知识方面具有巨大的潜力。 Greeberg在他的著作中，专门研究过30种语言的词序，提出了如下的关于词序倾向性的结论 Greenberg, Joseph.H. 1966a/1963. Some universals of grammar with particular reference to the order of meaningful elements. Universal of Language. ed. J.H. Greenberg (second edition), 73-113. Cambridge, Mass: MIT Press. 中译文“某些主要跟语序有关的语法普遍现象”（陆丙甫、陆致极译）《国外语言学》1984(2):45-60 ： 1：带有名词性主语和宾语的陈述句中，优势词序几乎总是主语处于宾语之前。 2：使用前置词的语言中，领属语几乎总是后置于中心名词，而使用后置词的语言，领属语几乎总是前置于中心名词。 3：优势词序为VSO的语言，总是使用前置词。 4：采取SOV为常规词序的语言，在远远超过随机频率的多数情况下，使用后置词。 5：如果一种语言以SOV为优势词序，并且领属语后置于核心名词，那么形容词也后置于核心名词。 6：所有以VSO为优势词序的语言，都可以把SVO作为可能的或唯一的一种替换性基本词序。 7：在以SOV为优势词序的语言中，如果没有替换词序，或仅有OSV为替换词序，那么动词所带的一切状语都处于动词之前。 Greenberg的这些有关语言词序的倾向性的结论，为“语言类型学”（language typology）的研究奠定了基础。刘海涛采用树库来研究20种语言的词序，对各种语言的词序进行了定量分析，大大地丰富并补充了Greenberg关于词序的这些结论，对于语言中词序的分布规律做出了比Greenberg更加具有说服力的说明，显示了采用语料库确实能够帮助我们从语料库中获取语言学知识。英国著名科学哲学家波普尔（Karl R. Popper，1902~1994）在为中文版《波普尔科学哲学选集》所撰写的前言中说：“人们尽可以把科学的历史看作发现理论、摒弃错了的理论并以更好的理论取而代之的历史。……我不怀疑我们有许多科学理论是真实的；我所要说的是，我们无法肯定任何一个理论是不是真理，因而我们必须作好准备，有些最为我们偏爱的理论到头来却原来并不真实。既然我们需要真理，……我们除了对理论进行理性批判以外，别无其他选择。”正是本着这样一种对于传统的语言学研究结论进行理性批判的科学精神，我们大胆地对前辈语言学家的结论证实和证伪，在语言事实的基础上进行理性的审视，提出不同的但更富于发展前景的学术意见。在语言学研究中，我们尽最大的努力避免偏颇和错误。波普尔在他的同一篇前言中还说：“科学是可以犯错误的，因为我们都是人，而人是会犯错误的。因而错误是可以得到原谅的。只是不去尽最大的努力避免错误，才是不可原谅的。但即使犯可以避免的错误，也是可以原谅的。” 波普尔著，纪树立编译：《波普尔科学哲学选集》，生活·读书·新知三联书店（北京）, 1987年出版。最重要是语言的客观事实，只有面对客观事实，才能使我们避免前辈语言学根据内省的研究方法做出的可能有片面性的

展开阅读全文