资源描述
英汉翻译模板的标准化方案及其应用北京市自然科学基金资助项目(No. 4052005)、北京市教委科技发展项目(No. Km200310005013)
第1作者信息:李玉鑑,男,1968年生,博士,副教授,主要研究方向为自然语言处理、模式识别、生物信息学
李玉鑑
北京工业大学,计算学机学院,多媒体与智能软件技术北京市重点实验室,北京100022
E-mail: liyujian@
摘要:在机器翻译系统中,模板可以作为一种知识表示的方法,其规模的大小和组织的策略将极大地影响系统的整体性能。本文对英汉翻译模板的标准化问题进行了探讨,提出了一个初步方案,并将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模模板库的基础上开发高质量的英汉翻译系统提供了可能性。在2005年举行的863评测中,本文开发的英汉翻译系统达到的水平:对话翻译人工评测忠实度和流利度分别为73.62和68.16篇章翻译人工评测忠实度和流利度分别为41.16和31.45。
关键词:机器翻译;翻译模板;标准化
中图分类号:T391.2
A Standardization Strategy of English-Chinese Translation Templates and Its Applications
Li Yujian
College of Computer Science and Technology, Beijing University of Technology, Beijing 100022, China
Beijing Municipal Key Laboratory for Multimedia and Intelligent Software Technology
E-mail: liyujian@
Abstract: In machine translation systems, templates can be used as a knowledge representation method, their scale and organization will greatly influence the whole system’s performance. This paper studies the standardization problem of English-Chinese translation templates and presents an initial strategy for it. By applying it to design and implement a somewhat successful English-Chinese translation system, we show that the strategy is useful and practicable, and it provides possibilities to develop high-quality English-Chinese translation systems based on a large scale of template library. In the “863” evaluation of 2005, the English-Chinese translation system of this paper reaches scores of 73.62 Adeq and 68.16 Fleu for “dialog test” as well as 41.16 Adeq and 31.45 Fleu for “article test”.
Keywords: machine translation, translation template, standardization
1. 引言
现有的机器翻译方法主要分为基于规则[1-4]、基于统计[5-11]和基于例子[12-14]这三种。但是由于自然语言的极端复杂性,目前还没有一种分析策略能够彻底解决机器翻译系统所涉及的各种难题。为了综合利用这三种方法的优点,同时克服各自所存在的问题,一种常用办法是把多种翻译策略有机地集成在一起,以实现各种策略之间的优势互补,改善系统的性能[15-17]。
在机器翻译的研究中,除了综合集成多种策略外,另一种重要方法是加大处理粒度[18],其基本思想是利用单义的语块(Chunk)代替多义的单词,并给以中心词的标注,目的是为了简化处理的句型,化解机器翻译的歧义问题。基于语块的方法是近年来在自然语言领域兴起的一条新思路[19],目前关于单语语块的研究已经取得大量成果[21-24]。
一个可以代替Chunk进行机器翻译的概念是模板(Template)。简单的说,模板可以看作是一个带有变量的Chunk,而Chunk则可以看作一种不带变量的模板。用模板代替Chunk,可以使很多Chunk合并成一个模板,因此模板在语料库中出现的频率要比作为其特例的Chunk大。所以,为了刻划一个语料库中的语言现象,所需要的模板数量将远远少于所需要的Chunk数量,虽然一个模板具有的歧义可能要比一个Chunk的歧义多,但是常常可以消解模板中单个词的多种歧义。本文讨论了模板的定义,对英汉翻译模板的标准化问题进行了探讨,同时提出了一个初步方案,并通过结合句法分析技术和模板匹配替换通用算法将其应用于英汉翻译系统的设计与实现中,取得了初步的成功,验证了该方案的可行性,从而为在大规模英汉翻译模板库的基础上开发高质量的英汉翻译系统提供了可能性。
2. 模板的定义和说明
在各种自然语言中都存在许多被反复使用的模板结构,抽象地说,模板可以看作具有一定稳定性的语言认知结构。每个模板结构通常由若干常项和变项所组成,比如,英文词组“give sth. to sb.”就是一种模板结构,单词“give”和“to”是常项,“sth.”和“sb.”是变项。当一个模板中的所有变项被其所能取到的常项值替代时所得到的单词序列称为该模板的一个实例。例如,“give the book to me”就是“give sth. to sb.”的一个实例。为了概念的统一起见,本文也把某些不带变项的特殊词组或句子称为模板。从形式语言学的角度看,模板中的常项就是终结符,模板中的变项就是非终结符。
一个源语言模板(ST, Source Template)常常在另一种语言中存在着对应的目标语言模板(TT, Target Template),源语言模板和目标语言模板构成的有序对“ST®TT”通常称为翻译模板。在传统的翻译模板概念中,通常要求一个源语言模板只能有一个目标语言模板,而且源语言模板的非终结符和目标语言模板的非终结符必须一一对应,个数相等,一般也不考虑模板的类别标注问题。这里则把翻译模板定义为源语言模板及其在目标语言中所有可能目标模板的集合。因此,如果考虑模板的类别标注且在每个类别标注下只允许一个目标翻译,那么从形式化的角度看,一个翻译模板可以参照下面的标准结构进行统一描述:
Source Template ®POS tag1. Target Template 1; POS tag2. Target Template 2;……; POS tagm. Target Template m;
其中,“POS tag”表示类别标注的代码。
如果使用形式语言的术语,那么每一个源语言模板可以看作下面的结构:
(str1)
显然,每一个相对应的目标语言模板亦可以写成:
(str2)
其中在符号串(str1) 和(str2)中,有下面的约束:
(1)是从小到大排列的任意r+1个整数,是源语言中的个终结符(可能是空字符),是源语言中的r个非终结符,它们可以相同,也可以不同;
(2)是从小到大排列的任意m+1个整数,是目标语言中的个终结符(可能是空字符),是目标语言中的m个非终结符,它们可以相同,也可以不同;
(3)必须是中所出现的非终结符或者与中所出现的某个非终结符有某种确定性转换关系, m和r可能不相等。
根据上述模板的定义,一个具有两个类别标注的英汉模板例子描述如下:
comment about NP ® vi.评论 NP;n.对 NP 的评论;
其中,“NP”表示名词短语,“vi”表示不及物动词类型,“n”表示名词类型。如果不做特殊说明,下文所使用的词类标记与英语语法习惯相同。
3. 英汉翻译模板的标准化方案及其应用
由于前面关于翻译模板的定义不仅允许一个源语言模板可以有多个不同的对应目标语言模板,而且允许每个对应目标语言模板中的非终结符和源语言模板中的非终结符之间存在一对多和多对一的关系,因而比传统的模板定义能够更加合理地反映实际的自然语言现象。此外,由于人类在一生中所能学习和建立的语言认知结构是相当有限的,所以可以想象与语言认知结构相联系的模板数目也是相当有限,虽然这个数目可能达到几万,几十万,甚至几百几千万,但是对建立大规模翻译模板库来说应该是一个有限合理的数字,并不是一个遥不可及的天文数字。有了足够的模板,就可以把给定的句子分析为源语言模板的组合,然后再利用通用模板匹配替换算法进行从源语言到目标语言的翻译[25]。
然而要针对某两种语言建立起一个实际的大规模翻译模板库并非易事,制定细致可行的模板标准化方案是必不可少的步骤。下面将讨论一个建立英汉翻译模板的初步标准化方案。
首先,将英汉翻译模板根据其源语言部分分为静态模板和动态模板。静态模板是一些完全由终结符构成的词组,它们总是作为一个整体被使用,严格的说在任何上下文中都只有能具有这种固定的组合与搭配,不会因为上下文的变化而被分开成为不同的意义单元。比如:
artificial intelligence ® n.人工智能;
machine translation ® n.机器翻译;
动态模板则是指静态模板以外的任何模板, 也就是说它除了包括所有带有非终结符的模板之外,还包括那些用法随着上下文的不同有时可能被分开或者被重新组合的终结符词组。一个完全由终结符构成的动态模板例子如下:
a little ® pron.一点;
该模板之所以是动态模板,因为“a little”还可以组合成其他模板,比如:
a little ADJ ® adj.有点 ADJ;
a little while ® n.一会儿;
图1. 模板型英汉翻译系统框图
词法分析
静态模板分析
动态模板分析
句法分析
模板匹配替换分析
词典库
静态模板库
动态模板库
输入英语句子
输出翻译结果
Earley算法
显然,要从一个给定的英语句子中分析静态模板非常容易,因为静态模板在任何上下文中都可以被看作一个固定搭配的词组,所以采用简单的单词比较和匹配技术就能确定。但是,要确定英语句子使用了某个动态模板则不能简单地采用单词匹配和词性匹配的方法,通常需要使用句法分析技术才能在一般情况下得到较好的结果。目前较好的句法分析算法一般都具有较高的时间复杂度或者空间复杂度要求,如果同时启用所有的模板来进行分析,特别是在动态模板规模相当大时,就很难达到令人满意的效率。因此,对动态模板进行分类、排序和索引以便根据需要来调用就是一个必不可少的步骤。考虑到句法分析的需要,本文提出了下面的关于如何组织大规模英汉翻译模板的初步标准化方案:
(1) 定义统一的模板类型以及相应的非终结符(目前使用了70个);
(2) 将静态模板和动态模板分别存放在不同的数据库中;
(3) 根据前面两项是终结符还是非终结符的情况,将动态模板分成下面五类,分别用TT、TN、NT、NNT和NNN表示,其中“TT”表示所有第1项和第2项都是终结符(即英语中的单词)的模板,“TN”表示所有第1项终结符而第2项是非终结符的模板,“NT”表示所有第1项是非终结符而第2项是终结符的模板,“NNT”表示所有第1项和第2项是非终结符而第3项是终结符的模板,“NNN”则表示所有其它模板。
(4) 对TT类模板通过第1项和第2项排序并建立索引,对TN类模板通过第1项排序并建立索引,对NT类模板通过第2项排序并建立索引,对NNT类模板通过第3项排序并建立索引;NNN则可以不建立索引,因为这类模板的总数不大,即使全部用于进行句法分析对系统的整体效率影响也不大。
根据上述英汉翻译模板标准化方案,结合句法分析技术和作者以前提出的模板匹配替换通用算法[25],本文实现了一个模板型英汉翻译系统,目前总共大约包含38000个词条和21000个模板(包括静态模板约6400条,动态模板约14600条),全部由手工输入建立。该系统首先利用输入句子中的终结符从静态模板库和五类动态模板库中检索可能出现的模板,检索的依据是模板中的所有常量必须同时按顺序(但可能不连续)在输入句子中出现;然后利用标准的Earley算法分析句子的模板嵌套结构[26];最后通过模板匹配替换实现英语句子到汉语句子的翻译。整个模板型英汉翻译系统的框架由图1描述。在2005年举行的863评测中,该系统在开发集和测试集上目前达到的性能指标分别见表1和表2。
表1. 系统在开发集上的评测结果
测试内容
NIST
BLEU
GTM
mWER
mPER
对话翻译
8.8004
0.5217
0.8124
0.3835
0.3041
篇章翻译
9.8652
0.4757
0.8258
0.5841
0.3510
表2. 系统在测试集上的评测结果
测试内容
NIST
BLEU
GTM
mWER
mPER
Adeq
Fleu
对话翻译
6.8419
0.2913
0.7135
0.5853
0.4529
73.62
68.16
篇章翻译
6.6745
0.2281
0.6998
0.7236
0.4946
41.16
31.45
4. 结论
本文的主要贡献在于提出了一种如何组织大规模英汉翻译模板的初步标准化方案,其重要意义在于该方案不仅可以用于培训专门的模板录入人员来组建大规模的英汉翻译模板库,而且可以用于研制专用软件来大幅度提高新增模板的自动分类和管理功能。虽然由于人力物力的限制,该方案目前只是取得了初步的成功,但是考虑到作者的翻译引擎设计是与模板库完全独立的,因此如果能够结合一些模板的自动抽取算法,同时加强对大规模模板库建设的投入,那么这一方案有望对机器翻译技术的发展产生重要的影响,以大规模模板库为基础的机器翻译技术也将再创新高。
参考文献
[1] 陈肇雄,高庆狮. 智能化英汉翻译系统IMT/EC. 中国科学[J], A(2), pp.187-194, 1989.
[2] D. Arnold and L. Sadler. Theoretical Basis of MiMo. Machine Translation[J], Vol.5, No.3, pp.195-222, 1990.
[3] M.T. Rosetta. Compositional Translation[M]. Kluwer Academic Publishers, Dordrecht, The Netherlands, 1994.
[4] Koichi Takeda. Pattern-Based Context-Free Grammars for Machine Translation. Proc. of 34th ACL [C], pp. 144--151, June 1996.
[5] Peter F. Brown, J. Cocke, Stephen A. Della Pietra, Vincent J. Della Pietra, F. Jelinek, Robert L. Mercer, and P.S. Roossin. A statistical approach to machine translation. Computational Linguistics [J], 1990, 16(2): 79-85.
[6] Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, Robert L. Mercer. The Mathematics of Statistical Machine Translation: Parameter Estimation. Computational Linguistics [J], 1993, 19(2): 263-311.
[7] W.A.Gale and K.W. Church. A Program for Aligning Sentences in Bilingual Corpora. Computational Linguistics[J], Vol.19, No.1, pp.75-102, 1993.
[8] Dekai Wu. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora. Computational Linguistics[J], Vol.23, No.3, pp.377-403, 1997.
[9] H. Alshawi, S. Bangalore and S. Douglas. Automatic Acquisition of Hierarchical transduction models for machine translation. Proc. 36th Annual Conference on Computational Linguistics[C], Montreal, P.Q., Canada, August 1998, pp. 41-47.
[10] Franz Josef Och, Hermann Ney. Discriminative Training and Maximum Entropy Models for Statistical Machine Translation. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL2002) [C], Philadelphia, July 2002, pp. 295-302.
[11] 刘群. 统计机器翻译综述. 中文信息学报 [J], Vol. 17, No. 4, pp.1-12, 2003.
[12] M. Nagao. A Framework of a Mechanical Translation Between Japanese and English By Analogy Principle [A]. In: A. Elithorn and R. Banerji, editor, Artificial and Human Intelligence. (North-Holland, Amsterdam, Netherlands) (1984) 173-180.
[13] S. Sato. MBT2: a method for combining fragments of examples in example-based translation. Artificial Intelligence [J], Vol.75, pp.31-49, 1995.
[14] Harold Somers. Review Article: Example-based Machine Translation. Machine Translation [J], 14, pp.113-157, 1999.
[15] 黄河燕, 陈肇雄,宋继平. 一种人机互动的多策略机器翻译系统IHSMTS的设计与实现原理. 中文信息学报 [J], Vol. 13, No. 5, pp.43-50, 1999.
[16] 王建德, 陈肇雄, 黄河燕, 夏云庆. IHSMT中的实例优化策略. 计算机研究与发展 [J], Vol. 39, No. 3, pp. 313-317, 2002.
[17] 黄河燕, 陈肇雄, 胡曾剑. IHSMTS中实例模式获取机制的设计与实现. 计算机研究与发展 [J], Vol. 39, No. 5, pp. 588-592, 2002.
[18] 姚天顺. 第5章 自然语言处理与机器翻译 [A]. 见:《世纪之交的知识工程与知识科学》, 陆汝钤主编, 清华大学出版社, 2001.
[19] 程葳, 赵军, 徐波, 刘非凡. 一种面向汉英口语翻译的双语语块处理方法. 中文信息学报 [J], Vol. 17, No. 2, pp. 21-27, 2003.
[20] Steven Abney. Parsing by Chunks [A]. In: RobertBerwick, Steven Abney and Carol Tenny (eds.). Principle Based Paring. Kluwer Academic Publishers, 1991.
[21] S. Abney. Partial parsing via finite-state cascades. Natural Language Engineering[J], Vol.2, No.4, pp.337-344, 1996.
[22] Erik F., Tjong Kim Sang and Sabine Buchholz. Introduction to CoNLL 2000 Shared Task: Chunking [A]. In Proceedings of CoNLL 2000. Lisbon, Portugal, 2000, pp.127-132.
[23] 周强, 孙茂松, 黄昌宁. 汉语句子的组块分析体系. 计算机学报 [J], 1999, 22(11): 1158-1165.
[24] 刘芳, 赵铁军, 于浩等. 基于统计的汉语组块分析. 中文信息学报 [J], 2000, 14(6): 28-32.
[25] 李玉鉴, 钟义信. 基于通用模板匹配替换方法的英汉翻译系统. 计算机工程与应用 [J],2002,Vol.38, No.24, pp.24-27, 34.
[26] Jay Earley. An efficient context-free parsing algorithm. Communication of the ACM [J], 1970, 13(2): 94-102.
展开阅读全文