机器翻译研究现状与展望概要.doc

资源描述

机器翻译是建立在语言学、数学、信息学、计算机科学等学科基础上的多边缘学科。现代理论语言学的发展、计算机科学的进步以及概率统计学的引入 , 对机器翻译的理论和方法都产生了深刻的影响。 Weaver 机器翻译思想的提出 , 开始了机器翻译的研究热潮。 Chomsky 在 50年代后期提出的短语结构语法 , 给出了“从规则生成句子” 的原则。由于短语结构语法采用单一标记的短语结构来描述句子的构成 , 描述粒度过粗 , 因此存在约束能力弱、生成能力过强问题 , 人们逐渐意识到仅依靠单一的短语结构信息 , 不能充分判别短语类型和确认短语边界 , 于是 , 复杂特征集和词汇主义被引入自然语言语法系统 , 广义短语结构语法、词汇功能语法、中心语驱动的短语结构语法等语言学理论也相应地产生。在这个发展过程中 , 基于规则方法一直是机器翻译研究的主流。在基于规则的方法中 , 语言规则的产生需要大量的人力 , 而且大量的语言规则之间往往存在着不可避免的冲突。另外 , 规则方法在保证规则的完备性和适应性方面也存在着不足。而此时 , 统计学方法在自然语言处理的语音识别领域取得了比较好的效果 , 于是 , 基于统计的机器翻译应运而生。随着双语语料的大量增加、计算机性能的提高 , 基于实例的机器翻译方法被提出, 并由此泛化产生了基于模板的机器翻译方法。下面我们分别介绍几种典型的机器翻译方法: (1基于规则的机器翻译方法从 Chomsky 提出转换生成文法后, 基于规则的方法一直是机器翻译研究的主流, Chomsky 认为一种语言无限的句子可以由有限的规则推导出来。早期的机器翻译系统 , 从体系结构上可以分为直译式、转换式和中间语言式 , 它们的不同之处在于对源语言分析的深度 , 它们的相同点是都需要大规模的双语词典、大量的源语言推导规则、语言转换规则和目标语言生成规则。其中 , 转换式的基于规则方法对源语言分析得比较深 , 它涉及到词汇结构分析、语法分析、语义分析 , 并完成词汇、语法、语义三层结构从源语言到目标语言的转换 , 而且转换式的方法又充分考虑了源语言和目标语言之间的特征联系 , 它比中间语言方法更容易获得高质量的翻译结果。因此 , 转换式的方法更多地被应用在早期的机器翻译系统中 , 整个翻译过程被分为 , 源语言分析部分 , 转换部分和目标语生成部分。而早期的系统 , 如德国西门子的 METAL 系统、美国的 SYSTRAN 系统、日本日立公司的 ATHENE 系统以及中国中软公司的 HY-1汉英系统 , 都是基于转换的机器翻译系统。基于规则的机器翻译的优点在于 , 规则可以很准确地描述出一种语言的语法构成 , 并且可以很直观地表示出来。机器可以按照一组规则来理解它面对的自然语言 , 这组规则包含了不同语言层次的规则 , 包括用以对源语言进行描述的源语言分析规则、用以对源语言 /目标语言之间的转换规则以及用于生成目标语的生成规则。由此可见 , 基于规则的机器翻译的核心问题是构造完备的或适应性较强的规则系统。但是 , 规则库的建立需要花费大量的人力和物力 , 即使如此 , 规则的完备性仍然不能得到保证 , 规则库很难覆盖所有的语言现象。随着规则数量的增加 , 规则之间的冲突很难避免; 很难用系统化的规则分类体系、恰当的规则粒度去刻画语言特征。而且早期的规则系统采用的都是确定性规则 , 即 , 非此即彼的规则 , 系统的适应性很差。基于上述问题 , 如何自动地获取语言规则、如何更好地表示规则以及如何更好地增强系统的适应能力成为研究人员关注的焦点。随着大量语料库的产生 , 统计方法为我们提供了很好的从己有的语言资源中自动得到我们所需要的语言信息的工具。复杂特征集和合一运算的提出也使得我们能以更细的粒度、更加准确的知识表示形式来描述规则 , 而词汇化的信息也更多地来自于标注语料库。针对确定性规则降低了系统的鲁棒性的弱点 , 概率上下文无关文法川从全局最优的角度考虑 , 产生最优的翻译结果 , 为机器翻译系统的实用化奠定了基础。随着这些方法的引入 , 传统的基于规则的机器翻译方法研究逐步发展成为对以规则为基础、语料库方法为辅助的高性能机器翻译方法的研究。 (2基于统计的机器翻译方法除了在某些特定的受限领域 , 基于规则的机器翻译 , 取得了比较好的效果之外 , 在大部分的实验中 , 基于规则的机器翻译远远没有达到人们的要求。而随着语料库语言学的发展和统计学、信息论在自然语言处理领域的应用 , 人们尝试着用统计的方法进行机器翻译的研究。对于机器翻译来说 , 基于统计的方法可以从两个层面上来理解 , 一种是指某些概率统计的方法在具体的机器翻译过程中的应用 , 比如用概率统计的方法解决词性标注的问题、词义消歧的问题等; 另一种较狭义的理解是指纯粹的基于统计的机器翻译 , 翻译所需的所有知识都来源于语料库本身。 (3基于实例的机器翻译方法基于实例的机器翻译思想最早是由 Nagao 提出,其基本思想是 , 在已有的源语言实例句库中 , 待翻译句子按照类比原理匹配出最相似的实例句 , 取出实例句对应的目标语句子 , 进行适当的改造 , 最终得出待翻译句子所相应的目标语句子。整个翻译过程实际上是一个匹配过程。它的特点是不需要对源语言进行任何的分析 , 仅仅是通过类比进行翻译。从翻译过程来看 , 句子一级对齐的双语语料库是基于实例的机器翻译系统的知识源 , 在基于实例的机器翻译系统中 , 双语对齐语料库被称为翻译记忆库(Translation Memory 。对于基于实例的系统 , 首先 , 待翻译句子需要从翻译记忆库中找出最相似的源语言句子 , 一般根据词典或者语言的本体知识 (Ontology , 根据句子中词汇或者词类之间的语义距离来计算句子的相似度。基于实例的机器翻译系统的翻译质量取决于翻译记忆库的规模和覆盖率。因此如何构建大规模翻译记忆库成为基于实例的机器翻译研究的关键问题。现阶段 , 由于缺少大规模的双语对齐语料库 , 基于实例的机器翻译方法匹配率并不是很高 , 而基于实例的机器翻译如果匹配成功 , 可以获得高质量的译文 , 因此基于实例的机器翻译一般和基于规则的机器翻译结合使用。对于匹配命中率过低的问题 , 我们试着做到短语级的双语对齐 , 以提高匹配命中率 , 通过短语结构的局部匹配 , 组合相应的目标语句子框架 , 完成句子的翻译 , 这种方法进而泛化为基于模板 (Template-based 的机器翻译 , 通过大规模的双语语料 , 自动抽取翻译模板 , 翻译过程匹配模板库。这种方法增加了匹配的命中率 , 模板库规模比实例库要小 , 因此也提高了系统的效率。而模板的自动获取仍然是翻译的关键。基于实例的机器翻译方法依然面临着很多的问题 , 对于相似度计算 , 如果计算词类或者短语级的相似度 , 则需要首先对我们的翻译记忆库本身进行标注。而且很难定义一个相似度标准选出最合适的相似句 , 此外随着翻译记忆库规模的扩大 , 需要一个高速的查询匹配算法 , 同时需要在增加翻译记忆库的规模、提高匹配率的同时 , 保证翻译记忆库的冗余度。在机器翻译研究的过程中 , 各种机器翻译方法层出不穷 , 其它的还有基于模式的机器翻译、基于神经网络的机器翻译、基于对话的机器翻译、基于原则的机器翻译等等。现有的各种机器翻译方法在现阶段的机器翻译研究中被广泛采用, 它们之间已经没有严格的界限。基于规则的机器翻译方法结合语料库的方法, 大量使用统计方法获取语言信息,而基于统计的机器翻译和基于实例的机器翻译更是相互渗透 , 这两种方法统称为基于语料库的方法, 因为它们同样依靠双语语料库。基于混合策略的机器翻译方法研究根据上面对几种机器翻译方法的介绍 , 可以看出, 不同的机器翻译方法有各自的优势和局限性 , 基于规则的方法优势在于可以很准确地描述语言特征规律, 符合理性思维；而基于统计的方法可以缓解知识获取的瓶颈问题。因此如何发挥各种机器翻译方法的优势, 把各种方法有效地结合起来 , 从而改善机器翻译系统的性能 , 成为我们研究的重点。在现阶段, 把传统的基于规则的方法和基于语料库的方法相结合, 己经成为机器翻译研究的主流。在结合策略上, 一种策略是进行多引擎的机器翻译, 结合各种机器方法 , 充分发挥各种机器翻译方法的优点, 生成高质量的译文。还有一种策略是在基于规则的机器翻译方法中, 利用语料库资源 , 采用统计学和机器学习的技术解决机器翻译中的局部问题, 进而提高整体性能。在基于单一方法的机器翻译中 , 不管采用哪种方法, 总是不能取得理想的效果, 究其原因, 主要是因为各种方法固有的问题造成的, 例如基于统计的机器翻译方法采用的二元语法模型无法解决长距离依赖问题, 以及语料库的标注体系、语料库的数据稀疏等等问题, 而基于规则的方法很难覆盖所有的语言现象 , 并且在对源语言和目标语言分析生成过程中的歧义问题解决得不够理想。于是, 基于混合策略的机器翻译方法成为研究的焦点 , 基于混合策略的方法充分利用各种机器翻译方法的优势 , 避免各种方法的不足, 做到翻译结果的最优化, 从而达到提高翻译系统性能的目的。 Frederking 首先提出了多引擎的机器翻译的思想, 并且利用多引擎机器翻译的思想设计了 Pangloss Mark Ⅲ机器翻译系统, 该系统结合了基于规则的机器翻译方法、基于实例的机器翻译方法和基于词汇转换的机器翻译方法 , 主要设计思想是 , 接收输入句, 用多个翻译引擎并行翻译句子片断（短语和词）, 将每个翻译单元存储在一个 chart 中, 并根据某种评分标准给每个翻译单元打分, 最后利用动态规划算法给出最优翻译结果。合适的评分标准关系到能否选择到最佳的翻译结果,Pangloss 系统采用人工评估和启发式评估方法相结合对翻译结果进行评分, 其后 Brown 在多引擎的机器翻译系统中加入统计模型, 利用 N-gram 对候选结果进行选择,减少了 Pangloss 系统中的对翻译结果评估的人工参与，Nomoto 则用预测统计模型指导评估选择多引擎翻译结果。 Satoshi 的文章介绍了基于规则和基于实例相结合的日英机器翻译系统, 首先分析了基于规则和基于实例方法的优缺点, 提出了两种翻译方法结合的翻译方法, 其具体算法是 , 首先查找与输入句相似的源语言候选句集 , 如果句集为空, 则转向基于规则的翻译系统处理, 生成目标语；如果不为空, 则对候选句集中的句子按照和输入句的相似度进行排序,排序后按照基于词汇共现的方法聚集出目标语候选句, 然后根据源语言句集和对应的目标语句集找出最优的双语句对；最后比较输入句和最优句对中源语言句进行比较, 用规则对目标语句子进行替代、重排序等操作, 最终生成目标语。以句对做指导, 生成目标语这个阶段主要是规则指导的。在基于混合策略的机器翻译系统中, 基于规则的方法一般用于对源语言进行语言分析, 而统计和实例的方法则对语言资源进行自动获取以及如何利用语言资源处理方面起着重要的作用。根据上文对基于混合策略机器翻译系统的介绍 , 机器翻译面临着词性标注、句法分析、消歧、目标语生成、语言知识自动获取、标注语料的构造、双语语料对齐、模型参数估计、平滑数据稀疏等等问题, 对于中文, 还有分词的问题。在语言分析生成以及语言知识库构造过程中, 机器学习的技术正在被广泛运用 , 并且对机器翻译提供了巨大的帮助。统计以及机器学习的方法实质是利用统计数据和机器学习算法在知识源的指导下解决机器翻译中遇到的问题。而知识源来自各种标注语料库, 例如, 词性标注需要标注词性的语料库 , 句法分析需要句库。构建大规模的标注语料库是统计机器学习方法研究的基础。当然, 现在人们也尝试着在小规模的标注语料库的指导下 , 用某些机器学习方法解决问题, 例如 Bootstrapping、 Co-Training、 CRF 等等。

展开阅读全文