收藏 分销(赏)

机器翻译研究现状与展望概要.doc

上传人:人****来 文档编号:4617922 上传时间:2024-10-07 格式:DOC 页数:6 大小:19.51KB 下载积分:6 金币
下载 相关 举报
机器翻译研究现状与展望概要.doc_第1页
第1页 / 共6页
机器翻译研究现状与展望概要.doc_第2页
第2页 / 共6页


点击查看更多>>
资源描述
机器翻译是建立在语言学、数学、信息学、计算机科学等学科基 础上的多边缘学科。 现代理论语言学的发展、 计算机科学的进步以及 概率统计学的引入 , 对机器翻译的理论和方法都产生了深刻的影响。 Weaver 机器翻译思想的提出 , 开始了机器翻译的研究热潮。 Chomsky 在 50年代后期提出的短语结构语法 , 给出了“从规则生成 句子” 的原则。由于短语结构语法采用单一标记的短语结构来描述 句子的构成 , 描述粒度过粗 , 因此存在约束能力弱、 生成能力过强问 题 , 人们逐渐意识到仅依靠单一的短语结构信息 , 不能充分判别短 语类型和确认短语边界 , 于是 , 复杂特征集和词汇主义被引入自然 语言语法系统 , 广义短语结构语法、 词汇功能语法、 中心语驱动的短 语结构语法等语言学理论也相应地产生。 在这个发展过程中 , 基于规 则方法一直是机器翻译研究的主流。 在基于规则的方法中 , 语言规则的产生需要大量的人力 , 而且大 量的语言规则之间往往存在着不可避免的冲突。另外 , 规则方法在保 证规则的完备性和适应性方面也存在着不足。 而此时 , 统计学方法在 自然语言处理的语音识别领域取得了比较好的效果 , 于是 , 基于统 计的机器翻译应运而生。 随着双语语料的大量增加、 计算机性能的提 高 , 基于实例的机器翻译方法被提出, 并由此泛化产生了基于模板的 机器翻译方法。 下面我们分别介绍几种典型的机器翻译方法: (1基于规则的机器翻译方法 从 Chomsky 提出转换生成文法后, 基于规则的方法一直是机器翻 译研究的主流, Chomsky 认为一种语言无限的句子可以由有限的规则 推导出来。 早期的机器翻译系统 , 从体系结构上可以分为直译式、 转换式和 中间语言式 , 它们的不同之处在于对源语言分析的深度 , 它们的相 同点是都需要大规模的双语词典、 大量的源语言推导规则、 语言转换 规则和目标语言生成规则。 其中 , 转换式的基于规则方法对源语言分 析得比较深 , 它涉及到词汇结构分析、 语法分析、 语义分析 , 并完成 词汇、 语法、 语义三层结构从源语言到目标语言的转换 , 而且转换式 的方法又充分考虑了源语言和目标语言之间的特征联系 , 它比中间 语言方法更容易获得高质量的翻译结果。 因此 , 转换式的方法更多地 被应用在早期的机器翻译系统中 , 整个翻译过程被分为 , 源语言分 析部分 , 转换部分和目标语生成部分。 而早期的系统 , 如德国西门子 的 METAL 系统、美国的 SYSTRAN 系统、日本日立公司的 ATHENE 系统 以及中国中软公司的 HY-1汉英系统 , 都是基于转换的机器翻译系 统。 基于规则的机器翻译的优点在于 , 规则可以很准确地描述出一 种语言的语法构成 , 并且可以很直观地表示出来。 机器可以按照一组 规则来理解它面对的自然语言 , 这组规则包含了不同语言层次的规 则 , 包括用以对源语言进行描述的源语言分析规则、用以对源语言 /目标语言之间的转换规则以及用于生成目标语的生成规则。 由此可见 , 基于规则的机器翻译的核心问题是构造完备的或适 应性较强的规则系统。 但是 , 规则库的建立需要花费大量的人力和物 力 , 即使如此 , 规则的完备性仍然不能得到保证 , 规则库很难覆盖 所有的语言现象。随着规则数量的增加 , 规则之间的冲突很难避免; 很难用系统化的规则分类体系、 恰当的规则粒度去刻画语言特征。 而 且早期的规则系统采用的都是确定性规则 , 即 , 非此即彼的规则 , 系统的适应性很差。 基于上述问题 , 如何自动地获取语言规则、 如何更好地表示规则 以及如何更好地增强系统的适应能力成为研究人员关注的焦点。 随着 大量语料库的产生 , 统计方法为我们提供了很好的从己有的语言资 源中自动得到我们所需要的语言信息的工具。 复杂特征集和合一运算 的提出也使得我们能以更细的粒度、 更加准确的知识表示形式来描述 规则 , 而词汇化的信息也更多地来自于标注语料库。 针对确定性规则 降低了系统的鲁棒性的弱点 , 概率上下文无关文法川从全局最优的 角度考虑 , 产生最优的翻译结果 , 为机器翻译系统的实用化奠定了 基础。 随着这些方法的引入 , 传统的基于规则的机器翻译方法研究逐 步发展成为对以规则为基础、 语料库方法为辅助的高性能机器翻译方 法的研究。 (2基于统计的机器翻译方法 除了在某些特定的受限领域 , 基于规则的机器翻译 , 取得了比 较好的效果之外 , 在大部分的实验中 , 基于规则的机器翻译远远没 有达到人们的要求。 而随着语料库语言学的发展和统计学、 信息论在 自然语言处理领域的应用 , 人们尝试着用统计的方法进行机器翻译 的研究。 对于机器翻译来说 , 基于统计的方法可以从两个层面上来理 解 , 一种是指某些概率统计的方法在具体的机器翻译过程中的应用 , 比如用概率统计的方法解决词性标注的问题、 词义消歧的问题等; 另 一种较狭义的理解是指纯粹的基于统计的机器翻译 , 翻译所需的所有 知识都来源于语料库本身。 (3基于实例的机器翻译方法 基于实例的机器翻译思想最早是由 Nagao 提出,其基本思想是 , 在已有的源语言实例句库中 , 待翻译句子按照类比原理匹配出最相 似的实例句 , 取出实例句对应的目标语句子 , 进行适当的改造 , 最 终得出待翻译句子所相应的目标语句子。 整个翻译过程实际上是一个 匹配过程。 它的特点是不需要对源语言进行任何的分析 , 仅仅是通过 类比进行翻译。 从翻译过程来看 , 句子一级对齐的双语语料库是基于实例的机 器翻译系统的知识源 , 在基于实例的机器翻译系统中 , 双语对齐语料 库被称为翻译记忆库(Translation Memory 。 对于基于实例的系统 , 首先 , 待翻译句子需要从翻译记忆库中 找出最相似的源语言句子 , 一般根据词典或者语言的本体知识 (Ontology , 根据句子中词汇或者词类之间的语义距离来计算句子 的相似度。 基于实例的机器翻译系统的翻译质量取决于翻译记忆库的规模 和覆盖率。 因此如何构建大规模翻译记忆库成为基于实例的机器翻译 研究的关键问题。 现阶段 , 由于缺少大规模的双语对齐语料库 , 基于实例的机器 翻译方法匹配率并不是很高 , 而基于实例的机器翻译如果匹配成功 , 可以获得高质量的译文 , 因此基于实例的机器翻译一般和基于规则 的机器翻译结合使用。 对于匹配命中率过低的问题 , 我们试着做到短 语级的双语对齐 , 以提高匹配命中率 , 通过短语结构的局部匹配 , 组合相应的目标语句子框架 , 完成句子的翻译 , 这种方法进而泛化 为基于模板 (Template-based 的机器翻译 , 通过大规模的双语语料 , 自动抽取翻译模板 , 翻译过程匹配模板库。 这种方法增加了匹配的命 中率 , 模板库规模比实例库要小 , 因此也提高了系统的效率。 而模板 的自动获取仍然是翻译的关键。 基于实例的机器翻译方法依然面临着很多的问题 , 对于相似度 计算 , 如果计算词类或者短语级的相似度 , 则需要首先对我们的翻 译记忆库本身进行标注。 而且很难定义一个相似度标准选出最合适的 相似句 , 此外随着翻译记忆库规模的扩大 , 需要一个高速的查询匹 配算法 , 同时需要在增加翻译记忆库的规模、 提高匹配率的同时 , 保 证翻译记忆库的冗余度。 在机器翻译研究的过程中 , 各种机器翻译方法层出不穷 , 其它的 还有基于模式的机器翻译、 基于神经网络的机器翻译、 基于对话的机 器翻译、基于原则的机器翻译等等。 现有的各种机器翻译方法在现阶段的机器翻译研究中被广泛采 用, 它们之间已经没有严格的界限。 基于规则的机器翻译方法结合语 料库的方法, 大量使用统计方法获取语言信息,而基于统计的机器翻 译和基于实例的机器翻译更是相互渗透 , 这两种方法统称为基于语 料库的方法, 因为它们同样依靠双语语料库。 基于混合策略的机器翻译方法研究 根据上面对几种机器翻译方法的介绍 , 可以看出, 不同的机器 翻译方法有各自的优势和局限性 , 基于规则的方法优势在于可以很 准确地描述语言特征规律, 符合理性思维; 而基于统计的方法可以缓 解知识获取的瓶颈问题。 因此如何发挥各种机器翻译方法的优势, 把 各种方法有效地结合起来 , 从而改善机器翻译系统的性能 , 成为我 们研究的重点。 在现阶段, 把传统的基于规则的方法和基于语料库的 方法相结合, 己经成为机器翻译研究的主流。 在结合策略上, 一种策 略是进行多引擎的机器翻译, 结合各种机器方法 , 充分发挥各种机 器翻译方法的优点, 生成高质量的译文。 还有一种策略是在基于规则 的机器翻译方法中, 利用语料库资源 , 采用统计学和机器学习的技 术解决机器翻译中的局部问题, 进而提高整体性能。 在基于单一方法的机器翻译中 , 不管采用哪种方法, 总是不能 取得理想的效果, 究其原因, 主要是因为各种方法固有的问题造成 的, 例如基于统计的机器翻译方法采用的二元语法模型无法解决长 距离依赖问题, 以及语料库的标注体系、 语料库的数据稀疏等等问题, 而基于规则的方法很难覆盖所有的语言现象 , 并且在对源语言和目 标语言分析生成过程中的歧义问题解决得不够理想。 于是, 基于混合策略的机器翻译方法成为研究的焦点 , 基于混 合策略的方法充分利用各种机器翻译方法的优势 , 避免各种方法的 不足, 做到翻译结果的最优化, 从而达到提高翻译系统性能的目的。 Frederking 首先提出了多引擎的机器翻译的思想, 并且利用多 引擎机器翻译的思想设计了 Pangloss Mark Ⅲ机器翻译系统, 该系 统结合了基于规则的机器翻译方法、 基于实例的机器翻译方法和基于 词汇转换的机器翻译方法 , 主要设计思想是 , 接收输入句, 用多个 翻译引擎并行翻译句子片断(短语和词), 将每个翻译单元存储在一 个 chart 中, 并根据某种评分标准给每个翻译单元打分, 最后利用 动态规划算法给出最优翻译结果。 合适的评分标准关系到能否选择到 最佳的翻译结果,Pangloss 系统采用人工评估和启发式评估方法相结 合对翻译结果进行评分, 其后 Brown 在多引擎的机器翻译系统中加 入统计模型, 利用 N-gram 对候选结果进行选择,减少了 Pangloss 系 统中的对翻译结果评估的人工参与,Nomoto 则用预测统计模型指导 评估选择多引擎翻译结果。 Satoshi 的文章介绍了基于规则和基于实例相结合的日英机器翻 译系统, 首先分析了基于规则和基于实例方法的优缺点, 提出了两 种翻译方法结合的翻译方法, 其具体算法是 , 首先查找与输入句相 似的源语言候选句集 , 如果句集为空, 则转向基于规则的翻译系统 处理, 生成目标语; 如果不为空, 则对候选句集中的句子按照和输入 句的相似度进行排序,排序后按照基于词汇共现的方法聚集出目标语 候选句, 然后根据源语言句集和对应的目标语句集找出最优的双语 句对; 最后比较输入句和最优句对中源语言句进行比较, 用规则对目 标语句子进行替代、 重排序等操作, 最终生成目标语。 以句对做指导, 生成目标语这个阶段主要是规则指导的。 在基于混合策略的机器翻译系统中, 基于规则的方法一般用于 对源语言进行语言分析, 而统计和实例的方法则对语言资源进行自 动获取以及如何利用语言资源处理方面起着重要的作用。 根据上文对基于混合策略机器翻译系统的介绍 , 机器翻译面临 着词性标注、句法分析、消歧、目标语生成、语言知识自动获取、标 注语料的构造、双语语料对齐、模型参数估计、平滑数据稀疏等等问 题, 对于中文, 还有分词的问题。 在语言分析生成以及语言知识库构 造过程中, 机器学习的技术正在被广泛运用 , 并且对机器翻译提供 了巨大的帮助。 统计以及机器学习的方法实质是利用统计数据和机器学习算法 在知识源的指导下解决机器翻译中遇到的问题。 而知识源来自各种标 注语料库, 例如, 词性标注需要标注词性的语料库 , 句法分析需要 句库。构建大规模的标注语料库是统计机器学习方法研究的基础。当 然, 现在人们也尝试着在小规模的标注语料库的指导下 , 用某些机 器学习方法解决问题, 例如 Bootstrapping、 Co-Training、 CRF 等等。
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服