1、人工智能Artificial Intelligence第八章自然语言处理 Natural Language Processing就中困科学浣计算技术研究所2020-5-24谢谢阅读1内容提要8.1 概述8.2 词法分析8.3 句法分析8.4 语义分析8.5 语用分析8.6 语料库8.7 信息检索8.8 机器翻译8.9 自动问答系统8.10小结2020-5-24谢谢阅读2概述自然语言处理是用机器处理人类语言的理论和技术。作为语言 信息处理技术的一个高层次的重要研究方向,一直是人工智能 领域的核心课题。由于自然语言的多义性、上下文有关性、模 糊性、非系统性和环境密切相关性、涉及的知识面广等原因,自
2、然语言处理是困难问题之一。自然语言处理的研究希望机器 能够执行人类所期望的某些语言功能,这些功能包括:(1)回答问题:计算机能正确地回答用自然语言输入的有关问 题;(2)文摘生成:机器能产生输入文本的摘要;(3)释义:机器能用不同的词语和句型来复述输入的自然语言 信息;(4)翻译:机器能把一种语言翻译成另外一种语言。2020-5-24谢谢阅读3概述自然语言-自然语言:人类交流的语言,口语、书面语、手语、旗语等-人造语言:机器语言,包括C+,BASIC等世界语-到目前为止的人类知识有80%以上使用自然语言文字记载下来 的。但将来,可能用计算机语言形式记载的知识将会越来越 多。因此说,语言信息处理
3、技术和每年所处理的信息总量已 成为衡量一个国家现代化水平的重要标志之一。-相比较人工智能其它领域,自然语言理解是难度大,进展小 勺。至今为止未能达到很高的水平。-2020-5-24-谢谢阅读 4自然语言处理的发展自然语言理解的研究大体上经历了三个 时期-萌芽时期-发展时期 早期:20世纪60年代以关键词匹配为主流 中期:20世纪70年代以句法-语义分析为主流 近期:20世纪80年代以来走向实用化和工程化-大规模真实文本处理时期比较成功的系统处理都是受限的自然语言子集-句法受限:句子结构的复杂性方面受到限制-语义受限/领域受限:所表达的事物的数量方面受 至邯艮制2020-5-24谢谢阅读5自然语
4、言处理的发展 20世纪60年代:以关键词匹配为主流特点:-没有真正意义上的语法分析,主要依靠关键词匹配 技术来识别输入句子的意义-在系统中事先存放了大量包含某些关键词的模式,每个模式与一个或多个解释(响应式)相对应。一每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功,系统就输出相应的解释,不考虑其 他成分对句子意义的影响一是一种近似匹配技术,输入句子可以不准循语法,但是也容易导致错误2020-5-24谢谢阅读6自然语言处理的发展20世纪70年代:句法语义分析为主流采用句法-语义分析技术典型例子 LUNAR-允许用普通英语和数据库对话的人机接口2020-5-24谢谢阅读7自然语言处理的发
5、展20世纪80年代以来:实用化和工程化 主要特点是开始走向实用化和工程化。其重要标志之 一是有一批商品化的自然语言人机接口系统和机器翻 译系统推向了市场。另一方面,人们已经开始对大规模真实文本进行理解 句法-语义分析为主的思想来自于规则的方法,而规 则不可能把所有的知识表示出来-自然语言在数量上浩瀚无际-在性质上具有不确定性和模糊性。2020-5-24谢谢阅读8概述自然语言的层次划分及对应技术理论层次结构实现技术模板n配、基于规则播音模式a和基于词素、词汇词汇词典结构转换生成、词汇功能语法语盅犷展带移网络(ATN),CF 规则格语法、语义基无理论、模型理 论语义产生大规则、概念 相依理论、脚本
6、、柩 缥、语义网络、选辑基于记忆的推理、语言行为理在、篇幸播法语用2020-5-24谢谢阅读9自然语言处理层次2020-5-24谢谢阅读10内容提要8.1 概述8.2 词法分析8.3 句法分析8.4 语义分析8.5 语用分析8.6 语料库8.7 信息检索8.8 机器翻译8.9 自动问答系统8.10小结2020-5-24 谢谢阅读 11词法分析词法分析是理解单词的基础,其主要目的是从句子 中切分出单词,找出词汇的各个词素,从中获得单 词的语言学信息并确定单词的词义例如unchangeab 1 e是由un-change-ab 1 e构成的,其 词义由这三个部分构成。2020-5-24谢谢阅读12词
7、法分析语言构成2020-5-24谢谢阅读13词法分析在英语等语言中,因为单词之间是以空格自然分开的,切分一个 单词很容易,所以找出句子的一个个词汇就很方便。但是由于英 语单词有词性、数、时态、派生、变形等变化,要找出各个词素 就复杂的多,需要对词尾或词头进行分析。如importable,它可 im-port-abIimport-abIe,这是因为im、port、able这 三个都是词素。汉语中的每个字就是一个词素,所以要找出各个词素是相当容易 的,但要切分出各个词就非常困难,不仅需要构词的知识,还需 要解决可能遇到的切分歧义。如“我们研究所有东西”。可以是“我们一研究所一有东西”,也可以是“我
8、们一研究一所有一东 西”。2020-5-24谢谢阅读14内容提要 1概述8.2 词法分析8.3 句法分析8.4 语义分析8.5 语用分析8.6 语料库8.7 信息检索8.8 机器翻译8.9 问答系统8.10小结2020-5-24 谢谢阅读 15句法分析句法分析的主要任务:-确定输入句子的结构:识别句子的各个成分及其之间 的关系一句子结构的规范化:目的是简化后续处理分析自然语言的方法主要分为两类:基于规则的方法:如短语结构语法和Chomsky语法体系基于统计的方法2020-5-24谢谢阅读16短语结构语言定义-句子:一个符号串-语言:句子的集合-语法:对一个句集一种有限的形式化描述描述一般语言的
9、方法:-识别器:由程序判断读入的符号串是不是一个句子-短语结构语法:一种基于产生式的形式化工具,也 称为产生式语法2020-5-24谢谢阅读17短语结构语言定义:短语结构语法定义为:G=(T,N,S,P)-丁是终结符集合,即被定义的语言的所有词汇(或符号)-N是非终结符集合,这些符号用于描述语法成分,并不出现 于句子中。则有:V=TuN,TcN=(空集),V是属于该语法的全部符 号。-S是起始符号,它是N中的一个成员。-P是一个产生式规则集。a-b(awb,aeV+,bwV*)2020-5-24谢谢阅读18 短语结构语言 在短语结构语法中,基本运算是把一个符号串重写为 另一个符号串,每条语法规
10、则也叫重写规则一个句子的产生就是从S符号到词汇串的推导过程 如果一个程序能够根据一个短语结构语法来确定一个 句子的推导,则它可称为一个句法分析器(parser)。语法G所定义的语言记为L(G):L(G)=ff|ffeT*,S=*gW2020-5-24谢谢阅读19 短语结构语言 刻画语言的形式体系的强和弱 递归可枚举语言:如果有一个程序,它能以某种顺序 逐个地输出(即枚举)一种语言的句子,这种语言是 递归可枚举的 递归语言:如果有一个程序,它在读入一个符号串后 能最终确定这个串是或不是某种语言的一个句子,这 称该语言是递归2020-5-24谢谢阅读20短语结构语言正则语法:-正则语法有两种形式:
11、左线性语法:如力f a|Ba 右线性语法:如力f a|aB一可以表示如下的句子:a*b*-语法例子:S f a|511as 吊b|b 6-与有限状态机等价2020-5-24 谢谢阅读 21短语结构语言上下文无关语法:-语法规则形式为:力-X即左边为一非终结符,右边没有限制-可以表示的句子如:-语法例子:S f a|S b S-该文法应用于程序设计语言中2020-5-24谢谢阅读22短语结构语言上下文有关语法:-语法规则:规则右边的符号数不能少于左边符号数 右边的符号可以是终止符也可以是非终止符-上下文有关语言是递归的-可以表示的语言:abc77-语法例子:AB BA2020-5-24谢谢阅读2
12、3短语结构语言无约束短语结构语法:一语法规则是没有限制的:左边可以是任意多个终止符或非终止符右边可以是任意多个终止符或非终止符-该语言是递归可枚举的-该语言与图灵机等价一语法例子:A B C2020-5-24谢谢阅读24Chomsky 体系无约束语法 上下文有关语法 上下文无关语法 正则语法2020-5-24谢谢阅读25CFG的分析算法用一个短语结构语法对一个句子进行语法分析,意味 着寻找一个从起始符到该句子的推导,这个推导一般 可以表示为一棵句法树一般一棵句法树对应的推导不是唯一的,但是如果在 推导过程中每次总是重写最左边的非终止符,则称该 推导为最左推导。nMary nMary nMary
13、 eats nMary eats cheese2020-5-24谢谢阅读26CFG的分析算法:=:=John|Marry:=:=eats|drinks:=wine|cheeseSENTENCEVERBPHRASESUBJECTVERBOBJECTMaryeatscheese2020-5-24谢谢阅读27CFG的分析算法句法分析器分为:-从推导方向来分:自顶向下:从树顶的根结点开始推导建立句法树,方向是从起始符S到句子 自底向上:从树底部的叶结点(词或词类)规约,建立句法树,方向是从句子到S一从算法上分:回溯算法:每次只尝试一种推导,当这种推导失 败时便返回以尝试另一种推导 并行算法:同时进行所
14、有的推导2020-5-24谢谢阅读28CFG的分析算法自顶向下的回溯算法-该方法逐个地枚举推导直到找到一个能生成句子的 推导-一般,对具有左递归的语法,该方法需要增加某些 测试以避免陷入死循环-对于“Mary eats cheese”的句法和推导为:SfNP+VP(1)NP f N(2)VP fV(3)VPfV+NP(4)SnNP+VP(1)nN+VP(2)nN+V+NP(4)nN+V+N(2)2020-5-24谢谢阅读29转移网络转移网络在自动机理论中用来表示语法。句法分析中的转移网络由结点和带有标记的弧组成,结点表示状态,弧对应于符号,基于该符号,可以实 现从一个给定的状态转移到另一个状态
15、。句图16.2(a)S3NP+VP的转移网络NP:NNP9ART+N和NP9N的转移网络2020-5-24谢谢阅读30Dog bites5.read dog from input2020-5-24谢谢阅读31转移网络扩充转移网络atn ATN是20世纪70年代由W.Woods提出来的 ATN语法属于一种增强型的上下文无关语法,即用上下文无关文法 描述句子文法结构,并同时提供有效的方式将各种理解语句所需 要的知识加到分析系统中,以增强分析功能,从而使得应用ATN的 句法分析程序具有分析上下文有关语言的能力。ATN主要是对转移网络中的弧附加了过程而得到的。当通过一个弧 的时候,附加在该弧上的过程就
16、会被执行。这些过程的主要功能 是(D对文法特征进行赋值;(H)检查数(number)或人称(第 一、二或三人称)条件是否满足,并据此允许或不允许转移。2020-5-24谢谢阅读32转移网络表小句子的框架SentenceNoun phraseVerb phraseNoun phrase:Determiner:Verb:Verb phrase:Noun:Number:Number:Object:2020-5-24谢谢阅读33转移网络表小句子的框架WordDefinitionWordDefinitionaPART_OF_SPEECH:articlelikePART_OF_SPEECH:verbROO
17、T:aROOT:likeNUMBER:singularNUMBER:pluralbitePART_OF_SPEECH:verblikesPART_OF_SPEECH:verbROOT:biteROOT:likeNUMBER:pluralNUMBER:singularbitesPART_OF_SPEECH:verbmanPART_OF_SPEECH:nounROOT:biteROOT:manNUMBER:singularNUMBER:singulardogPART_OF_SPEECH:nounmenPART_OF_SPEECH:nounROOT:dogROOT:manNUMBER:singula
18、rNUMBER:pluraldogsPART_OF_SPEECH:nounthePART_OF_SPEECH:articleROOT:dogROOT:theNUMBER:pluralNUMBER:plural or singular2020-5-24谢谢阅读34转移网络表示句子的框架sentence:noun_phrase:3function sentence-1;beginNOUN_PHRASE:=structure returned by noun phrase network;SENTENCE.SUBJECT:=NOUN_PHRASE;end.function sentence-2;be
19、ginVERB_PHRASE:=structure returned by verb_phrase network;if NOUN_PHRASE.NUMBER=VERB_PHRASE.NUMBER then beginSENTENCE.VERB_PHRASE:=VERB_PHRASE;return SENTENCE end else fail end.function noun_phrase-1;beginARTICLE:=definition frame for next word of input;if ARTICLE.PART_OF_SPEECH=articlethen NOUN_PHR
20、ASE.DETERMINER:=ARTICLE else failend.function noun_phrase-2;beginNOUN:=definition frame for next word of input;if NOUN.PART_OF_SPEECH=ncwn andNOUN.NUMBER agrees withNOUN_PHRASE.DETERMINER.NUMBER then beginNOUN PHRASE.NOUN:=NOUN;NOUN_PHRASE.NUMBER:=NOUN.NUMBER return NOUN_PHRZkSE erd else fail end.20
21、20-5-24谢谢阅读35非确定性算法与确定性算法 上面介绍的算法是非确定性的,分析过程中常常要进行 回溯。这就降低了算法的效率。实际上,在特定的上下文中,除了某些固有的歧义外,自然语言的句法分析绝大多数都是确定的。1977年MIT的Marcus提出了句法分析的确定性算法。该算法的最大特点是确保在任何情况下,一旦一个输入 句子的部分结构被分析出来,便不再更改,一直保持到 最后成为句子最终分析的一部分。2020-5-24谢谢阅读36非确定性算法与确定性算法Marcus的确定性算法 该句法分析系统具有如下三个特点:-(1)由数据驱动-(2)已分析出来的部分结构可以成为对后继分析过程 的预期-(3)
22、通过“向前看”(look-ahead)来代替回溯特点(1)和(2)反映了自底向上和自顶向下分析相结合的 策略。特点则是要通过引入句子中的上下文约束来决 定分析规则,保证句法分析器“看准了”以后再操作,从而避免了回溯2020-5-24谢谢阅读37非确定性算法与确定性算法汉语的特点-汉语的词类缺乏形式标注-汉语词类跟句法成分之间不存在简单的一一对应关系.-汉语的句子的构造原则跟短语的构造原则基本一致汉语的这两个特点的表现形式就是普遍存在的词类兼类现象和句 法结构的递归嵌套性。这些必然要导致大量的回溯,增加计算的 开销采用确定性分析策略则可以解决这种问题。2020-5-24谢谢阅读38内容提要 1概
23、述8.2 词法分析8.3 句法分析8.4 语义分析8.5 语用分析8.6 语料库8.7 信息检索8.8 机器翻译8.9 问答系统8.10小结2020-5-24 谢谢阅读 39语义分析语义分析的任务:输入句子的句法结构和句子中每个实词的词义推导出 能反映该句子意义的某种形式化表示对语义现象作形式化处理要比句法现象困难得多,主要 原因有一语义和句法系统的界限很难划清楚-语义及其他认知系统的界限也难以划清楚。-用于计算机语义处理的计算语义学还远未成熟2020-5-24谢谢阅读40格文法格语法是Filmore于1968年提出来的,曾经对 自然语言理解技术的发展产生过较大的影响,直到现在不少研究仍在使用
24、格语法。因为人们 认识到格关系确实是描述语言语义(包括和语 法的关系)的一种很好的形式,当然在实际应用 过程中不可避免地要有些修改。2020-5-24谢谢阅读41格文法-格文法的特点是允许以动词为中心构造分析结果,尽管文法规则 只描述句法,但分析结果产生的结构却相应于语义关系,而非严 格的句法关系-如句子:Mary hit Bill的格文法分析结果可以表示为(hit(Agent Mary)(Dative Bill)-在格文法中,格表示的语义方面的关系,反映的是句子中包含的 思想、观念等,称为深层格。和短语结构语法相比,格文法对于 句子的深层语义有着更好的描述。2020-5-24谢谢阅读42格文
25、法如果两个句子的底层的语义关系一致,各名词成分所代表 的格关系不会发生相应的变化。例如,被动句“Bill was hit by Mary”与上述主动句具有不同的句法分析树,但 格表示完全相同。hit BillMary hit Billwas hit by MaryBill was hit by Mary主动句和被动句的句法分析树2020-5-24谢谢阅读43格文法2020-5-24谢谢阅读44内容提要 1概述8.2 词法分析8.3 句法分析8.4 语义分析8.5 语用分析8.6 语料库8.7 信息检索8.8 机器翻译8.9 问答系统8.10小结2020-5-24 谢谢阅读 45语用分析语用分析
26、与知识、上下文和推理等因素有关。维诺格拉德(Winograd T)认为语言是一个讲话者和听者之间关于一 个共同的世界的一种通信手段。语言是一种社会交际工具,研究语言必须研究其社会功能。维诺格拉德认为语义理 论必须在三个平面上描述关系,(1)确定词的意义(2)确定词组在句法结构中的意义(3)一个自然语言的句子决不应被孤立地解释。一种语义理论必须描述一个句子的意义如何依赖于它的上 下文。2020-5-24谢谢阅读46语用分析语义理论必须涉及语言学背景(说话的上下文)和现实 社会背景(即同非语言学事实的知识的相互作用),语 义理论必须同句法和语言的逻辑方面(演绎推理)相联 系。正是基于这些观点,即语
27、法、语义和语用学相互 作用的观点,1970年维诺格拉德成功地研究了被人称 为“绝技”的自然语言对话系统SHRDLU,实现人与计 算机之间的灵活对话。这项创举震动了当时的人工智 能界。2020-5-24谢谢阅读47内容提要 1概述8.2 词法分析8.3 句法分析8.4 语义分析8.5 语用分析8.6 语料库8.7 信息检索8.8 机器翻译8.9 问答系统8.10小结2020-5-24 谢谢阅读 48 语料库语言学 语料库语言学(corpus linguistics)语言学知识的源泉是大规模活生生的语料,要想让 计算机理解自然语言,首先要让计算机能从库存的 大规模语料中自动或半自动地获取语言理解所
28、需的 各种知识,对语言现象作出客观的、细致的描述。目前采用的主要手段是建立各种统计模型,可用于 词类的自动标注,以及句法语义的更高层次的分析 O该方法可以和规则方法相互补充。2020-5-24谢谢阅读49 语料库语言学 在当今计算技术条件下,要想把处理自然语言所需要 的知识都用现有的知识表示技术明确表达出来,是不 可能的。这既是由于这种知识的“数量”巨大,有时 由于它们在“质”的方面高度的不确定性和模糊性。最近十几年来新提出的语料库语言学,它顺应了大规 模真实文本处理的需要,提出了以计算机语料库为基 础的语言学研究及自然语言处理的新思想。2020-5-24谢谢阅读50 语料库语言学 基于语料库
29、的处理思想能够在工程上、在宽广的语言 覆盖面上解决大规模真实文本处理这一极其艰巨的课 题,对传统的处理方法的一个强有了的补充。新型的智能计算机和多媒体计算机均要求设计出更为 友好的人机界面,使自然语言、文字、图像和声音等 信号都能直接输入计算机。要求计算机能以自然语言 与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。2020-5-24谢谢阅读51 语料库语言学语料库语言学及其特点-传统的句法-语义分析技术,所采取的主要研究方法是 基于规则的方法-由于自然语言理解的复杂性,各种知识的“数量”浩 瀚无际,而且具有高度的不确定性和模糊性,利用规 则不可能完全准确地表达理解自
30、然语言所需的各种知 识,而且,规则实际上面向语言的使用者人的,将它 面向机器则分析结果始终不尽如人意。-研究语言知识所用的真实文本称为语料,大量的真实 文本即构成语料库2020-5-24谢谢阅读52WordNet WordNet是按一定结构组织起来的义类词典,主要特征表现在1.整个名词组成一个继承关系。WordNet有着严格的层次关系,这样一个单词可以把它所有的前辈 的一般性的上位词的信息都继承下来,可以提供全局性的语义关系,具有IS-A关系2.动词是一个语义网动词大概是最难以研究的词汇,在动词词典中,很少有真正的同义 动词。表达动词的意义对任何词汇语言学来说都是困难的。WordNet 不做成
31、分分析,而是进行关系分析。这一点是计算语言学界所热衷的 课题,与以往的语义分析方法不同。这种关系讨论的是动词间的纵向 关系,即词汇蕴涵关系 WordNet基于名词和动词以及其他词性的关系进行词类间的纵向分析,在国际计算语言学界有很大的影响。但是,它也有不足之处,如对 横向关系还没有考虑。2020-5-24谢谢阅读53WordNet WordNet是 1990由Princeton大学的米勒(Miller G A)等 人设计和构造的。一部WordNet词典将近95600个词形(51500单词和44100搭配词)和70100个词义,分为五类:名词、动词、形容词、副词和虚词,按语义而不是按词性 来组织
32、词汇信息。在WordNet词典中,名词有57000个,含有48800个同义词 集,分成25类文件,平均深度12层。最高层为根概念,不 含有固有名词。2020-5-24谢谢阅读54知网知网(HowNet)是董振东研制的以汉语和英语的词语所代 表的概念为描述对象,以揭示概念与概念之间以及概念所 具有的属性之间的关系为基本内容的常识知识库。公布的 中文信息结构库包含:信息结构模式:271个 句法分布式:49个 句法结构式:58个 实例:11,000词语 总字数:中文60,000字2020-5-24谢谢阅读55统计方率迪用_ 20世纪90年代,使用统计的方法,使机器翻译的正确率 达到60%,汉语切分的
33、正确率达到70%,汉语语音输入 的正确率达到80%,这是对传统语言学的严重挑战。许 多研究人员相信,基于语料库的统计模型(如n-gram模 型、Markov模型、向量空间模型)不仅能胜任词类的自 动标注任务,而且也能够应用到句法和语义等更高层次 的分析上来。这种方法有希望在工程上、在宽广的语言 覆盖面上解决大规模真实文本处理这一极其艰巨的课题,至少也能对基于规则的自然语言处理系统提供一种强 有力的补充机制。2020-5-24谢谢阅读56统计方率迪用_大规模真实文本处理的数学方法主要是统计 方法。基于语料库的统计模型(如Markov模型、向 量空间模型)不仅能胜任词类的自动标注任 务,而且也能够
34、应用到句法和语义等更高层 次的分析上来。2020-5-24谢谢阅读57汉语自动分词由于汉语句子的最小构成单位是字,有意义的最小单位却是词,而 汉语词与词之间又没有分割符号(英语词和词之间是空格)。因此,汉语理解首先要进行汉语自动分词。可以概括为两大类方法,-无词典分词,它完全依靠整段文章中汉字之间的搭配的频率算出 成词可能-有词典分词,是一种更有普遍意义的分词方法。有词典分词主要 有最大匹配法,逆向最大匹配法,逐词遍历匹配法,设立切分标 志法,以及正向最佳匹配和逆向最佳匹配法,而这些方法的一个 基本思想都是要依次分出待切分串的可能最长成词2020-5-24谢谢阅读58基于统计结果的分词首先,根
35、据汉语词典(有56800条词汇)进行统计,发 现:虽然词典中的最长词可以达到为20多个字节(十几个汉字),但是大多数汉语词都可以由前两字 唯一确定,这样的词占绝大多数(如在上述词典中占 总词汇量的85%以上)。2020-5-24谢谢阅读59汉语自动分词两个首字相同的词的个数的统计根据前两字可确定的词个数词总数所占百分比()14843185.222801 X29.86514X32.71118X40.8346X50.4030X60.3216X70.206X80.088X90.13105X100.09142X140.05153X150.08181X180.032020-5-24谢谢阅读60汉语机械分
36、词 主要是在字典索引的支持下进行的,索引结构 可以分为两级。一级索引就用汉字内码,查找算法用散列方 法。而二级索引采用整个词长。2020-5-24谢谢阅读61匹配法分词最大匹配法。最大匹配法简称阿方法。其思想是:在计算机磁盘中存 放一个分词用词典,从待切分的文本中按自左到右的顺序截取一个定 长的汉字串,通常为为词典中的最大词长,这个字符串的长度称作最 大词长。将这个具有最大词长的字符串与词典中的词进行匹配,若匹 配成功,则可确定这个字符串为词,计算机程序的指针向后移动与给 定最大词长相应个数的汉字,继续进行匹配;否则,把该字符串从右 边逐次减去一个汉字,再与词典中的词进行匹配,直到成功为止。逆
37、向最大匹配法。逆向最大匹配法简称RMM法。这种方法的基本原理 与MM法相同,所不同的是分词时对待切分文本的扫描方向。方法从 待切分文本中截取字符串的方向是从左到右,而RMM方法则是从右向 左。在与词典匹配不成功时,将所截取的汉字串从左至右逐次减去一 个汉字,再与词典中的词进行匹配,直到匹配成功为上。实验表明,RMM法的切词正确率要比MM法高2020-5-24谢谢阅读62汉语分词的难点分词过程中的歧义问题。歧义字段在中文文本中是普遍存在的,歧义 切分是自动分词中不可避免的现象,是自动分词中的一个比较棘手的 问题。对歧义字段的处理水平,直接影响着自动分词系统的分词准确 率。未登录词的识别问题。未登
38、录词是指没有在词典中出现、在汉语文本 中又应该当作一个词将其分开的那些字符串。包括中外人名、中外地 名、机构组织名、事件名、缩略语、派生词、各种专业术语以及在不 断发展和约定俗成的一些新词语。未登录词种类繁多、规模宏大,对 它们识别正确与否直接影响着分词系统的正确率。然而,目前对于这 些词语的自动辨识尽管作了不少的研究,但要想达到实际应用的要求,仍还有不少的困难。2020-5-24谢谢阅读63汉语分词的难点除了由于未登录词而引起的歧义,切分歧义主要 有三种类型:-交集型歧义,即汉字串ABC既可切成A B/C,又 可切成A/BCo-组合型歧义,即汉字串既可切分成A B,又可切分成A/Bo-混合型
39、歧义,是前两种的自我嵌套或三者的交叉组合 产生的。为了既能得到较高的准确率,又有较小的开销,可以着重解决相对数量较大又较容易解决的交 集型歧义。2020-5-24谢谢阅读64汉语分词的难点词类分析汉语的发展是先有字后有词,所以关于词的研究还存 在一些问题,比较突出的是汉语词类的兼类问题。例如,大量的双字动词兼作名词。要进行汉语理解,如果不把词 类先确定下来的话,那么下一步的分析也难以进行。汉语词类的兼类处理方法两种方法-根据规则消除兼类,-根据预料库统计消除兼类2020-5-24谢谢阅读65内容提要 1概述8.2 词法分析8.3 句法分析8.4 语义分析8.5 语用分析8.6 语料库8.7 信
40、息检索8.8 机器翻译8.9 问答系统8.10小结2020-5-24 谢谢阅读 66 信息检索信息检索(information retrieval,IR)是指将信息按一定的 方式组织和存储起来,并根据用户的需要找出有关信息的 过程。1950年,穆尔(Moore C)根据图书馆的参考咨询和 文摘索引提出了信息检索。信息检索包括信息存储和检索 O在检索之前必须将信息收集起来,按科学方法进行整理,并按一定准则存储起来,形成书本式检索工具或者计算 机可读数据库。在检索时,用户根据自身需求提交查询给 信息检索系统,系统利用存储信息所依据的准则,在文档 集中找出与查询条件相关的文档子集,并按照它们与查询
41、条件的相关性进行排序,最后为用户返回一个有序的文档 子集。2020-5-24谢谢阅读67 信息检索从广义上讲,信息检索包括两个过程,一是信息存储(information storage),即信息的标引、加工和存储过程:二是信息检索(information retrieval),即信息用户 的查找过程。从狭义上讲,信息检索仅指后一部分。信息检索的本质是一个匹配的过程-即用户的信息需求和信息存储的信息集合进行比较和选择的过程2020-5-24谢谢阅读68信息检索过程检 兼索引数据库建立索引信息分析信息收集信息获取、存储2020-5-24谢谢阅读69信息检索的类型按信息检索的内容划分文献检索数据检索
42、事实检索概念检索按信息检索的组织方式划分全文本检索多媒体检索超文本检索超文本检索是对每个节点中储存的信息以及信息链构;成的网络信息进行的检索。与传统文本的线性顺序不 同,超文本检索强调中心节点之间的语义联结结构,靠系统提供的工具进行图示穿行和节点展示,提供浏览式查询,可进行跨库检藁;12020-5-24谢谢阅读70内容提要8.18.28.38.48.58.68.78.88.9概述词法分析 句法分析 语义分析 语用分析 语料库 信息检索机器翻译问答系统8.10小结2020-5-24谢谢阅读71 机器翻译机器翻译是利用计算机把一种自然语言转变成另一种自 然语言的过程。用以完成这一过程的软件叫做机器
43、翻译 系统。机器翻译是语言学、人工智能、计算技术、认知 科学等学科相结合的产物。人作翻译时,把一个源语言句子译成目标语言句子,涉 及到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的操作过程也不例外,有检索、分析、转换和生成的主要四个阶段。这被称为基于分析 和转换的机器翻译系统。也被认为是模拟人类翻译活动 最恰当的机制。2020-5-24谢谢阅读72机器翻译 20世纪50年代初到60年代中为大发展时期。但是由于当时对机器 翻译的复杂性认识不足而产生了过分的乐观情 20世纪60年代中到70年代初由于遇到了困难而处于低潮时期。20世纪80年代机器翻译开始复兴,注意力几乎都集中在人
44、助自动 翻译上,人助工作包括译前编辑(或受限语言),翻译期间的交互 式解决问题,译后编辑等。几乎所有的研究活动都致力于在传统的 基于规则和“中间语言”模式的基础上进行语言分析和生成方法的 探索,这些方法都伴有人工智能类型的知识库。在20世纪90年代早期,机器翻译研究被新兴的基于语料库的方法 向前推进,出现新的统计方法的引入以及基于案例的机器翻译等。2020-5-24谢谢阅读73机器翻译机器翻译的一般过程包括:源语文输入、识别与分析、生成与综合和目标语言输出。当源语文通过键盘或扫描 器或话筒输入计算机后,计算机首先对一个单词逐一识 另U,再按照标点符号和一些特征词(往往是虚词)识别句 法和语义。
45、然后查找机器内存储的词典和句法表、语义 表,把这些加工后的语文信息传输到规则系统中去。从 源语文输入的字符系列的表层结构分析到深层结构,在 机器内部就得到一种类似乔姆斯基语法分析的“树形图2020-5-24谢谢阅读74基于规则的机器翻译流程图2020-5-24谢谢阅读75机器翻译的实现方法1.基于分析和转换的机器翻译方法基于分析和转换的机器翻译方法就是自动实现源语言到目 标语言的转换,它采取了一系列的分析和转换的生成层次,使一个源语言句子经过不同的中间表达形式,最终达到目标 语言句子的表示。其目的是尽可能地加深对源语言的理解,生成尽可能恰当的目标语言形式。这种方法比较全面地体现 了语言学知识在
46、机器翻译中的应用,是了解机器翻译实现过 程的非常合适的模式。2020-5-24谢谢阅读76基于分析和转换的机器翻译方法句子经过分析阶段之后,进入转换和生成阶段。这两者 一般联系得比较紧密,有时无法严格区分,因为转换到目标语 言也就是要生成目标语言的词汇、短语、句子。可以把句子结 构的转换也就是源语言的句法树转换长合适的目标语言对应形 式当作转换,而后续的许多处理都当作生成阶段的处理步骤看 待。2020-5-24谢谢阅读77基于分析和转换的机器翻译方法实质上,机器翻译方法对语言的处理就是在两种语 言之间搭一座桥,实现一种语言到另一种语言意义等价 的转换。它并非象自然语言理解那样只是对一种语言的
47、操作,只需作针对一种语言的分析。作为一个机器翻译 系统,它既要考虑源语言的语法和语义规律,也要考虑 目标语言的这方面规律,忽略了任何一方都是不行的。也就是说,对于双语互译规律的发现和应用才是机器翻 译最本质的特征。所以,在词、短语和句子这三个层次 上寻找源语言的目标语言翻译的等价物是机器翻译中转 换与生成的任务。2020-5-24谢谢阅读78基于分析和转换的机器翻译方法通常,机器翻译的研究中将转换看做整个翻译过程中 的一个阶段。然而,在语义结构上进行转换却是一种好的 方式。语义结构可以是跨语言的,有能力同时应用于分析 和生成。另一方面,当机器翻译系统的翻译语言对扩展时,还可以应用于多种不同的语
48、言。但要注意,大规模的自 然语言语义描述相当复杂,因而在机器翻译系统中的应用 往往会受到限制,难以采用这样的语义表示作为转换的基 本结构。2020-5-24谢谢阅读79基于分析和转换的机器翻译方法一般情况下,分析以句法为主、语义为辅,正确的 句法结构转换加正确的词汇译文可以从源语言向目标语 言传递完整的正确信息。因此,以句法结构转换附加上 一定的语义信息,能够构成转换的基本层次。不足之处 是:因为句法分析的结果是面向源语言的,而要生成合 适的目标语言译文,转换部分常常引入许多目标语言方 面的约束,使得转换规则变得复杂了。2020-5-24谢谢阅读80基于分析和转换的机器翻译方法就标准的机器翻译
49、系统来说,句子和短语层次的结构转 换是机器翻译转换部分的研究重点。通常使用转换规则,就 可以实现源语言句法结构到目标语言句法结构的转换。这方 面一般采用产生式方式的转换规则形式:S:S1+S2+SiClC2 CKfTl+T2+Tj:T上式理解为:S是SL(源语言)的某个待翻译单位(句子、短语等等),S1Si是S中的下一级组成单位;对于S,如果满 足条件,则TL(目标语言)中有口译文构成了相应的等价物T。2020-5-24谢谢阅读81基于分析和转换的机器翻译方法这样的方法有两个特点:一是面向源语言分析,因为 源语言中的一个句子已经由句法、语义分析等阶段分析完 毕,生成了关于源语言句子的某种中间表
50、示,转换以这种 源语言中间表示作为输入;二是直接转换,即对于S表示,直接给出译文形式,一般不需要在目标语言内再作进一 步转换,T1Tj可以直接包括目标语言的词汇,也可以是 对应于SrSi的译文组块。2020-5-24谢谢阅读82基于分析和转换的机器翻译方法上述方法称为基于句法的转换方法,因为 S1+S2+Si一般来说就是源语言的的句法结构表示;也可以称为直接转换方法,因为对于每个源语言的 翻译组块,都马上给出一个目标语言组块与之对应。应该说,这种转换方法符合人的直觉认识,也能够实 现。2020-5-24谢谢阅读83基于中间语言的机器翻译方法2.基于中间语言的翻译方法基于中间语言的翻译方法是对源