基于领域本体的信息抽取和知识获取系统毕业设计.doc

资源描述

本科毕业论文第 25 页共 25 页 1 绪论信息抽取(IE)是指从自然语言文档中找到特定的信息，是自然语言处理领域特别有用的一个子领域。所开发的信息抽取系统既能处理含有表格信息的结构化文本，又能处理自由式文本（如关于军用飞机的报道）。IE系统中的关键组成部分是一系列的抽取规则或模式，其作用是确定需要抽取的信息。网上文本信息的大量增加导致这方面的研究得到高度重视。信息抽取是自然语言理解技术和实际应用相折衷的产物。自然语言处理有着从根本上解决人机对话问题的良好前景。然而,目前的自然语言处理水平尚不能对任意的文本进行深入的分析，不具备深入理解自然语言的能力。与自然语言理解不同,信息抽取一般不对文本作深入的全面分析，它的主要功能是根据预先设定的任务,抽取特定类型的信息。例如，一个用于关于军用飞机领域的信息抽取系统，只需提取诸如飞机种类、名称、相关性能及用途等信息即可达到要求。信息抽取的优势在于简化了自然语言处理的过程,只关注相关的信息，而忽略无关的内容。 1.1 本文研究的背景及所做工作为了提高检索的查全率和查准率，国内外的学者专家正在致力于研究基于语义的信息检索，并取得了一定的成果。为广大学者所公认的是在本体的基础上设计信息检索系统，实现信息的语义检索。本文所要做的工作就是对基于语义检索的检索系统后台服务方面进行研究。这次毕业设计所要完成的任务是对领域本体（军用飞机）有关的网页进行内容提取后的文本文档进行自动分析，提取其中的实词，筛选出一些能揭示文章主题的词，然后将这些词按照一定的组配关系提取出文章中相应的句子。最后将这些组配好的词和句子存入到数据库中，作为用户检索依据。 1.2 试验系统实现思路基于领域本体的信息抽取和知识获取系统的目的是对本体有关的信息进行识别、筛选。按照一定语法规则将信息提取出来，保存到数据库中，供检索系统作为检索依据使用。通过对关键信息的抽取来初步实现对文中知识的获取。 1.2.1 实现步骤提取领域相关的网页中的文本内容并保存到文本文档分词系统对文本进行分词提取名词和动词并词频统计词筛选出高频词文本内容以句子为单位解析将筛选出的词按一定组配关系同原文句子进行匹配，将符合要求的词和句子存入数据库。图1.1 领域本体网页结构化信息抽取系统地实过程图1.1为信息抽取实现步骤，下面按顺序对处理流程作简要说明。（1）利用网页信息爬取程序将和本体领域相关的网页中的文字内容提取并保存到相应的文本文件中；（2）利用智能分词系统3GWS对文本进行分词，分词过程中导入了本体自定义词典。分词后的结果自动保存在JNI文件下的Test_result.txt中；（3）将分词前的文本文件以句子为单位进行切分，作为最后信息提取的材料；（4）提取出分词后的文件中的名词和动词，并分别对其进行词频统计；（5）对进行词频统计后的实词排序，筛选出文中出现次数高的词作为关键字；（6）将筛选出来的关键字按照“名词-动词-名词”的组配方式和切分出来的句子进行匹配，将匹配成功的词和句子存入到Mysql中作为检索系统的检索依据。 1.2.2 需要解决的问题 1）汉语切词和切词后次的识别与提取信息抽取是建立在对文章进行篇章分析的基础上的，而篇章分析的基础又是句法分析，句法分析又离不开实体的识别。因此作为实体的单元词的切分自然是十分关键的。中文词切分的难点在于中文词缺少像英文词之间天然存在的空格一样的词间区分标志。现代中文智能分词的两大主流技术是基于语言学规则的方法和基于语料库统计语言模型的方法，这两种方法各有利弊：基于规则的方法，其核心就是根据语言学原理和知识制定一系列共性规则和个性规则，以处理自动分词中所遇到的各种语言现象。规则的方法本质上是一种确定性的演绎推理方法，我们很难用一套规则去准确地预测真实文本中所出现的各种变异。而基于语料库统计学的方法主要的特点是利用从语料库中语义知识的统计信息来进行分词，语言处理的覆盖面更广，可实现高效实时的处理，缺点是它仅仅考虑了语言的上下文关系，忽略了语言的结构化特征，它所用的概率模型总会抑制小概率事件的发生，而且这种方法还会受到标记集、长距离搭配等限制。各种分词软件分词后都会将结果以一定形式返回出来。所以词的提取首先要做的就是如何区分这些分词后的文件中的词。分词结果通常都会对每个词进行标注，并在词之间作区分标志。词的提取主要靠这些区分标志的识别来完成。 2）词和句子的匹配问题常见的句子提取主要是通过关键字来完成。而本文所要采用的句子提取方式是在关键词方法的基础上加入了语义分析。即关键字按照一定的组配方式和原文中句子进行匹配，将符合这种要求的句子提取出来存入到数据库中。至于何种组配方式才是有意的，靠程序来自动识别是有一定难度的。本文所采用的词组配方式是“名词-动词-名词”的方式。因为一个大多数句子都符合“主语-谓语-宾语”的结构，而充当这些实体的词通常又分别是名词、动词、名词。当然这又面临一个问题，那就是那些“名词-动词-名词”组合才是有意义的。这个问题的解决就需要运用到本体方面的理论了。 2 信息抽取与知识获取的相关理论 2.1 信息抽取的相关理论 2.1.1 信息抽取的基本概念信息抽取( Information Extraction ,IE)的目标是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。把信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较,能够对数据作自动化处理,从而实现用数据挖掘方法发现和解释数据模型。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。从大量的文档中抽取需要的特定事实是非常有用的。互联网上就存在着这么一个文档库，同一主题的信息通常分散存放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化形式储存,其意义是非常重大的。由于网上的信息载体主要是文本,所以信息抽取技术对于那些把因特网当成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文档中转换成数据库记录的系统,因此成功的信息抽取系统将把互联网变成巨大的数据库。目前的信息抽取系统大多采用基于知识的方法（例如专家系统驱动技术、模板驱动技术、基于脚本等）。该方法在特定领域内十分有效，但构造大规模知识库需投入大量的人力，因此引入并加强机器学习是研究趋势之一。信息抽取系统是领域相关的，只能抽取系统预先设定好的有限种类的事实信息。以往信息抽取粒度多为词语或短语，如对于军用飞机的相关信息只抽取飞机的型号、名称、用途、投入使用时间等，而对于军用飞机的发展状况、各型号飞机的使用情况等较大粒度信息很少涉及。本文的研究目的是以军用飞机领域为实验对象，从相关文报道文本中形成该类信息的抽取模板。以信息抽取模板为依据，将包含文章主要信息的句子抽取出来，从而将信息抽取的粒度扩展到句子。 2.1.2 信息抽取的关键任务 1）命名实体命名实体识别(Named Entity Recognition，NE)是信息抽取中最为基本的任务，实现从众多信息中标识并分离出相关的命名实体，这是正确理解文本的基础。命名实体识别具有非常直接的实用价值，在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进行检索的可能。对于许多语言处理系统，命名实体识别都是其中一个很重要的组件，是目前最有实用价值的一项技术。 2）句法分析　通过句法分析得到输入的某种结构表示,如完整的分析树或分析树片段集合,是计算机理解自然语言的基础。在信息抽取领域一个比较明显的趋势是越来越多的系统采用部分分析技术，这主要是信息抽取任务自身的特殊性，即需要抽取的信息通常只是某一领域中数量有限的事件或关系。这样，文本中可能只有一小部分与抽取任务有关，并且对每一个句子并不需要得到它的完整的结构表示，只要识别出部分片段间的某些特定关系就行了，得到的只是完整分析树的部分子图。部分分析方法盛行也是因为目前尚没有其他更好的选择。部分分析技术只能使信息抽取系统的处理能力达到目前的水平，要想使其性能有大的飞跃，必须探索更有效的分析技术。 3）篇章分析与推理一般说来，用户关心的事件和关系往往散布于文本的不同位置，其中涉及到的实体通常可以有多种不同的表达方式，并且还有许多事实信息隐含于文本之中。为了准确而没有遗漏地从文本中抽取相关信息,信息抽取系统必须能够识别文本中的共指现象，进行必要的推理，以合并描述同一事件或实体的信息片段。因此,篇章分析、推理能力对信息抽取系统来说是必不可少的。初看起来,信息抽取中的篇章分析比故事理解中的篇章分析要简单得多，因为在信息抽取中只需要记录某些类型的实体和事件。但是，大多数信息抽取系统只识别和保存与需求相关的文本片段，从中抽取出零碎的信息。在这个过程中很可能把用以区分不同事件、不同实体的关键信息给遗漏了。在这种情况下要完成篇章分析是相当困难的。除此之外,目前尚缺乏有效的篇章分析理论和方法可以借鉴。现有篇章分析理论大多是面向人、面向口语的，需要借助大量的常识,它们设想的目标文本也比真实文本要规范，并且理论本身也没有在大规模语料上进行过测试。信息抽取系统除了要解决文本内的共指问题外,还需要解决文本间的(跨文本的)共指问题。在文本来源比较广泛的情况下，很可能有多篇文本描述了同一个事件、同一个实体,不同文本间还会存在语义歧义，如相同的词有不同的含义、不同的词代表同一个意思。为了避免信息的重复、冲突,信息抽取系统需要有识别、处理这些现象的能力。由MUC(Message Understanding Conference)对信息抽取系统部分篇章处理能力的评测结果看，篇章处理能力是目前信息抽取系统的弱项，是一个瓶颈，急需深入研究与改进。 2.1.3 信息抽取的应用信息抽取以结构化的方式表达原文的内容, 这使得各种不同的应用都可利用或得益于信息抽取的结果。总的来讲,这些应用可分为如下几类：（1）摘要和总结：将原先较长的文本,用较短的文本进行表达。（2）可视化：以可视的方式表达原文中的概念及其关系。（3）搜索：寻找某一处理层面上或语义上相似的信息。（4）索引和分类：根据语义表示进行分类,建立索引。（5）翻译：由于翻译具有语境针对性,一般要进行语义上的信息抽取。（6）问答：一般用于人机交互中。（7）知识抽取：在信息抽取的基础上进行知识的抽取。（8）知识推理：应用机器学习方法在信息抽取结果上进行知识推理。（9）任务定义：机器人等通过自然语言界面接受命令。 2.2 知识提取的相关理论 2.2.1 知识提取的基本概念语言知识的自动提取是自然语言处理的核心之一，在信息检索、数据挖掘、机器翻译等许多领域都有广泛的应用。词是构成自然语言的基本要素，词义知识一直是制约其发展的瓶颈问题，一个多义词的词义只有在上下文环境中才可以确定，而上下文环境中影响词义的因素是多种多样的，并表现出不完整性和不确定性，如何从上述这些知识中获得词义的确切知识并有效地应用，是语言信息处理研究中的难点也是重点。理想情况下，处理上述自然语言问题，应该确立在计算机能够真正“理解语言”的基础上去实现，如果计算机可以像人类一样“不断学习和积累知识”，处理自然语言问题时，计算机的“理解能力”及“准确性判断”将会极大提高。由于本体能够使人或机器间的交流建立在对所交流领域共识的基础上，因此比较适合构造知识表示。 2.2.2 知识提取的方法目前的知识提取方法主要是脱胎于数据挖掘技术，该方法是从海量数据集中自动识别和采集有效的知识并以某种易于理解的模式呈现并组织起来。常用到的知识提取技术也多是从数据挖掘技术上发展来的，如人工神经网络、决策树、最近邻技术、规则归纳等。这些技术都有一个目的，就是将数据集中的无序信息进行聚类、分类，在此基础上找出其中的关联规则、规律、模式等，从而将其中的隐含知识识别出来，然后再进行组织、保存到知识存储模块中。人工神经网络从结构上模仿生物神经网络，是一种通过训练来学习的非线性预测模型，可以完成分类、聚类、特征提取等多项知识挖掘技术。决策树用属性结构来表示决策集合，这些决策集合通过对数据集进行分类产生规则。最近邻技术通过k个最与之相近的历史纪录的组合来辨别新的纪录，这种技术可以用作聚类，偏差分析等知识挖掘任务。规则归纳通过统计方法归纳，提取有价值的“if-then”规则。以上的知识获取技术都是基于统计的大规模语料库技术，现在在理论和实践上都相对比较成熟了。但是要做到精确的知识挖掘、获取，就需要做到基于语义分析的自然语言理解，而这方面目前还没有实质性突破。 2.3 信息抽取与知识提取的区别和联系信息抽取与知识提取的区别在于：信息抽取是为了从大量信息中提取出其中的关键信息片断，从而对信息进行浓缩，来减轻人们对于信息过量问题的压力；知识提取是为了从大量信息集中发掘出其中的隐含知识，从而得出一般的规律、模式。目前对于信息抽取和知识提取大多集中在一个领域本体内，因而两者之间必然会存在密切联系。信息抽取可以将抽取出来的信息组合成信息集合，这些信息集合是进行知识提取的依据。知识提取就是对这些信息集合进行聚类、分类，从中发掘出隐含知识的过程。因而知识提取的效果和质量依赖于其进行分析的信息集合的质量和数量。信息抽取过程中需要一定的知识模板，来对抽取目标进行匹配，抽取出其中的信息片断。所以信息抽取的质量是基于知识模板的好坏的。知识提取的结果存在知识库中，在知识库中对这些结果进行整理、转化，就可以得到与之相关的知识模板。所以信息抽取和知识提取二者密不可分，相辅相成。以下（图2.1）以一个机遇领域本体的网页信息抽取系统为例，可以简要表明二者关系：按照模板信息抽取领域本体相关网页文本集合内容提取信息集合分类、聚类、归纳知识组织、存储知识库知识模板图2.1 一个简要的基于领域本体的信息抽取系统图 3 本体的基本概念 3.1 本体定义及应用 Ontology(本体或本体论)，原本是一个哲学上的概念，用于研究客观世界本质是客观存在的系统的解释和说明，是相关的领域的知识的高度浓缩和概括。它是在搜集领域专家共同认可词汇的基础上，使用一定的本体表示语言构建的一个可扩展、可查询的知识库概念和关系集。它是一份正式定义名词之间关系的文档或文件。一般Web上的Ontology包括分类和一套推理规则。分类，用于定义对象的类别及其之间的关系；推理规则，则提供进一步的功能，完成语义Web的关键目标即“机器可理解”。本体的最终目标是“精确地表示那些隐含(或不明确的)信息”。当前对本体的理解仍没有形成统一的定义，如本体是共享概念模型的形式化规范说明，通过概念之间的关系来描述概念的语义；本体是对概念化对象的明确表示和描述；本体是关于领域的显式的、形式化的共享概念化规范等等。但斯坦福大学的Gruber给出的定义得到了许多同行的认可，即“本体是概念化的显示规范”。概念化(Conceptualization)被定义为：C = <D, W, Rc>，其中C表示概念化对象，D表示一个域，W是该领域中相关事物状态的集合，Rc是域空间<D，W>上的概念关系的集合。规范(Specification)是为了形成对领域内概念、知识及概念间关系的统一的认识与理解，以利于共享与重用。随着研究的进展，ontology定义也在不断发展，如表1所示。表1 ontology定义的演变范畴提出时间/提出人定义哲学客观存在的一个系统的解释和说明，客观现实的一个抽象本质计算机 1991/Neches等给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则的定义 1993/Gruber 概念模型的明确的规范说明 1997/Borst 共享概念模型的形式化规范说明 1998/Studer 共享概念模型的明确的形式化规范说明对本体的研究主要集中在：建立本体的方法和过程、本体设计和评估的形式化方法和本体论的应用研究。其中，前两个方面属于本体论的理论研究主题。近些年来，本体论被广泛地应用到计算机科学的众多领域。本体方面的研究取得了不少的结果，基于Web的本体构造、编辑、浏览、和使用工具已经可用，本体在知识工程中的运用也取得了优秀的结果，形式化本体在需求工程中也取得了大的进展。另外，已经存在几种为大家所认可的本体表示方法，对于本体设计和评估的方法学也有了初步的探索，开发出来了一些用于构造和评价本体的初级工具，以及一些用于支持不同表示语言互操作的本体语义转换工具。本体的应用主要集中在以下几个方面：（1）组织内部和组织间的交流。通过提供统一的框架，本体论减少了组织内部在概念上和术语上的混淆，从而使共同的理解和交流更为有效。（2）软件系统间的互操作性。解决不同软件系统之间数据的交换和协作问题，主要研究集中于企业建模和多主体系统上。（3）软件工程。辅助构建软件系统的规范，以自然语言写成的非形式化的本体可以用于对规范的手工检查，从而提高软件的重用性和可靠性。 3.2 本体的构建和描述语言创建本体的过程在目前暂时还没有一个统一的标准方法。很多研究者都曾提出自己的方法，其中最有影响的是Gruber在1995年提出的5条规则：明确性和客观性：本体应该用自然语言对所定义的术语给出明确、客观的语义定义。完全性：所给出的定义是完整的，完全能表达所描述的术语的含义。一致性：由术语得出的推论与术语本身的含义是相容的，不会产生矛盾。最大单调可扩展性：向本体中添加通用或专用的术语时，不需要修改已有的内容。最小承诺：对待建模对象给出尽可能少的约束。在实现语义相关的检索中必须有一个机器可处理的语言，用于描述网络信息的内容。可以用自然语言来描述本体，也可以用框架、逻辑语言或语义网络等来描述本体。若系统不需要太强的推理能力时，本体可用本体图的形式表示并存储。此时数据可以保存在一般的关系数据库中，采用图的匹配技术来完成信息检索。若系统要求比较强的推理能力时，本体一般要用一种描述语言（如Ontolingua，Cycl，Loom）进行表示。此时数据保存在知识库中，采用描述语言的逻辑推理能力来完成信息检索。第三种就是直接利用XML来表示并保存本体。并用XML的查询语言来实现本体的检索。研究人员们开发了一系列基于XML语法的描述语言，这些语言包括：SHOE，OML，XOL，Riboweb，等。其中，OIL+DAML是一种具有强表达能力的规则语言。OIL+DAML提供了语义网上的表达本体的方法,利用这种语言,语义检索显得更加方便。后来，W3C 将OIL+DAML标准化为网络本体描述语言OWL（Web Ontology Language）。OWL在DAML+OIL网络本体语言的基础上进行了改进，在设计过程中吸取了DAML+OIL 的设计和应用经验。它可以用于显式的表达在词汇表中项的含义和这些项之间的关系。项和它们之间关系的这种表达也就是本体。OWL适用于这样的应用，在这些应用中，不仅仅需要提供给用户可读的文档内容，而且希望处理文档内容信息。OWL能够被用于清晰地表达词汇表中的词条（term）的含义以及这些词条之间的关系。而这种对词条和它们之间的关系的表达就称作Ontology。OWL相对XML、RDF和RDF Schema拥有更多的机制来表达语义，从而OWL超越了XML、RDF和RDF Schema仅仅能够表达网上机器可读的文档内容的能力。在语义网中，OWL就是可以用来描述网络文档中的术语的明确含义和它们之间的关系。 4 信息抽取系统地实现过程 4.1 实验系统开发概述本实验系统的目的是抽取出领域本体相关的文章中的关键信息提供给语义检索系统作为检索依据。信息抽取的要求是将抽取结果按照固定的结构输入到目标集合中，因此本系统首先要设计好输出结构。鉴于篇章分析与推理的难度过大，以基于篇章的信息来作为处理对象不大现实。所以本系统选择以句法分析为基础，通过筛选出满足一定句法结构的句子作为信息抽取的主要元素。句法分析的基础是建立在对句子中词的构造的分析基础上的，因而所提取出来的信息应当包含符合一定组配关系的词以及与之匹配句子。实验系统的Java主程序使用Eclipse 3.2/jdk1_5_0_8构建和编译，最后提出的信息存入Mysql数据库中，所用到的分词软件为第三代智能分词系统（3GWS）。程序运行通过，能够按要求提取出相关信息。由于本系统主要用于检索系统的后台处理，因而设计的模式为C/S结构。 4.2 智能分词系统3GWS简介汉语分词是中文内容处理、分析与理解的必要条件，它的任何错误都将使处理结果受到或大或小的影响，有时是严重的影响。经过对现有的分词系统的试用、测评，本试验系统决定采用第三代智能分词系统3GWS作为。其主要功能有汉语智能分词、命名实体与新词识别、词性标注以及支持用户自定义词典。3GWS是飞嘉华公司智能分词系列产品的统称，其中有简体GB2312智能分词系统，繁体BIG5智能分词系统以及Unicode智能分词系统。与同类型的实验系统和商用产品对比，3GWS具有三大特色：（1）速度与精度综合性能最优：分词系统能否达到实用性要求主要取决于两个因素：分词精度与分析速度，这两者相互制约，难以平衡。3GWS分词系统运用了PDAT大规模知识库管理技术，在高速度与高精度之间取得了重大突破，该技术可以管理超大规模的词典知识库，而查询时间与词典规模无关，其时间复杂度为O(length),length为查询词的长度。而内存消耗不到知识库大小的1.5倍。在PIV3.0G/256M的PC机上，可以达到每秒23.1MB/s的速度。（2）跨平台开放性支持：3GWS完全采用标准C/C++开发，实现了跨平台的无缝支持。3GWS的COM组件与静态连接库支持各种编码、跨操作系统、可以在目前所有主流的开发环境下进行二次开发调用，本次论文就是利用其提供的Java接口进行二次开发的。该系统支持环境详细列表如表2：支持的编码中文简体GB2312、中文繁体BIG5、Unicode 支持的操作系统 Win95/98/2000/XP；WinNT；Linux/Unix/FreeBSD等支持的开发环境 C/C++/Java/Delphi/VB 表2 3GWS分词系统支持环境（3）按需订制：3GWS可以按照用户的需求进行API定制，主要的定制包括： <1>模块定制：3GWS的人名识别、词性标注等模块均可以根据需要进行定制，比如，大部分应用并不需要词性标注模块，用户可以卸载该模块，从而进一步提供分词的速度。 <2>核心词典与参数定制，用户可以根据自己领域的特点，提供相关的语料库，3GWS可以重新训练，订制一套更适合于自身领域的知识库和参数库。 <3>用户词典定制：用户可以提供自定义的词典，3GWS可以将用户词典有机地整合到系统知识库中。 <4>词类定制：用户可以定义自己的词类。 TGWS的配置出存在Configure.xml文件中。该文件代码如下所示: <?xml version="1.0" encoding="GB2312"?> <TGWS> <DataPath>Data</DataPath>  <TagSet>TGWS.map</TagSet>  <POSDelimiter>/</POSDelimiter>  <WordBoundary> </WordBoundary>  <UserDict>Off</UserDict>  <Log>On</Log>  <version>3.0</version> <Modify>2005-12-27</Modify> <Lexicon>2005-10-10</Lexicon> </TGWS> 第一次加载用户自定义词典或者需要变更用户自定义词典的时候，可以直接调用 ImportUserDict(const char *sFilename)的C接口。下次使用同一部用户自定义词典，不需要再次调用该函数，如果在配置文件中设置<UserDict>On</UserDict>，系统会自动加载。如在配置文件中设置<UserDict>Off</UserDict>，系统会自动将用户自定义词典屏蔽。汉语自动智能分词是中文信息处理的基础与关键。所有涉及中文内容处理的系统，如果没有一个好的中文词法分析系统支持，正确率都会受很大影响。这点对于信息抽取来说尤为重要。 4.3 词的切分及提取 4.3.1 分词系统对词的切分本系统属于基于语义的信息检索系统的一部分。该部分的网页内容提取已由其他同学实现，网页内容保存在txt文件中。本系统首先要做的工作就是利用智能分词软件3GWS对文本进行词的切分。未倒入自定义词典的汉语分词系统并不能识别出专属领域的全部名词，如“飞行导航控制系统”的普通分词结果很可能是“飞行”、“导航”、“控制”、“系统”四个词。这样的分词结果对于专家系统来说是不可接受的，因为例子中的这个复合专有名词在当前领域中是有其特殊意义的，如果切分开来反而使得检索系统无法识别用户的问题而无法组织问题的正确答案。因此在切词的过程中需要导入了本体自定义词典，才能使词的切分结果合乎系统要求。自定义词典结构为每行为一个词，每行不超过一千个字符，词后加空格注明词性，如不注明词性则默认为名词。该词典的结构如图4.1所示：无故障性 n 运输 n 火警系统 n 适应 n 雷达干扰飞机 n 无线电 n 惯性测量装置 n 侦察机 n 其他用电设备 n 图4.1 自定义词典结构片断分词的对象为从和领域本体相关的网页中提取出来的文本内容。分词后的结果固定保存在Test_result.txt文件中。图4.2和图4.3分别为分词前和分词后的文本片断，通过两者之间比较可以发现一些分词系统分词的特征，便于后面的词和句子的提取工作。 1903年12月17日，由美国莱特兄弟发明的人类历史上第一架动力飞机飞行成功。1909年，世界上第一架军用飞机装备美国陆军。飞机大量用于作战，使战争由平面发展到立体空间，对战略战术和军队组成等产生重大影响。军用飞机主要包括：战斗机(歼击机)、战斗轰炸机、攻击机(强击机)、轰炸机、反潜巡逻机、侦察机、预警机、电子对抗飞机、炮兵侦察校射飞机、水上飞机、军用运输机、空中加油机、教练机、直升机、无人驾驶飞机等等。图4.2 分词前文的文档片断军用飞机/n 是/vshi 用于/v 直接/ad 参加/v 战斗/vi 、/wn 保障/vn 战斗/vn 行动/vn 、/wn 进行/vx 军事/n 训练/vn 的/ude1 各种/rz 飞机/n 的/ude1 统称/vn ，/wd 是/vshi 航空兵/n 的/ude1 主要/b 技术装备/nl 。/wj 1903年/t 12月/t 17日/t ，/wd 由/p 美国/nsf 莱特/nrf 兄弟/n 发明/v 的/ude1 人类/n 历史/n 上/f 第一/m 架/qv 动力/n 飞机/n 飞行/vn 成功/an 。/wj 1909年/t ，/wd 世界/n 上/f 第一/m 架/qv 军用飞机/n 装备/n 美国/nsf 陆军/n 。/wj 飞机/n 大量/m 用于/v 作战/vi ，/wd 使/v 战争/n 由/p 平面/n 发展/v 到/v 立体/b 空间/n ，/wd 对/p 战略/n 战术/n 和/cc 军队/n 组成/v 等/udeng 产生/v 重大/a 影响/vn 。/w 军用飞机/n 主要/d 包括/v ：/wj 战斗机/n (/wkz 歼击机/n )/wky 、/wn 战斗轰炸机/n 、/wn 攻击机/n (/wkz 强击机/n )/wky 、/wn 轰炸机/n 、/wn 反潜巡逻机/ng 、/wn 侦察机/n 、/wn 预警机/n 、/wn 电子对抗机/n 、/wn 炮兵侦察校射飞机/n 、/wn 水上飞机/nl 、/wn 军用运输机/n 、/wn 空中加油机/n 、/wn 教练机/n 、/wn 直升机/n 、/wn 无人驾驶飞机/n 等等/udeng 。图4.3 文档片断分词后结果从以上两图可以看出，3GWS智能分词系统的分词效果还是比较好，它能使从本体自定义词典中导入的词都能被系统识别并在结果中体现出来。比如：“电子对抗机”、“预警机”、“空中加油机”这些专业名词在未导入本体词典前会被拆分成不合乎专家系统要求的若干个词，而导入之后就避免了这种状况的发生。 4.3.2 词的提取分词后文本的句子数量和分词前是一样的，并且一一对应，这就方便以后的词与句子匹配和提取工作。只需要对分词后的词与与句子进行匹配就可以了，原文和分词后合乎要求相对应的句子就是需要提取的了。分词后的每个词都用“／”作了标记，并在“／”后注明了词性。词性用英文字符标记，便于和汉语区分。词性标注的第一个字母为该词的一级词性，第一个后面的字母为二级词性，即该词的具体词性或第一词性后可能出现其他词性的状况，因为汉语中一词多意的情况时常出现。在提取词的过程中，我们只需对词性标注为“ｎ”和“ｖ”的名词和动词这些实词进行抽取即可。因为一篇文章的主要内容是靠名词和动词来表述的。词的提取工作首先要做的就是对每个词进行识别。3GWS分词系统分词后的结果中找到词的出现规律相对容易。一般来说，前一个词词性标注后的空格个本词标记符号“／”之间的字符串即为本词的具体组成元素。当然，还要考虑到整篇文章中可能出现的其他状况，即段落之间存在的大空，每段开头空格位中文空格这些情况。因为靠空格和“／”来识别词时必须做到每个此前空格和每个词后“／”一一对应。只要数量上有一个差别，返回结果便让人无法接受，或者没有结果。词的提取代码片断（以名词提取为例）如图6所示： for(i=2;i<b-1;i++){ if(buf[i]==47&&buf[i+1]>64){ slash[m]=i; m++; } //斜杠的判定，其位置存入数组slash中 if(buf[i-2]>0&&buf[i-1]>0&&buf[i]==32&&(buf[i+1]>32||buf[i+1]<0)){ space[n]=i; n++; } if(buf[i]==13&&buf[i+1]==10&&(buf[i+2]>32||buf[i+2]<0&&buf[i+2]!=(-95))) {　　　　　　　　　　 space[n]=i+1; n++; } if(buf[i-1]==(-95)&&buf[i]==(-95)&&(buf[i+1]>32||buf[i+1]<0&&buf[i+1]!=(-95))){ space[n]=i; n++; }}//空格的判定，其位置存入数组space中　String words=new String(buf,0,xie[0]);//篇章第一个词的提取 for(i=1;i<m;i++){ if(buf[slash[i]+1]==110){ noun[j]=new String(buf,space[i]+1,slash[i]-space[i]-1); ln[j]=xie[i]; j++;}//名词的识别，提取并保存到数组noun中，位置保存到数组ln中　　if(buf[slash[i]+1]==110&&(buf[slash[i]-1]>64||buf[slash[i]-1]<0)){ noun[j]=words; ln[j]=slash[0]; j++; }//判定篇章第一个词是否为名词，若是则存入数组noun 　　　　　　　 4.4 词频统计及排序 4.4.1 词频统计及排序的意义词频即是一个词在一篇文章中出现的次数。词频对于自然语言处理有着重要的作用，能够提高信息抽取的效果。作者在一篇文章重要论述一个主题，与主体相关的词自然会在文中多次出现，因而这些词出现次数相对较多，出现频率也就高些。比如在一篇关于军用飞机简介的文章中，通常情况下会介绍军用飞机的发展历史，军用飞机的组成，以及军用飞机的技术设备这些内容，自然这些地方就会出现和军用飞机相关的词，因而军用飞机相关的词的频率会比较高。对高频词的抽取是信息抽取的一项基本任务。这里的词频统计只针对名词和动词，其他的词如形容词、副词、助词等在句子中主要起到辅助作用，并不能揭示句子所要表达的主要信息。词频统计后的排序是为了筛选出高频词，高频词是作为提取句子的依据。 4.4.2 词频统计及排序的过程本系统在进行词频统计时先将先前提取出来的动词和名词去重，去重后的结果保存在新数组之中。通过去重后数组和未去重的词的数组之间的比较就可以得出每个词在文中出现的次数了，将这个次数再保存到与去重后的词相对应的数组中就可以了。 noun[0]=strn[0];//将原词组第一个词如赋给新数组 for(i=1;i<j;i++){for(aan=0;aan<bbn;aan++){ if(strn [aan].equals(noun [i])){ cc=1; break; }else{cc=0;}} if(cc==0){ strn[bbn]= noun [i]; bbn++;}}//将先前提取出的名词去重，保存到新数组 String s; for( iin=0;iin<bbn;iin++){ ddn=0; for( jj=0;jj<j;jj++){ if(strn [iin].equals(noun [jj])){ ddn++;}} csn[iin]=ddn; }//统计每个词出现次数，保存到数组中词的排序是通过比较每个词的词频来实现的，这个过程实现起来相对比较容易。用冒泡法就可完成排序工作，排序的过程需要词和词频同时变动位置，这样就可以保证词的排序是正确的。图4.4为排序后结果片段：词词性词频是 v 2 用于 v 2 参加 v 1 战斗 v 3 保障 v 1 行动 v 1 进行 v 1 训练 v 1 统称 v 1 发明 v 1 飞行 v 1 作战 v 1 使 v

展开阅读全文