互联网网页文本对象抽取实现技术本科生.doc

资源描述

湖南大学毕业论文第 42 页互联网网页文本对象抽取实现技术摘要互联网中蕴含着大量的关于现实世界对象的结构化信息。为了能应对信息爆炸带来的严重挑战，抽取、集成网页上各式各样的文本对象信息，进行对象级别的搜索，迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。网页文本对象抽取实现技术正是解决这个问题的一种方法。本文以传统的信息抽取理论和方法为基础，针对目前热门的博客领域，提出了一种基于HTML特征和机器学习的博客正文抽取算法。在该算法中，研究了博客网页的特征，提出了一种基于HTML标签特征的网页分块算法，使用决策树算法对博客数据集进行统计训练，采用专门的统计工具WEKA对该算法进行了测试和评估，并总结出该算法的优点以及可以改进的地方。最后，展示了基于该博客正文抽取算法的博客搜索引擎Geeseek的系统结构和界面演示。该系统属于新型的垂直搜索引擎，能够对博客和博文进行快速有效的搜索。据了解，Geeseek也是目前国内高校中第一个博客搜索引擎。关键词：互联网，信息爆炸，信息抽取，博客，HTML，机器学习，决策树，搜索引擎，Geeseek Implementation of text object extraction for Internet web pages Author: Zhang Hui Tutor: Lin Yaping Abstract Nowadays, there is a large number of semi-structural information which represents objects in the real world on the Internet. In order to deal with the severe challenge brought by information explosion, extract and integrate all kinds of text object information on web pages, and put up the object-level searching, it cries for the automated technologies to help people find the very information they really need among such a large number of information. The technology of text object extraction is just one of methods to solve this problem. Based on the traditional theory of Information Extraction and aiming at the blog domain, this paper puts forward an arithmetic implementing the extraction function for the text objects of blog articles with the HTML features and machine learning. In this arithmetic, it analyses the features of blog pages, introduces an arithmetic for web page partition basing on the HTML tag features, uses decision tree to do statistics and training on the blog data set, tests and evaluates this arithmetic using the expert statistical tool, WEKA, and summarizes the advantages as well as the points needing improving. Finally, it shows the system architecture and interface presentation of the Geeseek, a blog Search Engine which applies the technology of text object extraction for blog pages. This system blongs to the new-style vertical Search Engine and is able to search for the blog home pages and blog article pages quickly and effectively. So far as we know, Geeseek is the first blog Search Engine in all the colleges in China. Key words: Internet, information explosion, Information Extraction, blog, HTML, machine learning, Search Engine, decision tree , Geeseek 毕业设计（论文）原创性声明和使用授权说明原创性声明本人郑重承诺：所呈交的毕业设计（论文），是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知，除文中特别加以标注和致谢的地方外，不包含其他人或组织已经发表或公布过的研究成果，也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体，均已在文中作了明确的说明并表示了谢意。作者签名：　　　　　日　期：　　　　　指导教师签名：　　　　　日　　期：　　　　　使用授权说明本人完全了解大学关于收集、保存、使用毕业设计（论文）的规定，即：按照学校要求提交毕业设计（论文）的印刷本和电子版本；学校有权保存毕业设计（论文）的印刷本和电子版，并提供目录检索与阅览服务；学校可以采用影印、缩印、数字化或其它复制手段保存论文；在不以赢利为目的前提下，学校可以公布论文的部分或全部内容。作者签名：　　　　　日　期：　　　　　学位论文原创性声明本人郑重声明：所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权　　　　大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名：日期：年月日导师签名：日期：年月日目录 1. 绪论 1 1.1 课题背景及目的 1 1.2 国内外研究状况 3 1.2.1 国内研究现状 3 1.2.2 国外研究现状 4 1.3 课题研究方法 5 1.4 论文构成及研究内容 5 2. WEB信息抽取及网页文本对象抽取概述 7 2.1 Web信息抽取的概念 7 2.2 Web信息抽取的方法 8 2.3 Web信息抽取的典型流程 9 2.4网页文本对象抽取的理论和方法 11 3. 博客正文信息抽取系统的设计 14 3.1 博客搜索的概况 14 3.2 博客正文抽取的过程 15 3.2.1 分类 15 3.2.2 分块 18 3.2.3 统计训练，获取决策树 21 3.3 算法的测试和评估 24 3.4 博客正文抽取算法的意义和思考 25 4. 基于博客正文抽取的GEESEEK搜索引擎 27 4.1 Geeseek系统介绍 27 4.2博客正文抽取模块 28 4.2.1 博客正文抽取模块简介 28 4.2.2 博客正文抽取模块的主要数据类 29 4.2.3 博客正文抽取模块的实现思路 30 4.3系统展示 33 5. 总结 36 致谢 37 参考文献 39 湖南大学软件学院 1. 绪论本章介绍了课题的背景和研究现状，并对全文的内容和结构作了概括。 1.1 课题背景及目的为了应对信息爆炸带来的挑战，迫切需要一些自动化的技术帮助人们在海量信息中迅速找到自己真正需要的信息。信息抽取( Information Extraction, IE)正是解决这个问题的一种方法。信息抽取技术是指从一段文本中抽取指定的事件、事实等信息，形成结构化的数据并存入一个数据库，供用户查询和使用的过程。也就是从文本中抽取用户感兴趣的事件、实体和关系，被抽取出来的信息以结构化的形式描述，然后存储在数据库中，为情报分析和检测、比价购物、自动文摘、文本分类等各种应用提供服务。广义上信息抽取技术的抽取对象并不局限于文本，其他形式存在的信息也可以作为信息抽取的对象，而抽取的结果则变为相应的结构化数据。广义上信息抽取的过程如图1.1所示。图1.1 信息抽取示意图[1] 从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期，这被看作是信息抽取技术的初始研究，它以两个长期的、研究性的自然语言处理项目为代表。美国纽约大学开展的Linguistic String项目开始于60年代中期并一直延续到80年代。该项目的主要研究内容是建立一个大规模的英语计算语法，与之相关的应用是从医疗领域的X光报告和医院出院记录中抽取信息格式（Information Formats），这种信息格式实际上就是现在所说的模板（Templates）。另一个相关的长期项目是由耶鲁大学Roger Schank及其同事在20世纪70年代开展的有关故事理解的研究。由他的学生Gerald De Jong设计实现的FRUMP系统是根据故事脚本理论建立的一个信息抽取系统。该系统从新闻报道中抽取信息，内容涉及地震、工人罢工等很多领域或场景。该系统采用了期望驱动（top-down，脚本）与数据驱动（bottom-up，输入文本）相结合的处理方法。这种方法被后来的许多信息抽取系统采用。从20世纪80年代末开始，信息抽取研究蓬勃开展起来，这主要得益于消息理解系列会议（MUC，Message Understanding Conference）的召开。正是MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支，并一直推动这一领域的研究向前发展。[2] 目前，随着对信息抽取技术的不断发展，各种抽取系统也层出不穷。当前的发展趋势在慢慢减少人工标记的分量，而采用非标记的训练模型来实现Web信息抽取。根据这一趋势，信息抽取系统可以分成四类：人工构造的抽取系统、基于指导的抽取系统、半指导的抽取系统以及非指导的抽取系统。[3] 互联网多年的自由发展使得大量无结构信息的积累成为现实，这些信息为互联网用户带来更多选择的同时极大地增大了人们获得所需信息的复杂度。网络搜索引擎的发明在一定程度上缓解了这种窘境，通过网络搜索引擎服务商对信息的收集和筛选，人们能够方便地获得某些所需信息。这样就出现了一项与信息抽取密切相关的研究——信息检索（Information Retrieval, IR）技术。信息检索是指将信息按一定的方式组织和存储起来，并根据信息用户的需要找出有关信息的过程。信息抽取与信息检索存在差异，主要表现在三个方面： 1、功能不同。信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表；而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。 2、处理技术不同。信息检索系统通常利用统计及关键词匹配等技术，把文本看成词的集合（bags of words），不需要对文本进行深入分析理解；而信息抽取往往要借助自然语言处理技术，通过对文本中的句子以及篇章进行分析处理后才能完成。 3、适用领域不同。由于采用的技术不同，信息检索系统通常是领域无关的，而信息抽取系统则是领域相关的，只能抽取系统预先设定好的有限种类的事实信息。虽然信息抽取与信息检索有区别，但两种技术是互补的。为了处理海量文本，信息抽取系统通常以信息检索系统（如文本过滤）的输出作为输入；而信息抽取技术又可以用来提高信息检索系统的性能。二者的结合能够更好地服务于用户的信息处理需求。[2] 信息抽取技术对于搜索引擎的发展有着重大的意义，它推动着通用搜索引擎向新型的垂直搜索引擎发展，从而能够更好地满足用户的需要，让搜索变得更快、更直接、更有效。通用的搜索引擎是基于网页级别的，因此有时候无法直接获得想要的信息，而是需要点开很多个链接，分别在这些网页中去找寻所需要的信息。很多时候，用户得到的信息往往不是事先所期望的，或者信息非常杂乱而零散。通用搜索引擎在这些方面的不足让人们开始了对搜索引擎更深层、更细致的研究。如今，新型的搜索引擎把研究单元定格在了对象级别。互联网快速增长的海量资源使得人们对于搜索引擎的查询结果有了更高的要求，鉴于PageRank的成功，如何基于文本信息抽取的方法，结合HTML网页不同于纯文本的各种特征进行网页信息（包括文本、图片、音频和视频等）的分析和抽取，以改进网络搜索引擎，成为互联网信息检索研究者关注的重要问题。互联网信息抽取技术通过将无结构或半结构的互联网数据结构化，为理解用户查询与网络文档之间以及不同网络文档之间的相关性提供了基础，从而为改进搜索效率和搜索方式提供了良好的理论依据。对象级别的搜索引擎的一个显著优点是可以利用对象的语义信息，采用直接或者聚合的结果来响应复杂查询，将具体的搜索结果清晰明了地呈献给用户。本课题研究的目的旨在传统信息抽取思想的基础上，提出一种互联网网页文本对象的抽取实现方法，为解决当前博客垂直搜索的问题提供一种切实可行的方式。 1.2 国内外研究状况关于信息抽取的研究在国内外已经开展了相当一段时间，本节简要介绍了国内外信息抽取技术研究的进展。 1.2.1 国内研究现状国内对中文信息提取系统的研究起步较晚，还集中在命名实体识别方面，遵照MUC规范的完整的中文信息提取系统目前还处于探索阶段。Intel中国研究中心在ACL-2000上演示了他们开发的一个抽取中文命名实体以及实体间关系的系统。在MUC-6和MUC-7上，增加了中文系统的评测项目，国立台湾大学（National Taiwan University）和新加坡肯特岗数字实验室参加了MUC-7中文命名实体识别任务的评测，测试了中文命名实体（人名、地名、时间、事件等名词性短语）的识别，取得了与英文命名实体识别系统相近的性能。当然这只是对中文信息提取作了比较初步的工作，并不能真正进行中文信息提取。另外，北京大学计算语言所对中文信息提取也作了比较早的和比较系统的探讨，承担了两个有关中文信息提取项目的工作，即自然科学基金项目“中文信息提取技术研究”和IBM——北大创新研究院项目“中文信息提取系统的设计与开发”。其目标是研究中文信息提取中的一些基础性和关键性的问题，为开发实用的信息提取技术提供理论指导，并具体探讨信息提取系统设计的各个环节。[4] Intel中国研究中心的Zhang Yimin等人在ACL-2000上演示了他们开发的一个抽取中文命名实体及其关系的信息抽取系统。该系统利用基于记忆学习（Memory-Based Learning,MBL）算法获取规则从而实现信息抽取。这些系统在中文命名实体的自动识别方面取得了一些成绩。车万翔等人使用基于特征向量的有监督的机器学习算法（SVM和Winnow）对实体关系进行抽取。两种算法都选择命名实体左右两个词为特征词，并得出结论：信息抽取系统若需要追求抽取的高性能，则选择SVM算法；若需要追求高的学习效率，则选择Winnow算法。[1] 1.2.2 国外研究现状信息抽取的前身是文本理解，最早开始于20世纪60年代中期，主要是从自然语言文本中获取结构化信息的研究，这被看作是信息抽取技术的初始研究。从20世纪80年代末开始，信息抽取研究蓬勃开展起来，这主要有两个因素对其发展有重要的影响：一是在线和离线文本数量的几何级增加，另一个是“消息理解研讨会”（MUC, Message Understanding Conference）。从1987年开始到1998年共举行了七届会议对该领域的关注和推动。MUC由美国国防高级研究计划委员会（DARPA, the Defense Advanced Research Projects Agency）资助，其显著特点并不是会议本身，而在于对信息抽取系统的评测。近几年，信息抽取技术的研究与应用更为活跃。在研究方面，主要侧重于以下几方面：利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取（Wrapper）以及对时间信息的处理等等。在应用方面，信息抽取应用的领域更加广泛，除自成系统以外，还往往与其他文档处理技术结合建立功能强大的信息服务系统。至今，已经有不少以信息抽取技术产品为主的公司出现，比较著名的有：Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司等。目前，除了强烈的应用需求外，正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技术研究所（NIST）组织的自动内容抽取（ACE, Automatic Content Extraction）评测会议。这项评测从1999年7月开始酝酿，2000年12月正式开始启动，从2000年到2007年已经举办过好几次评测。这项评测旨在开发自动内容抽取技术以支持对三种不同来源（普通文本、由自动语音识别ASR得到的文本、由光学字符识别OCR得到的文本）的语言文本的自动处理，研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容，即对新闻语料中实体、关系、事件的识别与描述。与MUC相比，目前的ACE评测不针对某个具体的领域或场景，采用基于漏报（标准答案中有而系统输出中没有）和误报（标准答案中没有而系统输出中有）为基础的一套评价体系，还对系统跨文档处理（Cross-document processing）能力进行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。[4] 1.3 课题研究方法本文针对博客领域，以传统的信息抽取思想为基础，对博客网页进行分块处理，并结合机器学习和统计训练的方法获得决策树，从而实现对博客中的文章正文进行抽取的功能。 1.4 论文构成及研究内容本文试着从理论和实现相结合的角度，提出一种基于博客相关信息的抽取实现策略。首先，阐述了信息抽取理论的发展历史，发展现状。分析了互联网搜索技术的发展现状，探讨信息抽取与信息检索的区别和联系，并阐述了互联网信息抽取在互联网搜索中的应用状况；其次，介绍互联网信息抽取的概念，方法，典型流程，具体阐述了本文所讨论的网页文本对象抽取的理论和方法；再次，以博客网页文本对象抽取为例，介绍了基于博客正文信息抽取系统的实现步骤，给出该抽取实现方法的测试结果，分析此方法的优点和可以进一步改进的地方，并就其意义进行了阐述。最后，简要介绍了应用互联网网页文本对象抽取技术的博客搜索引擎原型系统Geeseek搜索引擎。 2. Web信息抽取及网页文本对象抽取概述本章主要介绍互联网信息抽取的概念、方法、典型流程，具体阐述了本文所讨论的网页文本对象抽取的理论和方法。 2.1 Web信息抽取的概念目前各类信息服务网站提供了大量的信息资源，但是互联网用户却很难享受到有效的信息服务，因为用户不可能天天都去访问所有这些网站。这祥就形成了一种很尴尬的情况，一方面用户迫切需要某些信息资料，另一方面提供有关资料的网站却很少有人访问。用户需要从多个信息数据源（通常为各网站中的有关信息网页）中同时获得所需要的信息，并能将它们有效地整合在一起。目前的信息服务还无法有效地整合多个信息服务站点的相关内容，因为互联网的信息发布与浏览均是基于HTML语法而编写的Web网页来进行的。而Web网页的内容描述是针对互联网用户浏览而进行的相关格式定义设计，并没有为计算机本身阅读和理解这些网页内容提供任何特殊的说明与注释。因此为了从Web网页中抽取所需要的信息内容（文本信息块）。研究人员开始把目光转向Web信息的机器抽取工作。 Web信息抽取（Web Information Extraction，简称WIE）是指：给出属于同一类型的若干样本网页。找出它们的源数据集的嵌套结构，并将源数据集从网页中抽取出来。即通过对原文档倩息内容和结构的分析，抽取出有意义的事实，生成结构化的有价值的信息。信息抽取流程如图2.1。图2.1 信息抽取流程[5] Web信息抽取渐渐成为一个崭新而热门的课题，各种应用于网络数据抽取的工具也层出不穷。从互联网资源中抽取数据的传统方法就是编写特定的程序，这种程序被称为“Wrapper”。Wrapper是一个能够将基于HTML描述的Web网页内容转换为按照某种结构化描述的数据集合（例如XML数据、关系数据库）的软件程序。它由信息抽取所需的信息识别与结构影射知识和应用这种抽取知识的处理程序组成。根据各种工具用于产生Wrapper而采取的不同技术，目前的Web数据抽取工具可分为六种：Wrapper开发语言，可感知HTML的工具，基于NLP的工具，Wrapper归纳工具，基于建模的工具，基于语义的工具。[6] 2.2 Web信息抽取的方法 Web信息抽取的方法主要可以分为以下两类：一类是基于层次结构的信息抽取归纳方法，如WHIRL、Ariadne、CiteSeer等，基于层次结构的Wrapper归纳方法。尽管页面的类型、结构、版面各异，但对于某个网站来说，页面的组织结构一般具有一些特定的规律。如内容经常是以层次结构方式来组织的，页面中的项目以及项目之间的关系具有明确的模式。基于层次结构的Wrapper归纳方法引入嵌套目录捕述方法（EmbeddedCatalog，简称EC），该方法将页面内容按照层次结构树（EC树）的形式加以描述。EC树的叶节点用以描述用户感兴趣的相关数据；EC树的内部节点用以描述由多个项目组成的列表。其中每个项目既可以是叶节点，也可以是项目列表（项目嵌套）。EC树中每一条边均与一个抽取规则相关联，每一个列表节点与一个列表循环规则相关联，根据从根节点到相应叶节点的路径。依次从父节点抽取路径上的每个子节点，Wrapper就能够从页面中抽取任何用户感兴趣的项目。另一类是基于概念模型的多记录信息抽取方法。即对特定WWW 数据源研制相应的Wrapper。通过记录识别获得记录相对应的信息块格式。利用Wrapper进行有效的记录抽取。步骤是设计构造描述特定内容的本体模型（Ontology Model），并由此产生一个数据库模式以及产生有关常量、关键字的匹配规则。抽取信息时系统调用记录抽取器将页面分解为若干单个记录信息块，并除去其中的标记。利用由分析器（Parser）产生的匹配规则，从所获得的单个信息块中抽取有关的对象以及它们之间的关系。并将他们存入数据记录表（Data-Record Table)；最后利用启发知识，并根据有关的数据库模式，将所获得的数据填人相应的数据库中。利用启发知识，在所抽取的常量与关键字之间建立关联。并利用层次结构中的约束。来决定如何构造数据库中的有关记录内容。[5] 2.3 Web信息抽取的典型流程信息抽取技术是指从一段文本中抽取指定的事件、事实等信息，形成结构化的数据并存入一个数据库，供用户查询和使用的过程。接下来，以美国劳动部的继续教育系统中的课程抽取问题为例，介绍信息抽取的五个主要的子步骤（如图2.2、图2.3所示）：图2.2 课程抽取系统中的示例文章[7] 1、分块，即找到文本片段开始和结束的边界。例如，在此课程抽取系统中，课程题目需要被抽取出来。所以，分块的任务就是要找到课程题目的第一个和最后一个单词，不能包含其他无关的词语，也不能剔除过多的词语。例如在“Intro to Linguistics is taught”这句话中，你不能把这句话都包含进来，也不能只保留“Intro to”。 2、分类，即确定在文本片段中要抽取的是哪一个目标域。例如，需要在“Introduc tion to Bookkeeping”中抽取课程题目，在“Dr. Dallan Quass”抽取课程教师，并在“This course covers...” 中抽取课程描述。通常，分块和分类是采用有限状态机而结合在一起实现的。 3、联合，即确定哪些域是属于同一条记录的。例如，一些课程的描述可能包括好几段文字，而其他的可能就只有一段。因此，在抽取的过程中就必须确定哪些段落是用于描述同一门课程的。这个课程抽取的问题相对而言还比较简单，课程之间的描述可能是相邻的，关系非常紧密。如果要在一篇新闻中抽取一次国际贸易商讨会的相关信息，例如双方的代表人是谁，分别来自国家等等，这样的问题就复杂得多了。因为要抽取的内容关联不大，而且稀疏地分布在文本之中。因此，在这种需要确定两个实体是否是相互关联的时候，这种过程有时也被称为“关系抽取”。实现了关系抽取的商业产品往往比仅仅实现了分类和分块的要有价值得多。 4、标准化，即将信息都标准化成一种统一的形式，这样能够进行可靠的比较。例如，课程开设时间的表达形式多种多样，如“2-3pm”、 “3pm-4:30pm”、“1500-1630”等，如果要考察各门课程的开设是否重现了重叠情况时，就会发现很难对时间做出比较，此时就需要对时间转化成统一的形式。再譬如，在考虑名字“Wei Li”和“Li, Wei”的时候，也需要确定姓和名的顺序。通常，标准化是和去重（即将说明的下一步骤）联系在一起的。 5、去重，即去除重复的信息，使得数据库中不会出现重复的记录。例如，一门课程可能在一个或多个学院开设，从而多次出现在不同的网页中，最终也会被多次地抽取，但是在数据库中只需要保存一条关于这门课程的记录。图2.3 课程抽取系统的五个主要子过程[7] 2.4网页文本对象抽取的理论和方法随着因特网的普及，网上提供了海量的包括半结构化数据的信息源——网页。网页与传统的自由文本相比有许多特点，即数据量大、更新快、变化快、形式多样，还包括超链接且跨平台和网站共享，处理自由文本的信息抽取技术不太适用于对网页的信息抽取。因此需要开发一种合适的信息抽取技术来从大量不同的网页中抽取信息。无论挖掘的目的是什么，都可以把Web文本挖掘的一般处理过程用图2.4来概括。 html文档集特征的建立特征集的缩减学习与知识模式的提取模型质量的评价知识模式图2.4 Intemet上文本数据挖掘的一般处理过程[8] 目前解决网页数据抽取问题比较典型的方法有： 1、由用户定义模式并给出模式与HTML网页的映射关系。由系统推导出规则同时生成：以要提取的信息在DOM层次结构中的路径作为信息抽取的“坐标”，半自动化地生成提取规则。然后根据提取规则生成JAVA类，将该类作为Web数据源Wrapper组成的重要构件：将网页信息抽取知识分为若干层，利用各层模式之间相互联系的特点，动态获取各层中与HTML页面内容具体描述密切相关的信息识别模式知识；最终再利用所获得的多层信息识别模式，完成相应各个HTML网页的具体信息抽取工作。 2、基本全自动化的网页数据抽取方法。这类方法只要输入相应的网页，就能够自动进行分析和生成Wrapper，并且将数据从网页中抽取出来。在整个过程中需要用户干预的地方只是最后的数据结构的语义分析部分。但目前这些方法还仅限于基于后台数据库模式由脚本语言直接生成的网页（网页结构基本不变。页面内容全部取自数据库）。 3、自主抽取的方法。这类方法通常以W3C（World Wide Web Consortium）的文档对象模型DOM为基础，实现由多记录构成的网页信息内容的抽取，对Web页面表格信息与列表信息进行自主抽取。所谓自主抽取是指根据用户的需求去访问专业信息服务网站的相关页面，自动抽取用户感兴趣的信息（尤其是多记录构成的表格信息的内容），而不是以一种固定模式将所有信息内容全部都抽取出来。用户可以定制某网站信息，因此在抽取知识中要加入用户的兴趣描述。抽取过程包括文档解析和自主抽取两个阶段。见图2.5。 Web文档 DOM 抽取结果文档解析信息自主抽取图2.5 信息自主抽取的两个阶段[5] 3. 博客正文信息抽取系统的设计本章主要介绍博客搜索的概况，提出基于HTML特征和机器学习的博客正文信息抽取算法的设计方案，对该算法进行测试和评估，并总结算法的优点和需要改进的地方。 3.1 博客搜索的概况博客，即Blog或Weblog，这一词源于“WebLog(网络日志)”的缩写，是一种网络个人信息的发布形式。一个Blog其实就是一个网页，通常是由简短并且经常更新的post所构成，在post中可以插入超链接、电子邮件、图像、动画、电影、代码、引用等资源，这些张贴的文章又都是按照年份和日期进行排列的。应该说，博客是一个个人性与公共性相结合的媒介，它充分利用了网络双向互动、超文本链接、动态更新、覆盖范围广的特点，其精髓不是表达个人思想或是记录个人的日常经历，而是从个人的角度，来精选和链接互联网上最具有价值的信息、知识与资源，为他人提供共享资源。现在，人们以博客来共享思想与资源，并且进行相互学习的行为已经变得越来越流行，博客已经逐渐成为了一个技术交流的场所。由于博客的内容具有很高的有用性和共享性，以专门搜索博客文章内容的博客搜索引擎应运而生。博客搜索引擎是一种专业搜索引擎，可以扫描互联网上数千万个较常更新的个人博客，以帮助用户通过浏览或关键词检索来查询自己所需要的信息。目前已初具规模的博客搜索引擎，包括：中客()、博客搜索引擎()、八方()、Teclmorati()、BlogStreet()、DayPop()、Feedster(http://www.feedster.tom)、BlogPulse(http://www.blogpulse.tom)、BlogWise(http://www.blogwise.tom)、BlogHop()。[9] 博客作为一个重要的信息传播和资源共享的平台，它的核心部分在于博客正文。正文中往往含有丰富的文本、图片和视频/音频信息，是整个博客当中信息的主要载体。因此，在博客搜索之中，对博客正文的检索也是最重要的内容。相对于博客昵称、博文标题和文章更新时间等信息而言，博客正文的内容更复杂，表现形式更丰富，在网页中中的位置更灵活。因此，要实现对博客正文的抽取，需要进行大量的观察、统计、训练和测试工作。本文就提出了一种基于HTML特征和机器学习的博客正文抽取实现方法。具体实现过程将在下节进行详细介绍。 3.2 博客正文抽取的过程本节详细介绍基于HTML特征和机器学习的博客正文抽取算法的过程。 3.2.1 分类分类的主要任务是根据页面内容的不同，将网络爬虫抓取到的页面分成四个类别： 1、博客网页——即博客的首页。这里一般会出现博主昵称、文章列表等特征明显的信息。 2、博文网页——即博客中某篇文章所在的页面，这里一般会出现文章标题、更新时间、文章正文以及相关评论等信息。 3、博客相关网页——博客中除了首页和博文以外的其他页面，例如博客中的相册页面、好友链接页面等等。 4、非博客网页——即非博客范围内的范围，例如一般的新闻网页。采用一种基于体裁的增量式博客网页分类方法，目的是克服基于内容方法在博客网页分类中的无效问题。同时，降低网页分类中的计算量，提高博客网页分类的精度。体裁决策树模型[10]是使用博客网页体裁上的特征作为决策树模型的节点而生成的树，树的叶子节点即为决策结果。过度拟合（overfitting）指统计学中为了建立近乎完美的具有非常多参数的统计模型，而让模型非常复杂，以致模型的预测性能反而下降。 k-折交叉验证（K-fold cross-validation）是指将样本集分为k份，其中k-1份作为训练数据集，而另外的1份作为验证数据集。用验证集来验证所得分类器或者回归的错误码率。一般需要循环k次，直到所有k份数据全部被选择一遍为止。信息增益（Information Gain）指分类领域中某属性为整个分类所能提供的信息量或贡献值。本系统的基于体裁的增量式博客网页分类方法流程图如下：图3.1 基于体裁的增量式博客网页分类流程图具体步骤如下： Html特征 1、指向相同域名的链接数量 / 所有链接数量； 2、指向不同域名的链接数量 / 所有链接数量； 3、在以下5组标签中，某特定标签数量 / 所有标签数量； 4、文本格式： <abbr>, <acronym>,<address>, <b>, <basefont>, <bdo>,<big>, <blockquote>, <center>, <cite>,<code>, <del>, <dfn>, <em>, <font>,<h1>, <h2>, <h3>, <h4>, <h5>, <h6>,<i>, <ins>, <kbd>, <pre>, <q>, <s>,<samp>, <small>, <strike>, <strong>,<style>, <sub>, <sup>, <tt>, <u>,<var>； 5、文档结构： <br>, <caption>,<col>, <colgroup>, <dd>, <dir>,<div>, <dl>, <dt>, <frame>, <hr>,<iframe>, <li>, <menu>, <noframes>,<ol>, <p>, <span>, <table>, <tbody>,<td>, <tfoot>, <th>, <thead>, <tr>,<ul>； 6、用户交互： <button>, <fieldset>,<form>, <input>, <isindex>, <label>,<legend>, <optgroup>, <option>,<select>, <textarea>； 7、导航：计算

展开阅读全文