基于关键词的互联网网页信息主动搜索系统研制.doc

资源描述

研究生实验报告实验名称：基于关键词的互联网网页信息主动搜索系统研制课程名称：任课教师：学生姓名：学生学号：学生学院：学生学科：目录 1 引言 3 2 系统设计与实现 3 3 系统特色分析 6 4 系统自测试 7 5 参考文献 7 6 附件 8 1 引言随着计算机及网络技术的发展与广泛应用，信息量呈指数增长，知识跟新速度加快，关键词法成为网络信息检索的基本方法之一。据中国互联网信息中的报告显示，用户在查询网络信息时，通过搜索引擎查找相关网站的占百分之七十以上，而基于关键词的网络检索几乎是每个搜索引擎必备的检索途径。 2 系统设计与实现 2.1 关键词检索系统的特点关键词是一种用自然语言标识的检索语言。这里讲的自然语言是指从文献题名、文摘、正文中抽提出来能直接表达文献主题概念的、针对性最强的非规范化实意词。关键词的选词基本上取自文献作者的自然用词。关键词的主要优点是： 1、标引迅速、容易、方法简便，无须查阅词表，减少了确定检索词、查核词表的工序。 2、由于各同义词都可以标引同一主题概念的文献，对于同一篇文献内抽提出来的关键词又可轮流作为索引标题，这样，便大大增加了检索和入口，使得信息检索方便灵活。 3、使用关键词有利于标引信息资料、编制索引等信息加工过程的计算化，从而可降低对信息加工人员知识水准的要求，可以节约人力。利用计算机编制关键词索引既可代替人工劳动，又十分迅速。 2.2 关键词检索系统的功能要求建立一个计算机关键词检索系统应具备以下检索功能： 1、逻辑组配检索，即进行关键词之间以及关键词与其它检索项之间逻辑或、逻辑与及逻辑非组配检索。 2、截词检索，即关键词的前方截断词，后方截断词、前后方截断词和中间截断词的截词检索功能。 3、二次检索，即在第一次关键词检索中的文献集合中，通过关键词在文献题名、文摘、全文中再次进行检索，直至检索命中。 4、自动相关检索，即通过建立在系统内的类同义词库进行同类范畴中的同义词自动检索，使用具有概念等同关系中的任一同义词检索可以检索命中所有同义词的文献。为此，系统还应提出按分类号排列关键词，并且在同类组中建立同义词库的功能。 5、多途径检索，即系统提供多个检索项进行交叉组配的检索功能。 2.3 关键词检索的基本策略由于关键词是一种非受控后组式检索语言，在计算机系统中是散列的、平等的，只有在检索软件下进行后组配检索才能发挥作用。因此，关键词检索策略对于系统功能来说是十分重要的。下边就检索策略问题，特别是如何编制检索提问式分述如下。 1、检索时首先根据检索者对课题的检索要求进行主题分析，确定检索课题的各主题因素，如主体因素、通用因素、时间因素、位置因素和文件类型因素等，然后选用各种可能的关键词，尤其注意对表达主体因素的长主题词的切分处理，并充分利用截词检索功能。由于关键词标引存在着较明显的标引用词的不一致性，检索时还应选用尽可能多的相关词进行反馈检索。 2、先从分类号检索，然后再用关键词检索，以保证在尽量查全的基础上，努力提高查准率。 3、关键词与分类号相结合进行交叉组配检索，比单纯用关键词和单纯用分类号检索都要好些。由于关键词具有直观、专指和使用方便的特点，人们往往乐于使用关键词进行直接检索，而忽视与分类号交叉组配检索，孰不知分类语言的系统性和网络性刚好弥补了关键词的分散性，两者结合定会减少误检漏检，提高检索效率。 2.4 主要指标及其分析搜索引擎的主要指标有响应时间、召回率、准确率、受欢迎程度、建立索引的方法和相关度等。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率、准确率的，当然这些都需要搜索引擎技术指标来保障。 2.5 系统总体设计该系统是基于Internet的查询系统。系统是建立在B/S三层结构上，既Browser/Web Server/Database。系统模式图如下图所示。系统数据流图如图所示。系统流程图如下。 3 系统特色分析关键词检索是搜索引擎基本的检索方法之一，但采用简单的关键词检索方法容易造成检索结果过多，检全率和检准率都无法满足用户的需求。因此，采用限定检索条件的方法，提高关键词检索的效率。大多数搜索引擎都采用了一些缩小或约束检索结果的方法，对检索结果进行一定的限制。其限定方式很多，如采用字段检索来限定检索词在数据库记录中出现的手段范围，可限定在网站、网页或网页的层次、标题、正文、URL等，还也可以限定文件格式、日期、语言、类型、范围、收费情况及是否为专家推荐等。一般而言，在搜索引擎中限定检索是以高级检索的形式出现的，通过该方式可以过滤一些不必要的信息资源，提高检准率，节省用户的时间和精力。 4 系统自测试对界面的测试：能够通过界面把数据写入文件并能够从文件中读出在页面上显示。返回和执行按钮可以正常的使用。数据的修改和删除功能能够正常使用。但对于异常数据没有进行判断以致不合法的数据也可以写入配置文件。对爬虫程序的测试：输入不合法的 URL。能够把错误类型写入日志文件。输入各种类型的 URL，只对 http 和 https 链接处理其他链接被视为异常。对系统速度的测试：经过多次运行计算平均数值。得到系统的运行效率不是很高。平均每秒大约下载 3 个网页。本系统主要完成了以下功能：监控网址的添加与删除，对网页数据信息的抽取过程，以及抽取完成之后，对抽取信息的浏览，最后还有与数据库的交互操作（抽取的数据都唯一的存储在数据库中。同样的，通过对测试结果的分析可以发现，系统在对于规律性强的网页内容分析提取方面相当出色。在高质量的内容提取的支持下，搜索引擎提供给用户的搜索对象的范围得到了扩展，准确率也有所提高。但同时也注意到，在新闻等文字性较强的网页信息搜集方面，系统的表现还有待提高。使用目前的网页内容分析提取方式很难适应这类网页的特殊要求，计划在系统中加入另一种信息搜集方法来改进工作表现。这也是系统未来的发展方向之一。 5 参考文献 [1]贺广宜,罗莉．分布式搜索引擎的设计与实现.计算机应用，2003 [2]周雪忠,吴朝晖．文本知识发现：基于信息抽取的文本挖掘.计算机科学，2003 [3]陈华，罗昶，王建勇．基于Web的百万级FTP搜索引擎的设计与实现口．计算机应用，2000 [4]吴功宜，计算机网络（第三版）.北京：清华大学出版社，2007 [5]张海藩，软件工程导论（第五版）.北京：清华大学出版社，2008 [6]Winter，中文搜索引擎技术解密：网络蜘蛛.人民邮电出版社，2004 [7]蒋宗礼，赵钦，肖华，等．高性能并行爬行器．计算机工程与设计，2006 [8]张三峰，吴国新．一种面向动态异构网络的容错非对称DHT方法．计算机研究与发展，2007 [9]余锦，史树明．分布式网页排序算法及其传输模式分析．计算机工程与应用，2004 [10]沈贺丹，潘亚楠．关于搜索引擎的研究综述．计算机技术与发展，2006 6 附件见实验二代码文件夹。

展开阅读全文