基于独立用户的聚类搜索引擎论文.doc

资源描述

毕业论文第 44 页毕业设计（论文）设计（论文）题目：基于独立用户的聚类搜索引擎学生姓名学生学号专业班级指导老师院长 (系主任) 5月22日基于独立用户的聚类搜索引擎摘要互联网的迅速发展提供了越来越多的网络信息，为了快速检索到所需信息，搜索引擎成为不可或缺的网络应用工具之一。而现有的搜索引擎尽管采用了各种方法来提高检索结果的精度，仍无法排除检索结果中用户查询请求不相关的文档，而且相关文档和不相关文档仍然相互混杂，也给用户带来了额外负担。本文在对搜索引擎概况和聚类过程分析进行介绍的基础上，设计实现了一个基于聚类的独立用户搜索引擎，帮助Web用户从搜索引擎所返回的大量文档片断中筛选出自己所需要的文档，通过将搜索引擎返回的结果进行聚类为若干个簇类，使得同一簇类内文档相关度尽可能的大，不同簇类间文档相关度尽可能的小，从而大大缩小用户所需浏览的结果数量，缩短用户查询所需要的时间。在系统的设计与实现时，对用户的每次独立搜索请求，我们都采用Yahoo提供的API接口来获取研究所需的源数据，采用倒排文件索引模型建立索引同时采用关键词语的方法表征索引，根据检索结果的标题、URL和网页摘要所含信息计算返回结果网页之间的相似性，并将检索结果以及它们之间的相似性关系映射到无向图，最后根据无向图中每个点的相似度进行聚类最终得到结果。在聚类过程中，本文提出了一种新的聚类方法，该方法首先随机选取几个点作为初时质心，然后依次计算剩余点与质心的相似度并决定是否将其加入某个簇。如果大于某个阀值则将其加入该质心所代表的类并调整质心的位置，直至加入全部的点。理论分析表明，系统采用的倒排文件模型需要较少的资源，所提出的聚类算法在一定程度上解决了文档多义性问题，同时系统对孤立点问题也进行了相应的处理。实验结果也表明，本文所提的聚类方法具有较好的效果，能对返回结果进行有效聚类。关键词：搜索引擎，聚类，索引，相似度 Clustering Search Engine Based on Independent Users Abstract The rapid development of the Internet has provided more and more internet information. In order to search the required information rapidly, search engines have become one of the indispensable internet tools. Nowadays, although many search engine systems have been applying many methods to improve the retrieval precision, the retrieved results still include a lot of irrelevance documents mixing with the relevance ones, and it brings users an additional burden. Based on the profile of search engines and cluster analysis, the clustering search engine for the independent users is designed. It helps the web users choose required information from along list of returned snippets, clustering of the retrieved results will assign snippets to automatically groups based on calculating the similarity. The groups (clusters) formed should have a high degree of association between members of the same groups and a low degree between members of different groups. So the users can only view their interested groups and save much time. In the process of design and implementation, when a independent search request is send to the search engine, the Yahoo API is used to obtain the necessary research data sources in our system and inverted files indexing model is used to create index while using the key words denoting index. The similarity is calculated according to the title of retuned results, URL and summary in our system, then search results and their relationship of similarity are mapped to an undirected graph. Finally, the points of the undirected map are clustered according to the similarity of each point in the undirected map and the ultimate results are gotten. During the clustering process, a new clustering method is proposed. Firstly, the method randomly selects a few points as initial centers. Secondly, each point is gradually added one or several clusters based on re-calculation of the similarity between added point and each center. If the similarity is greater than predefined threshold, the point will be added some cluster, whose center are adjusted until adding all the points. Theoretic analysis shows that the used reverted file model in our system needs little resources and proposed clustering algorithm resolves the problem of . And the isolating point problem is also considered. Experimental results also show that the proposed method has better clustering performance and the returned results can be clustered effectively. Key Words: Search Engine; Clustering; Index; Similarity 插图索引 T图2-1 搜索引擎的基本组成 5 T图2-2 元搜索引擎结构示意图 11 T图3-1 层次凝聚类示意图 T17T T T图4-1 聚类搜索引擎系统的模块结构 23 T图4-2 使用相似度为权重的无相图 32 T图5-1 用户登陆界面 36 T图5-2 用户搜索关键字显示页面 37 T图5-3 点击某一聚类栏显示信息 38 附表索引 TU表UT4-1 文章1和2经过倒排处理后的结果 26 TU表UT4-2 文章1和2经过加强处理后的倒排结果 26 TU表UT5-1 单个词汇与关键短语特征项对比表 35 TU 目录摘要.................................................................................................................................................I ABSTRACT....................................................................................................................................II 插图索引........................................................................................................................................IV 附表索引.........................................................................................................................................V 1. 绪论 1 1.1 研究背景 1 1.2 研究概况 2 1.3 本文结构 3 2. 搜索引擎概述 5 2.1 搜索引擎的组成 5 2.1.1 Robot 5 2.1.2 分析器 6 2.1.3 索引器 6 2.1.4 检索器 6 2.1.5 用户接口 7 2.2 搜索引擎工作流程 7 2.3 搜索引擎分类 8 2.3.1 全文搜索引擎 8 2.3.2 目录索引搜索引擎 9 2.3.3 垂直搜索引擎 10 2.3.4 元搜索引擎 11 3. 聚类研究 13 3.1 文档自动分类 13 3.2聚类分析 13 3.3 基本聚类方法 14 3.3.1 平面划分方法 14 3.3.2 层次凝聚方法 16 3.4 网页聚类算法 19 3.4.1基于网页内容的聚类算法 19 3.4.2基于链接分析的聚类算法 20 3.4.3基于用户搜索日志的聚类算法 21 4. 聚类搜索引擎设计 23 4.1数据源预处理 23 4.2索引的建立 24 4.3相似度计算 28 4.4聚类处理 29 5.性能分析 35 5.1 理论分析 35 5.2 系统演示 36 总结 39 致谢 41 参考文献 43 1. 绪论 1.1 研究背景万维网(World Wide Web,简称WWW或Web)是为广大用户交换或共享信息而发展起来的一种因特网(Internet)应用，从1991年出现以来，经过短短十几年已经发展成为一个巨大的全球化信息空间。面对这一庞大的信息资源，用户迫切需要一个强有力的检索系统快速有效地检索Web信息，以使从浩如烟海的信息中找到自己所需的信息。搜索引擎是Web信息检索服务的一种形式，从1993年年底第一个搜索引擎WWWW (World Wide Web Worm)在Colorado大学开发成功以来，经过发展，因特网上的搜索引擎己经达到上千个，而包括搜索引擎在内的信息检索也已成为仅次于电子邮件的第二大网络应用。根据CNNIC最新的统计报告数据显示，我国近70%万的网民经常使用搜索引擎。由于搜索引擎本身具有极大的商业价值，所以以盈利为目的搜索引擎服务提供商在这个领域争相投入大量的资源进行研究。而除了通用搜索引擎之外，细分搜索公司的增多，也验证了搜索市场生态的繁荣，并为搜索引擎的进一步发展找到了新出路，比如：大量垂直搜索的涌出。垂直搜索的用户特定性，可以有针对各个行业的垂直搜索引擎，有很大的发展空间。首先，因为垂直搜索对数据源进行了更详细的划分和更人性化、智能化的操作，比如自动分类、自动聚类、个性化专题等，并将其通过简单易用、搜索结果精确分类等方式表现出来，并可采用按效果付费的广告模式[1]，这就超越了传统搜索广告点击付费的单一广告方式。其次，垂直搜索能够提供更为集中的受众群体，其中大部分是潜在消费者或产品使用者，从而提高搜索引擎广告受众的精确度，这是一般的通用搜索做不到的。虽然搜索引擎的系统种类繁多，功能服务特点各异，但是在这个领域仍然有很多的问题亟待解决：首先，尽管现有的搜索引擎采用了多种方法来提高检索结果的精度，用户从搜索引擎搜索到的结果中仍然存在大量无效信息。有统计标明，对现有的20个流行的搜索引擎的前200个返回结果进行的2000次检索测试和统计，其搜索结果中用户根本无法连通的链接约占30%，重复内容约占12%，与用户需求不相关的内容约占8%，与用户需求相关但不完全符合用户需求的约占36%，而完全符合用户需求的仅占14%，搜索引擎虽然经过了相关度排序，然而相关文档和不相关文档相互混杂，用户必须逐个浏览结果列表以找到相关文档，花费了大量的精力，当返回的结果数目众多时，这个问题更为突出，即使搜索引擎找到了用户所期望的结果，无法快速地定位自己所需资源，甚至有许多属于同一类型、同一方面的无效信息返回，这些问题致使一些搜索引擎的检索质量大大降低，成为了今天搜索引擎迫切需要解决的问题之一。 1.2 研究概况搜索引擎发展到今天,无论从产业角度还是从产品角度来看,都成为计算机领域的一个重要研究方向，创造了一个又一个互联网亮点。众多搜索引擎有着不同的信息搜集方法和服务提供方式，如：Baidu、Google所采用的全文检索搜索引擎；Yahoo、LookSmart所采用的目录式搜索引擎；以及LookSmart、WebCrawler所采用的元搜索引擎。其中Google以搜索精度高、速度快成为最受欢迎的搜索引擎。互联网的普及，使用搜索引擎的用户多样化，覆盖各个行业领域，各个年龄阶段，其需求也呈现多样化。大多数搜索引擎目前仍然采用通用式的搜索方式，即针对同一关键词进行的查询，搜索引擎会对不同用户给出相同结果。这种模式以网页的加权评价为核心，而并非以用户为核心，并不能满足不同用户的不同需求。针对某一特定行业的专业搜索，即垂直搜索的出现在一定程度上填补了这一需求缺口，但其覆盖范围有限，搜索信息有限，用户群体有限。现在大多数的搜索引擎以搜索文字信息为主，随着网络带宽的不断加大，多媒体信息在网上迅速增加，这就对多媒体信息的检索提出了要求。多媒体信息检索主要是指基于音频的检索、基于图片的静态图像检索和基于视颖的动态图像检索，现在研究得较多的是图像检索。然而这些搜索引擎还存在很大局限性，并不能完全解决互联网信息检索的问题。搜索引擎不能搜索整个互联网、正确率非常低、召回率(返回的相关文档占所有相关文档的比率)和准确率(返回的相关文档占返回的所有文档的比率)都非常低。搜索引擎面对的挑战主要表现在以下几个方面：1.网络资源的发展，使得搜索引擎能够检索的范围越来越小；2.互联网是一个动态增长的信息源，随时会发生各种变化，搜索引擎不能及时反映这种变化；3.对于用户来说，用户检索到的结果与用户所需要的信息相比，用户检索到的有用信息经常淹没在众多的无用信息当中[2]。为了缓解上述问题，各大搜索引擎开发商不断采用更好的技术，提高产品性能；其中，Robot(机器人)技术是国内外关于搜索引擎采用的较好技术之一，即由一种叫“蜘蛛”的计算机程序在网络中爬行，并发现、加工、整理信息，为用户提供检索服务；部分中文搜索采用目录式搜索引擎（Directory Search Engine），即通过人工发现信息并依靠编目员的知识进行分类；前者获得的信息量较大，耗费资源较少，后者精确度较高。而元搜索引擎没有自己的数据，是将用户的查询请求同时向多个搜索引擎递交，将返回的结果进行重复排除、重新排序等处理后，作为自己的结果返回给用户；其服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全，缺点是不能够充分使用所使用搜索引擎的功能，用户需要做更多的筛选。近年来，聚类技术也在搜索引擎中逐渐运用。在搜索引擎结果的聚类研究中，聚类实现技术大致可分为两种：一种是事先聚类，检索前预先对文档集进行聚类。由于这一聚类处理的文档集巨大，所以对计算资源要求较高，多为脱机处理。另一种是事后聚类，对检索结果进行聚类。由于事后聚类处理的文档集较小，所以可实现联机处理。Web信息资源是时刻动态增加变化的，提前将文档进行聚类分类，不能满足信息及时更新的需求，且处理的文档集巨大对计算资源要求较高，代价较大，所以将检索结果进行聚类的技术更加能够满足Web信息灵活多变的需要。从老牌聚类搜索引擎Vivisimo，到2003年刚刚问世的，十分被人们看好的聚类搜索引擎Mooter，国外聚类搜索引擎正在蓬勃发展；当前国内也出现了比比猫等优秀的中文聚类搜索引擎，可见将聚类技术应用于搜索引擎是大势所趋。 1.3 本文结构本文的研究目标是希望通过有效的聚类分析，对现有的搜索引擎进行优化，将大规模中文网页集合进行层次结构的聚集和管理，便于浏览检索和进一步分析，使用户可以更快定位自己所需结果集，缩小选择范围，提高用户搜索效率。本文结构如下：第一章绪论简单介绍了当前搜索引擎的发展状况及趋势；第二章搜索引擎概述对几种主要的搜索引擎的工作流程及原理进行了介绍；第三章聚类研究详细阐述了主要的聚类算法及设计中所用到的思想；第四章聚类搜索引擎设计详细阐述了本文聚类搜索引擎的整体设计；第五章性能分析对本聚类搜索引擎的性能展开分析；最后总结全文，概述本文的主要工作及价值，并分析了相关不足和以后的研究方向。 2. 搜索引擎概述 2.1 搜索引擎的组成自从第一个搜索引擎WWWW(World Wide Web Worm)在Colorado大学开发成功以来，Web上的搜索引擎己经发展到上千个，虽然各个搜索引擎，包括各全文搜索引擎、目录索引搜索引擎、垂直搜索引擎在内的大部分搜索引擎，具体实现不尽相同，但一般包含5个基本部分：Robot、分析器、索引器、检索器和用户接口，各部分的相关技术介绍如下[3]。图2-1 搜索引擎的基本组成 2.1.1 Robot 采用一定的搜索策略对Web进行遍历并下载文档，系统中维护一个超链队列，或者堆栈，其中包含一些起始URL。 Robot从这些URL出发，下载相应的页面，并从中抽取出新的超链加入到队列或者堆栈中，上述过程不断重复队列直到堆栈为空。为了提高效率，搜索引擎中可能会有多个Robot进程同时遍历不同的Web子空间；为了便于将来扩展服务，Robot应能改变搜索范围。Robot一般采用以宽度优先搜索策略为主、线性搜索策略为辅的搜索策略[4]。线性搜索策略：这是最简单的搜索方法，它的基本思想是沿着一个起始的IP地址，按IP地址递增的方式搜索后续的每一个WWW地址中的HTML文件，完全不考虑各站点的HTML文件中指向其他Web站点的超链接地址。此策略不适用于大规模的搜索（主要原因在于IP可能是动态的），但可以用于小范围的全面搜索，利用此种策略Robot可以发现被引用较少或者还没有被其他HTML文件引用的新HTML文件信息源。深度优先搜索：这是在开发Robot的早期使用较多的一种方法，它的目的是要达到被搜索结构的叶结点。深度优先搜索顺着HTML文件上的超链接走到不能再深入为止，然后返回到某一个HTML文件，再继续选择该HTML文件中的其他超链接。当不再有其他超链接可选择时，说明搜索已经结束。深度优先搜索适宜遍历一个指定的站点或者深层嵌套的HTML文件集，但对于大规模的搜索，由于Web结构相当深，也许就再也出不来了。宽度优先搜索策略：该搜索策略执行时先搜索一层中的内容，然后再继续搜索下一层。如一个HTML文件中有三个超链接，选择其中之一并处理相应的HTML文件，然后返回并选择刚才第一个网页的第二个超链接，处理相应的HTML文件，再返回。一旦一层上的所有超链接都已被选择过，就可以开始在刚才处理过的HTML文件中搜索其余的超链接。该搜索策略保证了对浅层的首先处理，当遇到一个无穷尽的深层分支时，也就不会再陷进去；且容易实现，具备大多数期望的功能，但是需要花费比较长的时间才能到达深层的HTML文件。 2.1.2 分析器对Robot下载的文档进行分析以用于索引，文档分析技术一般包括：分词、过滤和转换。这些技术往往与具体的语言以及系统的索引模型密切相关。 2.1.3 索引器将文档表示为一种便于检索的方式并存储在索引数据库中。索引的质量是Web信息检索系统成功的关键因素之一。一个好的索引模型应该易于实现和维护，检索速度快，空间需求低。搜索引擎普遍借鉴了传统信息检索中的索引模型，包括倒排文档、矢量空间模型、概率模型等。例如在矢量空间索引模型中，每个文档d都表示为一个范化矢量 ti为词条项，wi(d)为ti在d中的权值，一般被定义为ti在d中出现频率tfi(d)的函数。 2.1.4 检索器从索引中找出与用户查询请求相关的文档，采用与分析索引文档相识的方法来处理用户查询请求。如在矢量空间索引模型中，用户查询q也被表示为一个范化矢量。然后按照某种方法来计算用户查询与索引数据库中每个文档之间的相关度，例如在矢量空间索引模型中，相关度可以表示为查询矢量与文档矢量之间的夹角余弦。最后将相关度大于阀值的所有文档按照相关度递减的顺序排列并返还给用户，当然搜索引擎的相关度判断并不一定与所有用户的需求完全吻合[5]。 2.1.5 用户接口该部分为用户提供可视化的查询输入和结果输出界面。在查询界面中，用户按照搜索引擎的查询语法制定待检索词条及各种简单、高级检索条件。在输出界面中，现有大部分搜索引擎将检索结果展现为一个线性的文档列表，其中包含了文档的标题、摘要和超链等信息；检索结果中相关文档和不相关文档相互混杂，用户需要逐个浏览以找出所需文档。这也正是本课题所要解决的问题。 Web信息是动态变化的，因此Robot、分析器和索引器模块要定期更新数据库，时间视具体搜索引擎实现不同而有所差异，索引数据库越大，更新也越困难[6]。 2.2 搜索引擎工作流程包括全文搜索引擎、目录索引搜索引擎、垂直搜索引擎在内的大部分搜索引擎的工作可以分为如下三步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。（1）从互联网上抓取网页：利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。（2）建立索引数据库：由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容及超链接中每一个关键词的相关度，然后用这些相关信息建立网页索引数据库。（3）在索引数据库中搜索排序：当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。由于所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中[7]。 2.3 搜索引擎分类搜索引擎按其工作方式主要可分为四种，分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)、元搜索引擎(Meta Search Engine)和垂直搜索引擎(Vertical Search Engine)[8]。 2.3.1 全文搜索引擎全文搜索引擎是从网站提取信息并建立网页数据库。搜索引擎的自动信息搜集功能分两种。一种是定期搜索，即每隔一段时间（比如Google一般是28天），搜索引擎主动派出Spider(“蜘蛛”程序)，对一定IP地址范围内的互联网站进行搜索，一旦发现新的网站，它会自动提取网站的信息和网址加入自己的数据库。另一种是提交网站搜索，即网站拥有者主动向搜索引擎提交网址，它在一定时间内（2天到数月不等）定向向网站派出“蜘蛛”程序，扫描网站并将有关信息存入数据库，以备用户查询。由于近年来搜索引擎索引规则发生了很大变化，主动提交网址并不保证所提交网站能进入搜索引擎数据库。当用户以关键词查找信息时，搜索引擎会在数据库中进行搜寻，如果找到与用户要求内容相符的网站，便采用特殊的算法（通常根据网页中关键词的匹配程度，出现的位置／频次，链接质量等）计算出各网页的相关度及排名等级，然后根据关联度高低，按顺序将这些网页链接返回给用户。在全文搜索引擎中，google和百度是当前国内用户数较多的搜索引擎产品。Google（百度（ 2.3.2 目录索引搜索引擎与全文搜索引擎相比，目录索引有许多不同之处。首先，搜索引擎属于自动网站搜索，而目录索引则更加依赖手工操作。用户提交网站后，目录编辑人员会亲自浏览你的网站，然后根据一套自定的评判标准甚至编辑人员的主观印象，决定是否接纳你的网站。其次，搜索引擎收录网站时，只要网站本身没有违反有关的规则，一般都能登录成功。而目录索引对网站的要求则高得多，有时即使登录多次也不一定成功。尤其象Yahoo！这样的超级索引，登录更是困难。此外，在登录搜索引擎时，我们一般不用考虑网站的分类问题，而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。最后，搜索引擎中各网站的有关信息都是从用户网页中自动提取的，所以从用户的角度看，我们拥有更多的自主权；而目录索引则要求必须手工另外填写网站信息，而且还有各种各样的限制。更有甚者，如果工作人员认为你提交网站的目录、网站信息不合适，他可以随时对其进行调整。目录索引，顾名思义就是将网站分门别类地存放在相应的目录中，因此用户在查询信息时，可选择关键词搜索，也可按分类目录逐层查找。如以关键词搜索，返回的结果跟搜索引擎一样，也是根据信息关联程度排列网站，只不过其中人为因素要多一些。如果按分层目录查找，某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。目前，全文搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索，如Google就借用Open Directory目录提供分类查询。而象Yahoo！这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下，一些目录类搜索引擎首先返回的是自己目录中匹配的网站，如国内搜狐、新浪、网易等；而另外一些则默认的是网页搜索，如Yahoo！(Yahoo！已于2004年2月正式推出自己的全文搜索引擎，并结束了与Google的合作)。在当前目录索引搜索引擎中，雅虎、新浪及网易较为公众所熟知。雅虎中国分类目录（ search. cnb. yahoo. com/dirsrch/）。此外，雅虎中国也可以对“所有网站”进行关键词搜索（http: // . com/）把网站作为收录对象，具体的方法就是将每个网站首页的URL地址提供给搜索用户，并且将网站的题名和整个网站的内容简单描述一下，但是并不揭示网站中每个网页的信息内容。除此之外，也可以使用关键词对搜狐的“分类目录”或所有网站进行搜索。 2.3.3 垂直搜索引擎垂直搜索引擎是相对通用搜索引擎信息量大、查询不准确、深度不够等提出的新的搜索引擎服务模式。它通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务，是搜索引擎的细分和延伸，其特点就是“专精深”，且具有行业色彩，相比较通用搜索引擎的海量信息无序化，垂直搜索引擎则显得更加专注、具体和深入。垂直搜索引擎是对网页库中的某类专门的信息进行一次整合，定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户。垂直搜索引擎和普通的网页搜索引擎的最大区别是对网页信息进行了结构化信息抽取，也就是将网页的非结构化数据抽取成特定的结构化信息数据，好比网页搜索是以网页为最小单位，基于视觉的网页块分析是以网页块为最小单位，而垂直搜索是以结构化数据为最小单位，然后将这些数据存储到数据库，进行进一步的加工处理，如：去重、分类等，最后分词、索引再以搜索的方式满足用户的需求。垂直搜索引擎的三个特点：（1）垂直搜索引擎抓取的数据来源于垂直搜索引擎关注的行业站点；（2）垂直搜索引擎抓取的数据倾向于结构化数据和元数据；（3）垂直搜索引擎的搜索行为是基于结构化数据和元数据的结构化搜索。垂直搜索引擎的应用方向很多，比如企业库搜索、供求信息搜索、购物搜索、房产搜索、人才搜索、地图搜索、mp3搜索、图片搜索。几乎各行各业各类信息都可以进一步细化成各类的垂直搜索引擎。 2.3.4 元搜索引擎目前，虽然各个商家的搜索引擎为了在竞争中获胜而不断地增加其索引的Web页面数目，但是却跟不上Web的发展速度，任何一个搜索引擎对Web的覆盖度都相当有限，不超过30％。因此，用户经常需要检索多个系统以提高检索的召回率(Recall)。但是，每个搜索引擎的用户接口是异构的，有其特定且复杂的界面和查询语法，这给用户同时使用多个系统带来了不便，针对这些情况，出现了元搜索引擎。元搜索引擎在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。元搜索引擎将多个独立的搜索引擎集成在一起，提供统一的界面，试图通过实现现有数据库的综合利用来提高搜索引擎的性能。元搜索引擎是建立在多个独立搜索引擎之上的一种搜索引擎．它自己并不收集网站或网页信息，通常也没有自己的资源库和Robot，其结果来源于它所管理的独立搜索引擎。当用户向元搜索引擎发出查询请求时，元搜索引擎即根据该请求向多个独立搜索引擎发出实际查询请求，然后将所有来自独立搜索引擎的查询结果处理后返回给用户。其结构示意图如下图2-2 元搜索引擎结构示意图元搜索引擎的基本设计思想及工作流程可以总结如下： (1)对用户查询请求进行处理，分别将其转换为若干个底层搜索引擎能处理的格式； (2)向各个搜索引擎发送查询请求，并等待其返回检索结果。例如：MetaCrawler同时检索Yahoo、LookSmart、AltaVista等3个主要的搜索引擎； (3)对检索结果进行后处理，包括:组合各个搜索引擎返回的检索结果，消除重复项，对结果进行排序等。有些搜索引擎在必要时还通过下载Web文档来实现一些搜索引擎不支持的查询，或者对文档作进一步的分析以提高信息检索的精度； (4)向用户返回经过组合和处理后的检索结果。上述思想虽然简单，但是效果却比较明显，对于设计人员而言，不需要建立和维护庞大的索引数据库，也不需要使用复杂的检索机制，对于用户而言，元搜索引擎提供了一个能够同时查询多个搜索引擎的集成界面，它将各个搜索引擎的位置、接口等细节都屏蔽了起来，与此同时元搜索引擎还提高了检索的召回率和精度。著名的元搜索引擎有InfoSpace()、Dogpile(http://www.dogpile. com)、Vivisimo()等。而中文元搜索引擎中具有代表性的有比比猫（http:// ）等。在搜索结果排列方面，有的直接按来源引擎排列搜索结果，如Dogpile，有的则按自定的规则将结果重新排列组合，如Vivisimo。 3. 聚类研究 3.1 文档自动分类搜索引擎可对因特网上海量杂乱无章的信息进行索引，帮助人们找到想要的信息。为了快速、准确地从Web上找到人们所需的信息，对网页文档进行聚类分析是非常重要的。在搜索引擎上，聚类分析可用于对搜索引擎中的Robot抓到的网页进行聚类分析，自动生成便于用户查询的网页聚类系统。聚类分析还可用于对用户查询的结果进行处理，以一种超链接的层次方式提交给用户，提高查询的查全率和查准率[10]。在设计搜索引擎时，聚类技术对创建索引的结构化和检索的优化，对大量网页有效寻找和自动分类的组织方法是很重要。目前，多数搜索引擎对搜索结果的组织方法基本一致，即将搜索结果按照一定规则(相关度、Pagerank等)排列，以列表的方式呈现给用户。这种方式存在一些缺陷，如：搜索结果动辄成千上万，用户无法一一查看，而真正符合用户需要的搜索结果很有可能因为排位靠后而被错过了，因为Pagerank等排序方法只能保证排在前面的搜索结果是最权威的，而不一定是最符合用户需要的；从另

展开阅读全文