1、 Web搜索引擎简述 ——多媒体技术教程 XXX 数媒1002 201026810713 2012年5月23日 Web搜索引擎简述 一. web搜索引擎简介 随着Internet的蓬勃发展,建立在Web超媒体上的各类应用层出不穷,但最为成功的也是应用最为广泛的莫过于搜索应用了。Web搜索技术起源于对Web信息的标引。早期并没有搜索引擎的概念,对信息的检索主要通过人工发现,然后由专门的编辑人员对这些信息进行标引分类,并建立目录,供用户使用。Web搜索引擎已经成为人们从海量Web信息中快
2、速找到所需信息的重要工具,随着Web数据量的爆炸性增长,传统的集中式搜索引擎已经越来越不能满足人们不断增长的信息获取需求。Google的产生大大提升了Web搜索的地位,使搜索引擎成为了十分成功的产业。在中国则是百度。这些搜索引擎的产生,不仅改善了Internet的应用环境,更重要的是,它们创造了一个新的技术时代,即网络搜索的时代。 二. web搜索引擎的组成、原理和实现 搜索引擎有4大基本模块,其功能可概括为:采集模块(Web Crawlers)主要完成访问的Web服务器上Web页面的抓取;存储模块(Cache or Localstore)完成数据的本地存储,提供网页快照(snap—sh
3、ot)功能;索引模块(Indexer)分析页面并对页面建立可供检索模块引用的索引;检索模块(Searcher)是用户接I=I模块,负责接收用户的查询请求并提交给索引模块,对索引模块的输出结果进行排序等计算处理后提交给用户。各个模块设计的优劣都会对搜索引擎功能实现造成不同程度的影响,尤其是Web Crawlers模块和检索模块对搜索引擎资源覆盖率、查全率、更新率和查询速度、精确度有着更直接的影响。 web搜索引擎的原理通常为:首先是用蜘蛛(Spider)进行全网搜索,自动抓取网页;然后将抓取的网页进行索引,同时也会记录与检索有关的属性,中文搜索引擎中还需要首先对中文进行分词;最后,接受用户查询
4、请求,检索索引文件并按照各种参数进行复杂的计算,产生结果并返回给用户。 基于上面的原理,下面将简要介绍Web搜索引擎实现。 1. 利用网络蜘蛛获取网络资源。 这是一种半自动化的资源获取方式。所谓半自动化,是指搜索器需要人工指定起始网络资源url(Uniform Resource Locator),然后获取该url所指向的网络资源,并分析该资源所指向的其他资源并获取。 网络蜘蛛访问资源的过程,是对互联网上信息遍历的过程。在实际的蜘蛛程序中,为了保证信息收集的全面性,及时性,还有多个蜘蛛程序的分工和合作问题,往往有复杂的控制机制。如google的在利用蜘蛛程序获取网络资源时,是由一个认为管
5、理程序负责任务的分配和结果的处理,多个分布式的蜘蛛程序从管理程序活动任务,然后将获取的资源作为结果返回,并从新获得任务。 2. 利用索引器从搜索器获取的资源中抽取信息,并建立利于检索的索引表: 当用网络蜘蛛获取资源后,需要对这些进行加工过滤,去掉网控制代码及无用信息,提取出有用的信息,并把信息用一定的模型表示,使查询结果更为准确。Web上的信息一般表现为网页,对每个网页,须生成一个摘要,此摘要将显示在查询结果的页面中,告诉查询用户各网页的内容概要。模型化的信息将存放在临时数据库中,由于web数据的数据量极为庞大,为了提高检索效率,须按照一定规则建立索引。不同搜索引擎在建立索引时会考虑不同的
6、选项,如是否建立全文索引,是否过滤无用词汇,是否使用meta信息等。索引的建立包括:分析过程,处理文档中可能的错误;文档索引,完成分析的文档被编码进存储桶,有些搜索引擎还会使用并行索引;排序,将存储桶按照一定的规则排序,生产全文存储桶。最终形成的索引一般按照倒排文件的格式存放。 3. 检索及用户交互: 前面两部分属于搜索引擎的后台支持。本部分在前面信息索引库的基础上,接受用户查询请求,并到索引库检索相关内容,返回给用户。这部分的主要内容包括:用户查询(query)理解,即最大可能贴近的理解用户通过查询串想要表达的查询目的,并将用户查询转换化为后台检索使用的信息模型;根据用户查询的检索模型,
7、在索引库中检索出结果集;结果排序:通过特定的排序算法,对检索结果集进行排序。现在用的的排序因素一般有查询相关度,google发明的pagerank计术,baidu的竞价技术等。由于web数据的海量性和用户初始查询的模糊性,检索结果集一般很大,而用户一边不会有足够的耐性逐个查看所有的结果,所以怎样设计结果集的排序算法,把用户感兴趣的结果排在前面就十分重要。 三. Web搜索技术评估指标 传统的搜索引擎评估主要是针对3个方面:Speed(查询速度)即对用户查询到提交结果所用的时间;Precision(查准率)即首页中提交结果的精确度;Recall(查全率)即提交结果中包含权威页面(author
8、ity pages)或者分集页面(hub pages)的多少。 1 针对检索技术的评估 默认检索方式,即搜索引擎对关键词的组织方式;概念检索还是关键词检索;排除能力,即除去一些包含特殊词条的页面,在这些词条前面加一负号或者NOT逻辑符等;限定检索能力,即针对特定页面或范围检索的能力:检索范围,即是全文检索,还是特定范围或仅对检索词条在页面中某部分出现的检索;日期限定能力,即可对更新的或者新建立的页面的查询能力;针对短语的检索能力;嵌套检索能力,即支持圆括号对变量查询的重新拆分组合;多级检索能力,即在检索结果范围的子集内再检索的能力;敏感语义理解能力;语言种类检索能力;自然语言查询的支持,即
9、能不能用自然语言的方式提交查询。 2 针对搜索技术的评估 内容多少,即数据库的大小,包含链接数目或索引的数量;多种数据的搜索能力;特定搜索能力,可否针对特定主题信息搜索,或者针对特定类型信息搜索;搜索策略,即针对Web有向图的遍历方式,是广度优先还是深度优先,对优先序列的处理、权威页面和分集页面的处理、页面的分级排序等。 3 针对查询提交结果的评估 Web页面的排序方法,即Web页面的属性分析都考虑哪些因素;可否排序浏览,即提交的结果,用户可否针对某一属性如站点、日期等选项自定义的排序浏览;是否支持建议搜索,如除了本搜索引擎的结果,能否建议对其它不同的、专题的数据库的搜索;相似性的搜索
10、能不能针对与搜索条目相关性强的页面进行再搜索能力;语种切换功能,能不能在不同语言之间进行转换后再提交结果。 四. web搜索引擎的最新动态 当前,搜索引擎技术已经趋于成数,用户满意度也保持在一个可以接受的水平。在信息搜集技术,索引建立技术,检索技术和结果集排序技术方面,最近几年,除了google创造性的提出pagerank技术,并把他用于结果排序外,基本没有什么突破性的进展。而搜索引擎的研究与信息集成逐渐融合,在这方面的研究主要集中在两个方面:查询扩展(query expansion)和结果集的动态分类。 1. 查询扩展: 由于用户使用搜索引擎查找信息时,往往不能用搜索引擎提供的标准
11、准确的表述想要查找的东西,从而在基于用户查询请求到索引库检索前,需要进行查询扩展(query expansion)。查询扩展包括两个步骤:用新的关键词扩展初始查询串;对扩展后查询串里的关键词从新进行权重分配。查询扩展的方法分为三类:基于用户注册兴趣的方式;基于用户对结果集操作反馈信息的方式;基于搜索结果文档集全局信息的方式。这些方法分别通过不同的途径扩展用户初始查询,以期提高查询结果的用户贴近度。 2. 搜身结果的动态分类: 由于结果集通常十分庞大,因而如何组织结果集展现形式,方便用户快速的找到需要的信息就成为一个十分关键的问题。虽然通过改进页面排序算法,可以尽量使“重要”的页面出现在返回
12、结果的前面,但由于用户职业,兴趣,年龄等各方面的差异,很难让所有的用户都接受服务商给出的重要性顺序。另外,统计显示,用户一般不会在结果集中向后翻超过五页。所以将查询结果以一定的类别层次组织,让用户能方便的选择查看类别,可以很好的缩小结果集,从而使用户能更快的查找信息。 五. 小结 在搜索技术日益流行的今天,搜索引擎的发展速度越来越快,百度、谷歌已成为众所周知同时也是不可或缺的搜索引擎,这篇报告只是简略的介绍了一些Web搜索引擎的基础内容,例如它的原理和评估指标之类的,由于篇幅有限,所以诸如基于P2P的Web搜索技术等并没有进行介绍。通过这次报告让我了解了很多搜索引擎的内容,也让我了解到这项技术有很大的发展前景,所以对搜索技术的未来也充满了憧憬和期望。 参考文献: 1、《多媒体技术教程》,胡晓峰,人民邮电出版社。 2、《搜索引擎与信息获取技术》,徐宝文,张卫风;清华大学出版社。 3、Web搜索引擎评估技术研究,2008。 4、Web搜索引擎技术综述,2004。 5、Conceptual retrieval based on feature clustering of documents,Youjin Chang, Ikkyu Cho。 6、Modern information retrieval,Addison Wesley,1999。






