搜索引擎原理及存在问题.pdf

资源描述

图书情报论坛2 0 0 6年第4期(总第7 2期)图书情报论坛2 0 0 6年第4期(总第7 2期)佘正平文摘搜索引擎是一个集多种技术于一体的综合性系统。从检索方式将搜索引擎分为独立型搜索引擎和元搜索引擎,分别阐述了其各自的工作原理及它们存在的问题,指出了未来搜索引擎的发展趋势将以用户为中心,提供更加个性化的用户服务。关键词搜索引擎独立型搜索引擎元搜索引擎信息检索1引言网络信息的飞速增长极大地改变了人们获取信息的方式,面对浩如烟海的网络信息,如何才能迅速、方便地获取有效信息,日益成为人们关心的问题,搜索引擎的出现极大地缓解了这一矛盾。搜索引擎是一种应用在We b上的软件系统,它以一定的策略在We b上搜集和发现信息,并对信息进行分析、提取、组织等处理后形成供检索用的数据库。目前,各类搜索引擎层出不穷,且不断地完善发展。了解和掌握搜索引擎最基本的原理及存在的问题,不仅可为网络检索工具的开发设计,提供有益的参考意见,而且可为网络用户利用好搜索引擎提供良好的帮助。2搜索引擎的工作原理1 9 9 0年加拿大麦吉尔大学计算机学院的师生开发了一个软件A r c h i e,提供查找分布在各个F T P主机中文件的服务,该软件被公认为现代搜索引擎的鼻祖。由此以后,各种搜索引擎应运而生,比较著名的G o o g l e、Y a h o o!、L y c o s、O v e r t u r e、M e t a c r a w l e r、百度、搜狐、新浪、网易、天网、万纬、搜星等。根据技术原理,就检索方式而言,搜索引擎可分为独立型搜索引擎和元搜索引擎。2.1独立型搜索引擎独立型搜索引擎(s i n g l e s e a r c h e n g i n e)又称为单一搜索引擎,其显著特点是,都有一个与数据库绑在一起的检索系统,有一个自动检索程序经常搜集I n t e r n e t的内容,并将找到的信息资源送回集中管理的数据库。独立型搜索引擎系统一般由三部分构成:信息搜集模块、分析索引模块和检索服务模块。信息搜集模块采用一种像真人一样可以浏览网页的R o b o t程序,这类程序能自动地在网上漫游,从一个或一组U R L开始访问,然后下载相应的网页,抽取页面中的链接,按照某种算法决定下一步要访问的U R L地址,常用的算法有广度优先和深度优先。R o b o t程序不停地重复这个访问过程,搜集信息资料,存储到本地数据库,直至再没有满足条件的新的U R L地址或超出了某些条件限制。有些搜索引擎采集网页的策略是无限制采集,比如A l t a V i s t a、F A S T、G o o g l e都属于无限制地采集。有些则是抽样采集,即有选择性地采集网页信息,例如:E x c i t e、G o(I n f o S e e k)、L o y c o s就属于这一类。搜索引擎除了采用主动搜寻方式外,还可接受用户网站自行向搜索引擎提交的U R L,将信息加入到搜索引擎数据库中。因此,信息搜集模块的主要功能是完成信息掘取工作,以期为将来的检索服务提供数据。分析索引模块将R o b o t程序采集的信息进行比较分析,删除那些内容基本相似的转载网页,以及未加任何修改,内容完全相同的镜像网页,然后,对留存的网页信息,剔除H T M L等的标志符号,提取出代搜索引擎原理及存在问题2 0佘正平:搜索引擎原理及存在问题表网页源文件内容特征的关键词,汇集成索引数据库,并随时顺着链接跟踪网上新加入的主页,为其建立索引。索引数据库就是一个很大的查询表,主要的字段有:网站的名称、标题、U R L地址、摘要等。各搜索引擎标引方法因系统不同而存有差异,因此,使得相同的检索请求在不同的搜索引擎中会得出差别很大的检索结果,但大多数均采取自动标引技术。有的是对We b页面内容进行全文索引,即对We b页中每一个单词进行标引。有的从文章中按某些分类或特征对信息进行抽取。例如:L y c o s仅标引文件名、文件标题和全文前2 0行的内容。而A l-t a V i s t a的索引处理则最为全面,不仅对网页的所有文本、图像及链接等进行索引,而且还记录单词之间的相对位置。一般来说,标引的索引词越多,检索的全面性越高,分析索引模块是搜索引擎提供检索服务的基础。检索服务模块主要分为四个内容:第一,检索界面,接受用户提交的检索要求。目前,搜索引擎几乎都提供基本检索和高级检索两种界面,供用户选择使用。第二,检索策略,将用户提交的检索要求编制成计算机可执行的规范化检索式。常用的信息检索模型有:布尔逻辑模型、模糊逻辑模型、向量空间模型和概率模型。大多数系统是把以上各种模型综合应用,以期达到最佳的检索效果。然而,各搜索引擎仍然具有各自的风格特点,例如:H o t b o t的默认词间关系,可以利用下拉式菜单进行选择,并不需要用户输入布尔逻辑运算符;E x c i t e的智能概念提取可直接在文献中自动进行基于概念的词语提取;L y c o s的强大位置检索功能可指定任意两个单词之间的词序和间距。第三,检索执行,根据用户提交的检索式到索引数据库中进行搜索。第四,检索结果,将检索到的资料整理组织后按一定顺序提供给用户。搜索引擎的检索结果通常包含大量文献,为了将最有“价值”的网页提供给用户,搜索引擎一般都能按查询的相关程度对检索结果进行排列,最相关的文献通常排在最前面。事实上,大部分用户也只注重搜索结果中的前两页。不同的搜索引擎对相关度的判定原则是不同的,确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。在实际中,人们采用多种手段提高相关性排序的能力,但最主要的还是利用检索词出现的位置和出现的频度。检索词在文中出现的位置,标题和靠前的文字往往具有较高的权值。独立型搜索引擎的工作原理简言之,即信息搜集系统从一个或一组已知的U R L开始访问互联网,下载相关的网页信息及新的链接,以一定的策略遍历新链接,并读取新链接的信息内容,将它们加入到本地数据库。然后,由分析索引模块对这些数据进行处理组织后,形成索引数据库。用户通过检索模块提交查询服务,在搜索框中输入检索式,系统就会自动完成,并按一定的排列方式返回检索结果。因此,独立型搜索引擎实用、方便。2.2元搜索引擎为了实现搜索引擎之间的优化组合,元搜索引擎(M e t as e a r c h E n g i n e)由此而产生。元搜索引擎与独立型搜索引擎的最大不同之处就在于它没有自己的资源数据库,它充当的是一个中间代理角色。元搜索引擎又称为集合式搜索引擎、索引式搜索引擎,它将多个独立型搜索引擎集成在一起,共享多个搜索引擎的资源库,提供一个统一的检索界面,为用户提供信息服务的智能化检索系统。元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用链接的多个独立型搜索引擎进行查询处理,串行处理式元搜索引擎将用户的查询请求依次转送给它调用链接的每一个独立型搜索引擎进行查询处理。一个真正的元搜索引擎大致可分为三个功能模块,即检索预处理模块、接口代理模块、检索结果处理模块。元搜索引擎的工作原理比独立型搜索引擎要简单。当用户提交检索请求后,预处理模块对用户的检索请求进行“个性化”处理,包括调用哪些搜索引擎、检索时间限制、结果数量限制等。然后,由接口代理模块将用户的检索请求翻译为多个独立型搜索引擎所能识别的格式,分别发送给各个搜索引擎,由这些搜索引擎完成实际的信息检索。最后,检索结果处理模块把从各个独立型搜索引擎返回的结果进行比较分析,归并冗余,删除重复,并以某种算法排序,以一定的格式返回给用户。比较独立型搜索引擎,元搜索引擎可以一次让多个独立型搜索引擎检索信息,能够获得较高的查全率。例如,万纬能并行搜索国内及国外多个著名搜索引擎,它集成的搜索引擎目前包括三个英文搜索2 1图书情报论坛2 0 0 6年第4期(总第7 2期)引擎G o o g l e、H o t B o t、Y a h o o!和六个中文搜索引擎如新浪、天网、搜狐、中文雅虎、中文G o o g l e、百度。用户可根据需要自由选择其中的搜索引擎进行同步搜索,搜索结果可按相关度、时间、域名分类和引擎进行排序。这样,用户可以获得更多更全面的信息。同时,元搜索引擎通过对独立型搜索引擎得到的直接查询结果使用过滤器或改进算法,使其准确率得到了较大程度的改善。元搜索引擎的技术重心在于查询前的处理和结果的集成。元搜索引擎可以灵活选择所要采用的独立搜索引擎,一般都是选择那些比较典型的性能优异的独立搜索引擎,这种强强联合的结果保证了搜索结果的权威性和可靠性,它还可以充分发挥各个独立搜索引擎在某个搜索领域的功能,弥补独立搜索引擎信息覆盖面的局限性。因此,大型、综合、集成的元搜索引擎的研究开发仍是国内的当务之急。3搜索引擎存在的问题随着互联网的强势发展,搜索引擎已成为网络上被使用频率最高的服务项目之一。但是,海量的信息增长与人们获取所需信息能力之间的矛盾日益突出,搜索引擎存在的问题也愈加凸显出来,主要表现在以下几方面:(1)网络信息质量控制欠缺,信息的冗余较大,而覆盖面又有限。R o b o t程序搜集信息时,对深层We b文档挖掘不够,一些深层目录下的重要网页被遗漏,而众多的垃圾网页被采集。有些网页虽然没有出现搜索词,但内容和搜索词十分相关,而搜索引擎却无法搜索到这些网页。这样,信息查准率低,且误检率、漏检率高。尽可能地利用多个R o b o t程序协调工作完成网页的采集,同时,判定搜索词和网页的相关程度时,应增加语意理解。(2)大量占用昂贵的网络带宽和C P U资源。随着信息数据库的膨大,搜集信息和维护数据库将占用许多宝贵的网络带宽和C P U资源。另外,检索过程的重复性也无情地消耗着额外的带宽资源。转载网页与镜像网页的存在,不可避免地造成重复性的检索工作。同时,在数据库维护方面,若采用定期“批量搜集”也会出现重复搜集所带来的额外带宽的消耗。(3)索引数据库更新困难、提供的信息滞后。搜索引擎机器人只能在由系统管理员确定的一定时间间隔内跟踪特定信息,不能保证信息的及时更新,导致产生错链和死链。同时,随着网络信息数量的指数增长,引擎数据库急剧膨胀,检索速度也将会变慢。(4)搜索引擎之间各行其是、缺乏合作。每一个搜索引擎都有自己的检索规则,关于用户查询接口,不管是技术上或方法上,各种搜索引擎给出了不同的实现方式,尚不统一,用户利用不同的搜索引擎需要进行不同的适应过程。其使用的方便性和用户友好性都有待进一步改进。(5)搜索结果单一化,缺乏个性化服务。任何人使用同一个引擎搜索同一个词的结果都是一样的,搜索引擎没有考虑不同地域、性别、年龄的用户有其信息需求的差异,没有充分利用记录用户查询行为的日志。可在搜索引擎系统中增设用户行为分析模块,通过对用户的不断了解、分析,进而构造个性化信息数据库,针对每个用户的检索,通过调用个性化信息数据库,使得个性化搜索更符合每个用户的需求。(6)动态网页搜索的困难,实时搜索几乎不可能。在动态网页中,同一网页中可能带有不同的参数值,如果R o b o t程序把这些超级链接看成是不同的U R L,就会掉进网络陷阱。因此,R o b o t程序在搜集网页时要忽略所有带参数的U R L。独立型搜索引擎信息覆盖面小,信息收集量有限,查全率低,且用户需要对不同的搜索引擎进行适应,人们提出了元搜索引擎的概念。元搜索引擎的出现基本上解决了信息检索中的查全率问题,但它也存在着不足。一是检索功能有待完善。由于大部分搜索引擎互不兼容,相互操作性差,使得检索式处理非常复杂,如果查询请求包含超过一个、两个词或更多复杂的逻辑,位于查询请求中较后面的词和逻辑很可能被忽略,因为有的元搜索引擎不支持高级检索、不支持字段检索;有的不能正确处理词组和布尔逻辑运算符;有的不支持位置检索等。而且由于元搜索引擎实现语法转换的能力有限,不同的元搜索引擎挂接的独立搜索引擎各不相同,而不同的搜索引擎解析检索表达式的方式不同,所以目前元搜索引擎一般只使用a n d、o r、n o t等简单的布尔逻辑运算。另外,元搜索引擎普遍缺乏分类检索,检索途径单一。这些不2 2佘正平:搜索引擎原理及存在问题足都直接影响着元搜索引擎的检索效率。二是检索结果的处理不够理想。元搜索引擎需要对多个独立搜索引擎的返回结果进行处理,考虑到系统运行的效率与响应时间,大多数元搜索引擎只取每个搜索引擎返回的前几个搜索结果,这样必定影响信息的覆盖面。然而,有些元搜索引擎的结果中仍有重复。检索结果的排序不够理想,由于在不同的搜索引擎在搜集信息的数量、收集信息的范围、采用的索引方法、使用的相关度评价等方面的巨大差异,对不同的搜索引擎返回大额结果不能很好地进行排序。有些元搜索引擎没有提供排序选择,有些没有明确说明检索结果按什么方式排序。另外检索结果的链接情况也不够理想,有些网页打不开,存在死链接。三是检索速度较缓慢。元搜索引擎因其检索实现建立于若干独立搜索引擎之上,用户提问需经过检索模式转换、独立搜索引擎搜索相关信息、搜索结果的处理等一系列环节,这一过程需要等待一段较长的时间,所以检索速度较为缓慢。四是中文元搜索引擎与英文元搜索引擎相比还存在较大差距。目前英文元搜索引擎发展较快,而中文元搜索引擎发展较缓慢,与英文元搜索引擎相比,还存在较大差距,无论是从元搜索引擎的数量,还是从其页面设置、检索功能、结果处理等方面都还存在一些问题,因此如何借鉴英文元搜索引擎的经验,发展中文元搜索引擎,就显得尤为迫切和重要。4结语2 l世纪的科技创新都强调以人为本,搜索引擎的发展也始终围绕的是用户,用户在利用搜索引擎的过程中除关注搜索引擎的数据库质量、检索技术和信息服务功能外,也非常关注搜索引擎对用户的友好性。让搜索引擎更关注用户的行为和习惯,对不同的用户群甚至细化到用户个人提供个性化的服务,而且这种服务是由搜索引擎智能而主动地提供,也就是说这是一个让搜索引擎学习人类思维和行为,并且能够自适应的过程。所以,搜索引擎的未来发展是使之成为一个更加个性化,更加智能化的系统,更重视用户的行为而不是信息本身。总之,随着信息技术和新一代因特网的发展,搜索引擎的研究和应用将迈上一个新的台阶,我们期待着搜索引擎的发展为信息资源检索带来一个美好的明天。参考文献1沈固朝.网络信息检索.工具法实践.北京:教育出版社,2 0 0 42徐建华.网络搜索引擎原理特性分析及未来发展趋势.图书情报工作,2 0 0 0(8)3杨应全等.搜索引擎的不足与应用经验.现代情报,2 0 0 5(7)4韩梅.网络搜索引擎研究综述(1 9 9 4-2 0 0 4年).图书馆学研究,2 0 0 5(1 0)5晏一平,岳泉.中外元搜索引擎的比较.图书馆学研究,2 0 0 5(1 1)佘正平集美大学图书馆。通讯地址:福建厦门集美大学图书馆。邮编3 6 1 0 2 1。(来稿时间2 0 0 6-0 9-3 0)2 3

展开阅读全文