收藏 分销(赏)

几种典型网格搜索引擎系统的结构体系分析.pdf

上传人:xrp****65 文档编号:6146380 上传时间:2024-11-28 格式:PDF 页数:4 大小:320.51KB
下载 相关 举报
几种典型网格搜索引擎系统的结构体系分析.pdf_第1页
第1页 / 共4页
几种典型网格搜索引擎系统的结构体系分析.pdf_第2页
第2页 / 共4页
点击查看更多>>
资源描述
1 3 7工作研究图 书 情 报 工 作第 5 2卷第 5期 2 0 0 8年 5月高劲松 张俊丽华中师范大学信息管理系 武汉 4 3 0 0 7 9摘要基于网格的搜索引擎系统能够提高信息的查全率和更新率,提供个性化信息搜索,具有一定的智能性。分析比较G R A C E,S E 4 S E E,G r i d I R 和S C U L P T E U R 四种典型的搜索引擎系统的结构体系及其特点,总结目前搜索引擎的研究热点和发展趋势,并对我国今后搜索引擎系统的研究和发展提出建议和展望。关键词网格技术搜索引擎结构体系分类号 G 3 5 3A r c h i t e c t u r e A n a l y s i s o n S e v e r a l P o p u l a r G r i d-b a s e d S e a r c h E n g i n e S y s t e m sG a o J i n s o n g Z h a n g J u n l i D e p a r t m e n t o f I n f o r m a t i o n M a n a g e m e n t,H u a z h o n g N o r m a l U n i v e r s i t y,W u h a n 4 3 0 0 7 9A b s t r a c t G r i d-b a s e d s e a r c h e n g i n e h a s i n t e l l i g e n c e t o s o m e e x t e n t t h a t i t c a n e n h a n c e t h e r a t e s o f r e c a l l i n i n f o r m a t i o n r e t r i e v a l a n d r e n e w a li n i n f o r m a t i o n r e t r i e v a l a n d p r o v i d e p e r s o n a l i z e d i n f o r m a t i o n s e a r c h i n g.T h i s p a p e r a n a l y z e s t h e i s s u e s o n f o u r p o p u l a r s e a r c h e n g i n e s r e s p e c t i v e l y:G R A C E、S E 4 S E E、G r i d I R a n d S C U L P T E U R,c o m p a r e s t h e i r a r c h i t e c t u r e s a n d s e a r c h i n g m e t h o d s,p o i n t s o u t t h e c u r r e n t r e s e a r c h h o t s p o t s a n dp o s s i b l e d e v e l o p m e n t t e n d e n c i e s.A t t h e e n d o f t h i s p a p e r,t h e a u t h o r s p r e s e n t s o m e p r o p o s a l s o n t h e n e x t g e n e r a t i o n o f s e a r c h e n g i n e i n C h i n a.K e y w o r d s g r i d t e c h n o l o g y s e a r c h e n g i n e a r c h i t e c t u r e收稿日期:2 0 0 7-0 9-0 6 修回日期:2 0 0 7-1 0-2 5 本文起止页码:1 3 7-1 4 0 本文责任编辑:林佳莉1 引言当前,I n t e r n e t 及其他各种网络上的数据、信息等资源呈现出爆炸式增长态势,从这些资源中准确、快速地获取用户关心的资源犹如大海捞针。为了解决资源搜索效率和准确度问题,人们开展了许多卓有成效的网络数据搜索技术研究工作,各种有特色的资源搜索技术和搜索引擎应运而生。这些搜索技术多是采用通用的搜索引擎在互联网中搜索所需的信息,由一个称为蜘蛛的程序按某种策略主动发现和搜集网页信息,经由索引器对信息提取、组织、处理和理解后,建立索引库,由检索器按查询关键字快速检索该库,建立以词为单位、包含有检索词的排序文件。与此同时还进行文档与查询的相关度评价,用户根据获得的查询结果来检索相关网页 1-2。以该技术为基础建立的搜索系统可较好地搜索出用户感兴趣的信息,但同时也面临着很多问题,如查全率低、索引库更新困难、不同的搜索引擎之间缺乏合作等。网格技术的发展和应用,从技术手段上为解决搜索引擎的这些缺陷提供了可能性。网格是一个集成的计算与资源环境,它能够充分吸纳各种计算资源,并将其转化成一种随处可得、可靠、标准和经济的计算能力。目前由多个计算机网几种典型网格搜索引擎系统的结构体系分析络组成的内联网越来越多,大量廉价的个人计算装置随处可见,但是它们的资源利用率非常低。充分利用这些空闲计算机的计算资源、存储资源、通信资源,以提供持续的、稳定的计算能力,完成大规模数据的计算任务是研究网格的意义所在。基于网格的搜索引擎系统主要利用网格强大的计算资源和资源共享特点,完成相应的计算任务。目前,国外在这方面的研究己经陆续展开,相应的研究项目己初步完成或即将完成,而我国在此方面的研究项目则还处于起步状态。因此,本文对国外基于网格的搜索引擎系统的体系结构进行分析研究,比较它们之间的异同,并对我国今后搜索引擎系统体系结构的研究和发展提出了建议。本文的研究为构建基于网格的搜索引擎进行了有益的探索 3-5。2 基于网格的搜索引擎系统的结构体系比较研究内容与结构体系是密切相关的,不同的结构反应了系统的不同功能,因此,在介绍基于网格的搜索引擎结构体系时,本文也指出了各个不同系统的重点研究内容 6(见表1)。2.1 G R A C EG R A C E 是第一个基于网格的信息检索应用系统,适应于开放网格服务结构(O p e n G r i d S e r v i c e s A r c h i t e c t u r e,简称1 3 8工作研究V o l.5 2,N o.5,M a y,2 0 0 8L I B R A R Y A N D I N F O R M A T I O N S E R V I C EO G S A)体系,宗旨是开发一种基于网格环境的分布式搜索和分类引擎,以满足各领域科学研究的需要。当用户提出搜索请求后,系统将通过一个简单而友好的界面将搜索到的信息集中、分类地展现给用户 7。并对其分类。通过使用本体来查询内容源,并按内容关联对其按关键词进行索引。图中虚线部分所示意的两层与底层网格服务进行通信和集合服务,最下层是G R A C E 架构元素,由内容源、K D 仓库、存储N F P s 等组成。最上层描述了G R A C E所有的服务,用户直接访问此层完成相应的任务。2.2 S E 4 S E ES E 4 S E E 是一种为东南欧国家提供社会化服务的网格搜索引擎,具有个性化、需求驱动、国别特色和网站分类搜索等多种服务特色,能利用网格的集成计算能力来解决传统搜索引擎中数据库更新困难、搜索引擎间缺乏合作等问题,从而提高数据的更新率和搜索引擎的执行速度 9。S E 4 S E E 由爬取器、文本分类器和用户接口组成。爬取器是用J A V A 编写的W e b S P H I N X 交互式开发平台,W e b S P H I N X能根据用户提供的U R L 地址自动提取网页中的链接,实现网上冲浪。它采取广度优先爬取策略,从包含了相关内容的链接的子页面开始对每个类别进行搜索。系统采用的分类器是“先驱者”(t h e h a r b i n g e r m a c h i n e l e a r n i n g t o o l k i t),选择朴素贝叶斯(N a i v e B a y e s i a n)分类算法进行分类。系统根据用户提交的请求执行相关任务并激活外部程序。查询过程中所有的数据都被备份在M Y-S Q L 数据库中,以减弱工作环境的变化对应用造成较大影响。系统提供了两种查询方式:基于类别和基于关键字的查询。这两类查询方式在子页面选择和页面信任方式上有所不同。前者是从一系列具有类别特征的子页面开始搜索,对搜索到的页面进行分类,返回与训练文本相似的网页;后者与传统的查询方法比较相似,没有使用分类器,它从用户的U R L地址开始进行查找,并返回包含了关键字的页面给用户。无论哪个查询方式,系统都规定爬取器只能在用户域名所在的国家范围内查找。查询时,网页入口通过用户界面(I n t e r f a c e n o d e,简称U I)将用户的查询请求提交给任务结点(W o r k e r N o t e,简称W N),U I 节点在L C G 体系中充当网格入口,W N 负责执行任务。任务由任务描述语言(J o b D e s c r i p t i o n L a n g u a g e,简称J D L)描述,管理系统创建负责J D L 创建和初始化,相关的查询参数副本被系统自动保存,以便以后查找。在确定查找范围时,系统会自动找出离用户地理位置最近的网格结点作为查询的定位计算结点,当任务完成后,结果被存储在资源代理(R e s o u r c eB r o k e r,简称R B)中,再由用户将其转存到结果存储器上。最后,将搜索结果显示给用户,搜索结果可以被保存并多次使用,避免了再次查询而导致网格资源的浪费(具体流程见图2)。2.3 G r i d I RG r i d I R 是由全球论坛发起的基于O G S A 网格计算平台的信息检索系统,以构建标准化、能处理和发现信息的网格系统为目标,为以后的信息检索系统提供了安全机制和标准平台。表1 研究内容与结构体系名称研究内容结构体系G R A C E(G r i d s e a r c h a n dc a t e g o r i z a t i o n e n g i n e)开发基于网格的分布式的搜索和分类引擎;多种语言支持机制。5 层结构:数字资源与用户之间由 3 层组成,第1层为网格服务,第2 层描述 G R A C E的特性,第 3层主要是各种 W e b应用服务。数字资源包括内容源、数据库和存储N F P s。S E 4 S E E(S e a r c h e n g i n e f o rs o u t h-e a s t E u r o p e)基于网格的搜索引擎系统;提高搜索引擎的更新率和查询效果。主要包括用户界面、网页爬取器和文本分类器三个组件。G r i d I R (G r i d i n f o r m a t i o nr e t r i e v a l)实现基于网格的信息分布式检索和发现;制定网格环境下的信息检索标 准。包括元数据服务、收集管理服务、索引、检索服务及查询处理服务 5层。S C U L P T E U R(S e m a n t i ca n d c o n t e n t-b a s e d m u l t i-m e d i a e x p l o i t a t i o n f o r E u-r o p e a n b e n e f i t)基于网格的分布式多媒体信息处理系统;基于语义和内容的检索系统。包括网格中间件基础结构层、基础网格服务层、语义网格服务层、知识层和高级网格应用层 5层。G R A C E 采用了一种基于语义的信息检索技术,将本体概念与语义互用,致力于提供信息资源在语义层面的应用与服务。它还引入了知识域的概念,对联合搜索和信息检索实施分布式处理。图1 所示为G R A C E 的五层体系结构 8。图 1 G R A C E的结构体系图中的5 层分别是数据层、采集层、网格服务层、G R A C E特性层和W e b 应用层。在特性层,通过系统地采集文档的相关信息,利用自然语言处理技术,在知识域中重新索引文档1 3 9工作研究图 书 情 报 工 作第 5 2卷第 5期 2 0 0 8年 5月G r i d I R 主要由4 个基础网格服务构成,如图3 所示 1 0 :其中,收集管理服务、索引服务、查询处理服务和检索服务功能如上所述,由网格服务中间件完成。文档处理服务主要是对搜索的文档进行过滤、分词与转换等预处理,依据下载信息的链接后缀调用相应的格式转换工具进行转换,形成标准格式文档;信息抽取服务是对格式转换后的标准格式文本信息自动抽取相关的或特定类型的信息。图2 S E 4 S E E 的体系结构图3 G r i d I R 的基本服务模块元数据服务:提供目录服务和发现元数据,与G r i d I R 服务和数据进行交互;收集管理服务:通过标准A P I s 提供控制、收集和更新信息能力,采用分布式解决搜索瓶颈问题;索引和检索服务:负责处理查询和产生相关结果,编制索引和更新文档,形成文档集;查询处理服务:提供异步处理、信息过滤、结果合并等附加功能,这种透明的检索方式能指导客户端的生成和配置 1 1,G r i d I R 的体系结构如图4 所示:图4 G r i d I R 的体系结构框架。图5 S C U L P T E U R 的体系结构框架利用开发语言和相关的网络工具,对上述各服务模块进行开发,然后向U D D I 注册中心进行注册。当用户提交查询请求时,系统针对该用户的访问权限进行安全审查,然后将用户查询分发到各许可访问的数据库访问接口加以检索。检索结果集经过相关度计算、合并、排序等处理后,得到查询结果集,生成特定格式的页面,通过用户界面提交给用户。2.4 S C U L P T E U RS C U L P T E U R是一种基于语义的分布式多媒体信息开发系统,利用分类代理和搜索代理查找多媒体信息,包括结构化和非结构化的信息。以S C U L P T E U R 为基础开发的所谓“概念检索”软件及C I D O C C R M 本体概念,较好地实现了包含三维影像及多媒体信息的交互处理,其主要搜索的艺术范围有雕塑、绘画、铸造品、盆景等 1 2。S C U L P T E U R 主要有5层构成,如图5所示:其层次结构依次为:网格中间件基础结构层,应用I B M、G l o b u s 联盟和H P 共同提出的W e b 服务资源框架(W e b S e r v i c eR e s o u r c e F r a m e w o r k,简称W S R F)作为底层技术实现的基础设施,支持网格数据联通和共享;基础网格服务层,采用O G S A实现计算服务、数据服务、信息服务的共享;语义网格服务,使用本体和元数据语言描述信息,按照计算理解的格式表示知识,包括数据/计算服务、信息服务和知识服务;知识网格层,通过数据挖掘的方法,实现知识服务,并通过接口与高级网格应用互联;高级网格应用层,支持广域分布的、并行的各类网格应用,以促进特定任务或各学科及专业领域的全球协作与信息共享。3 总结与展望以上较为系统地介绍了4 种典型的网格搜索引擎系统研究内容与结构体系。其中,G R A C E 是一种依赖于关键词的分布式检索系统,S E 4 S E E 是一种个性化搜索引擎,G r i d I R 力求构建一种基于网格的信息检索标准,而S C U L P T E U R 则以搜索多媒体信息为主要任务的检索系统。由于研究内容不同,体系结构也不一样:G R A C E 使用本体查询内容源,并按内容关联对其按关键词进行索引;S E 4 S E E 使用任务管理器和资源代1 4 0工作研究V o l.5 2,N o.5,M a y,2 0 0 8L I B R A R Y A N D I N F O R M A T I O N S E R V I C E 4 陈振明.当代西方政府改革与治理中常用的市场化工具.福建行政学院福建经济管理干部学院学报,2 0 0 5(2):5-1 2.5 E.S.萨瓦斯.民营化与公私部门的伙伴关系.周志忍等译.北京:中国人民大学出版社,2 0 0 2:7 5.6 白丽.商务部门户网站建设和运营的经验.2 0 0 7-0 1-1 0 .h t t p:/i n d u s t r y.c c i d n e t.c o m/a r t/8 8 4/2 0 0 6 0 4 2 8/5 3 2 7 8 3 _ 1.h t m l.7 尤曾家丽.香港电子政府的发展:公私营机构的伙伴关系.第三届亚太城市信息化高级论坛市长会议(2 0 0 6年 6月 1 4日).2 0 0 7-0 1-2 2 .h t t p:/w w w.i n f o.g o v.h k/d i g i t a l 2 1/e-g o v/c h/p r e s s/d o c/S p e e c h _ 2 0 0 2 0 6 1 4 _ C I A P R _ S I T B _ c.p d f.8 “天府农业信息网”获世界信息峰会大奖.2 0 0 7-2-1 0 .h t t p:/w w w.c n i i.c o m.c n/2 0 0 5 0 8 0 1/c a 3 2 5 3 0 1.h t m.9 王安耕.政府信息资源期待增值利用.2 0 0 7-0 3-0 1 .h t t p:/i n d u s t r y.c c i d n e t.c o m/a r t/8 8 3/2 0 0 5 0 8 3 0/3 2 1 3 6 3 _ 1.h t m l.作者简介 范丽莉,女,1 9 7 7 年生,讲师,管理学博士,发表论文1 0 篇。作者简介 高劲松,女,1 9 6 6 年生,副教授,博士,发表论文近2 0 篇,出版著作1 部。张俊丽,女,1 9 8 2 年生,硕士研究生,发表论文3 篇。理管理任务分配和信息的存储;G r i d I R 利用收集管理服务和查询处理器,控制、收集、更新信息和分布式检索、异步处理、信息过滤及结果合并等;S E 4 S E E 提供语义网格服务,使用本体和元数据语言描述信息,提供数据/计算服务、信息服务和知识服务。尽管它们的体系结构不同,但研究重点基本一致,均着重于信息的收集、存储、检索和系统安全的设计与实现。面对网格技术的发展,人们对搜索引擎的索引质量要求越来越高,基于网格的搜索引擎研究越来越多,而我国在这一方面还处于起步状态。要加快我国基于网格的搜索引擎的项目的研究,在结构体系设计方面,需要注意以下几点:基于语义网格的搜索引擎系统的研究。语义网格的重要支撑技术是语义W e b 和网格技术 1 3,融合了两者的技术优势,是一种由广泛分布的组织和用户、组件、计算资源、通讯资源交互形成的开放式系统。语义网格能够用计算机可以理解和处理的方式来描述所有的资源和服务,是更趋自然的人-机交互模式,通过语义实现全球化的协同工作、资源共享和语义互操作。分布式搜索系统的研究。传统的搜索引擎在可扩展性、容错能力等方面存在较大缺陷,难以适应现代信息量的飞快增长的要求,越来越多的基于网格的搜索引擎系统趋向于采用分布式搜索和异步处理方式,支持系统间的数据交换和共享信息资源与服务,进而提高处理速度和处理能力 1 4。信息收集。通过比较可以发现,G R A C E通过本体搜索信息,S E 4 S E E 利用爬取器,G r i d I R 利用收集管理器,而S C U L P T E U R使用本体查询内容源,并按内容关联对其按关键词进行索引。虽然方法不同,但信息收集是搜索引擎系统的研究重点。我国在设计搜索引擎系统时,也应对这一部分引起足够的重视。系统任务分配和信息存储。资源分配主要处理资源请求、执行远程应用、分配资源和管理活动等服务,并根据计算资源的情况把资源更新信息发送给系统;信息存储是是对存储网络基础设施进行标准化的管理,以上各系统都提供了复制管理或资源代理等临时存储器。系统安全。为保证系统能够安全实施,系统必须能够满足用户安全、高效地使用各种资源,而在网格环境中,各种资源都是动态的,所以,其安全要求比网络环境下更进了一步。各个系统都提供了相应的安全措施。网格安全主要包括网格系统安全、数据传输安全、信息存储安全等。如何利用尽量少的系统资源,有效地提供安全保证是各系统设计的重点。参考文献:1 王林.搜索引擎的原理和系统.图书馆理论与实践,2 0 0 4(4):3 7-3 8.2 唐钟,刘金.网格搜索引擎技术研究.西南科技大学学报,2 0 0 3,1 8(4):1 2-1 4.3 C z a j k o w s k i K,F o s t e r I,K a r o n i s N,e t a l.A r e s o u r c e m a n a g e m e n ta r c h i t e c t u r e f o r m e t a-c o m p u t i n g s y s t e m.2 0 0 7-0 6-0 2 .w w w.g r i d-f o r u m.o r g/D o c u m e n t s/G F D/d e f a u l t.h t m,2 0 0 1.4 F o s t e r I,K e s s e l m a n C,T u e c k e S,e t a l .T h e a n a t o m y o f t h eg r i d.2 0 0 7-0 6-0 5 .h t t p:/w w w.g r i d f o r u m.o r g/D o c u m e n t s/d r a f t s/d e f a u l t.h t m,2 0 0 1.5 W a n g S h a n,Z h a n g K u n-L o n g.S e a r c h i n g d a t a b a s e w i t h k e y w o r d s.C o m p u t S C I&T e c h n o l,2 0 0 5,2 0(1):5 5-6 2.6 张俊丽,高劲松,张帆,等.基于网格的国外搜索引擎系统的比较研究.现代图书情报技术,2 0 0 7(9):2 8-3 3.7 S t e p h a n W.R e t r i e v a l o n t h e g r i d r e s u l t s f r o m t h e e u r o p e a nP r o j e c t G R A C E .G e r m a n:S t u t t g a r t U n i v e r s i t y L i b r a r y,2 0 0 6.8 G R A C E 项目.2 0 0 7-0 5-0 4 .h t t p:/w w w.g r a c e-i s t.o r g.9 S E 4 S E E 项目.2 0 0 7-0 5-0 8 .h t t p:/s e 4 s e e.g r i d.o r g.1 0 G R I D-I R 项目.2 0 0 7-0 5-1 0 .h t t p:/w w w.g r i d i r.o r g.1 1 H a y a G,S c h o l z e F,V i g e n J.D e v e l o p i n g a g r i d-b a s e d s e a r c h a n dc a t e g o r i z a t i o n t o o l.H i g h E n e r g y P h y s i c s L i b r a r i e s W e b z i n e.2 0 0 3(8):1-5.1 2 S C U L P T E U R 项目.2 0 0 7-0 5-1 2 .h t t p:/w w w.s c u l p t e u r w e b.o r g.1 3 朱亚玲,毕强.语义网格探微.情报理论与实践.2 0 0 6,2 9(6):7 4 2-7 4 5.1 4 李绍华.基于网格的信息检索系统体系结构研究.现代情报,2 0 0 6,2 1(7):5 7-5 9.(上接第1 3 6 页)
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 环境建筑 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服