收藏 分销(赏)

分布式搜索引擎设计与实现.pdf

上传人:xrp****65 文档编号:5695399 上传时间:2024-11-15 格式:PDF 页数:94 大小:3.25MB 下载积分:10 金币
下载 相关 举报
分布式搜索引擎设计与实现.pdf_第1页
第1页 / 共94页
分布式搜索引擎设计与实现.pdf_第2页
第2页 / 共94页


点击查看更多>>
资源描述
中国科学技术大学硕士学位论文分布式搜索引擎设计与实现姓名:李伟申请学位级别:硕士专业:模式识别与智能系统指导教师:朱明20060501摘要在网页如此繁多的今天,人们在互联网上查找各种信息,往往都需要借助互联网搜索引擎的帮助。本文就是要设计一个针对互联网搜索的大规模分布式搜索引擎。互联网搜索引擎系统一般由四个主要部分组成:爬虫子系统,存储子系统,索引子系统,门户子系统。首先爬虫子系统通过网页链接爬行互联网,将网页或者其他W e b 对象抓取下来,保存到存储子系统;索引子系统从存储子系统获取未索引的网页,计算索引数据,建立索引。门户提供一个用户交互界面,用户搜索互联网时,在门户上输入查询关键字,门户建立查询语句发送到索引子系统,查询关键字对应的网页,然后返回给用户。本文实现了互联网搜索引擎中的核心功能,完成了一个基本的面向大规模互联网的分布式搜索引擎平台。在分布式爬虫子系统中,多个爬虫应该避免重复爬行,本文按照U R L 的H a s h 值为每个爬虫分配一个U R L 空间,互不重叠,并通过调整爬虫爬行的U R L 空间来进行负载均衡。另外,本文实现的爬虫系统可以同时支持I P v 4 和I P v 6 网络。存储子系统由若干个存储组构成,每个存储组存储互不重叠的一个U R L 空间的W e b 对象,由主服务器发布这一存储策略。通过扩展存储组可以不断提高整个系统的存储容量。每个存储组又由若干个存储单元组成,它们存储完全相同的数据,即所有的数据都是多备份的,保证数据安全,并可以提高数据访问的并发能力。外部客户端访问存储子系统根据主服务器发布的存储策略直接访问,数据访问过程中,无需主服务器参与,主服务器不再成为频繁数据访问操作下的瓶颈。索引子系统分为两个部分,索引计算和索引服务。索引计算子系统从存储子系统下载待索引数据建立索引,并发送给索引服务子系统。为提高索引计算的可靠性,索引计算服务器与存储子系统的存储组采用多对多的关系,即多个索引计算服务器同时计算多个存储组上的待索引数据。存储组提供F T P 服务,一次只允许一个索引计算服务器下载待数据包,下载完毕,将该数据包移动到待删除目录,从而避免了多个索引计算服务器同时下载计算相同的索引。索引服务子系统中各个索引服务器上都存储所有的索引数据,保证索引数据安全性。本文的各个子系统都采用基于策略的分布式架构,策略描述了系统内部服务分布情况,以及访问这些服务应该遵守的接口,由主服务器制定和发布系统服务访问策略。系统内部各个服务器都按照策略规定提供服务,成为一个独立的自治系统,相互之间直接协调工作。外部客户端访问系统提供的服务也是按照策略直接访问,不需要主服务器参与。这种服务访问方式极大地提高了系统扩展性,使主服务器不再成为系统瓶颈。同时也提高了系统性能和可靠性(主服务器宕机时,整个系统仍然可以在一定程度上继续提供服务)。目前搜索引擎厂商的W e b 存储系统解决方案都没有公开,只有G o o g l e 提到它的W e b存储建立在G o o g l e 文件系统之上,也没有公开详细的W e b 存储设计。本文详细描述了所实现的搜索引擎中W e b 存储系统的解决方案。为了提高性能,简化数据访问模型,本文设计的W e b 存储系统不再建立在分布式文件系统之上,而是采用基于策略的分布式架构,由每个存储组自行存储、组织和维护W e b 对象,主服务器不维护W e b 对象元数据,也不参与具体的数据访问。外部客户端需要访问存储服务,只需要按照访问策略直接访问相应的存储组。搜索引擎中的所有服务器都是采用廉价的P C 机,各种软硬件故障在所难免。为了在不可靠的软硬件系统上建立一个稳定可靠的搜索引擎,系统中的每个服务器都与其他一些服务器维持心跳,持续检测各种异常情况,及时处理错误。重要数据都有多个备份,并能通过简单的数据复制进行快速灾难恢复。总体上,本文实现的搜索引擎具有很好的可扩展性、高性能和可靠性,解决了分布式互联网搜索引擎中爬虫系统、存储系统和索引系统中的若干问题。关键字:搜索引擎网络爬虫W e b 存储索引分布式2A b s t r a c tT o d a y,p e o p l ef i n da l lk i n d so fi n f o r m a t i o no nt h eI n t e m e tu s u a l l yr e l yo nt h eh e l po ft h eI n t e r n e ts e a r c he n g i n e sW ea r ed e s i g n i n gal a r g e s c a l ed i s t r i b u t e dt h et n t e r n e ts e a r c he n g i n eh e r e G e n e r a l l y,n t e r n e ts e a r c he n g i n ec o n s i s t so ff o u rm a i nc o m p o n e n t s:c r a w l i n gs u b s y s t e m,s t o r a g es u b s y s t e m,i n d e x i n gs u b s y s t e m,p o r t a ls u b s y s t e mF i r s t l y,c r a w l i n gs u b s y s t e mc r a w lW e b P a g e st hr o u g ht h ep a g e sl i n k s a n ds t o r e st h e mi nt h es t o r a g es u b s y s t e m I n d e x i n gs u b s y s t e md o w n l o a d st i l ec r a w l e dp a g e s,c a l c u l a t e si n d e xd a t aT h eu s e r si n p u ts e v e r a lk e y w o r d st ot h ep o r t a lI tb u i l d su paq u e r y,s e n d st oi n d e xs u b s y s t e m,g e t st h eh i t p a g e s,a n dr e t u r nt ot h eu s e rW eh a v ei m p l e m e n t e dt h ec o r ec o t D,p o n e n to ft h el a r g e s c a l eI n t e r n e td i s t r i b u t e ds e a r c he n g i n ep l a t f o r m I nd i s t r i b u t e dc r a w l i n gs u b s y s t e m,w ea s s i g nan o n o v e r l a p p e dU R Ls p a c e,a c c o r d i n gt oU R Lh a s hv a l u e,t oe a c ho ft h ec r a w l e r s T h ec r a w l e r sc a r lk e e pl o a d b a l a n c eb ya d j u s t i n gt h eU R Ls p a c e An u m b e ro fs t o r a g et e a m sc o n s t i t u t et h eS t o r a g es u b s y s t e mT h em a s t e ro f t h es y s t e mp u b l i s h e st h es t o r a g es t r a t e g y T h es t r a t e g yd i v i d e st h eU R Ls p a c e,a n da s s i g n se a c ht oo n es t o r a g et e a m T h r o u g he x p a n d e dt h es t o r a g et e a m sc a nc o n s t a n t l yi m p r o v et h es y s t e ma s aw h o l es t o r a g ec a p a c i t yS e v e r a ls t o r a g ec e l l sc o n s t i t u t eat e a m,a n ds t o r ei d e n t i c a ld a t a T h e ya r em o r eb a c k u p so f a l ld a t a,t oe n s u r ed a t as e c u r i t yI tc a na l s oi m p r o v et h ep a r a l l e l a C C e S Sc a p a b i l i t y S t o r a g ec l i e n t sa c c e s st h ed a t ao ns t o r a g et e a m sd ir e c t l y,a c c o r d i n gt h es t o r a g es t r a t e g y,w i t h o u tm a s t e r sh e l pM a s t e rc e a s e dt ob eaf r e q u e n to p er a t i o no ft h ed a t aa c c e s sb o t t l e n e c k sI n d e xs u b s y s t e mh a st w op a r t s,t h ei n d e x i n ga n di n d e xs e r v i c e I n d e x i n gs u b s y s t e md o w n l o a d sw e bp a g ep a c k a g ef r o ms t o r a g es u b s y s t e m,c a l c u l a t e si n d e xd a t a,a n dt r a n s f e ri tt oi n d e xs e r v i c es u b s y s t e m T oi m p r o v et h er e l i a b i l i t yo fi n d e xc a l c u l a t i o n,m u l t ii n d e x e r sc a l c u l a t e st h ew e bp a g e so nm u l t is t o r a g et e a m s As t o r a g et e a ma l l o w so n l yo n ei n d e x e rt od o w n l o a dd a t ap a c k a g e st h r o u g hF T Pa to n et i m eW h e nc o m p l e t e d,t i r es t o r a g et e a mm o v e st h e mo u t T h ej n d e x e r sw o u l dn o td o w n l o a da n dc a l c u l a t es a m ei n d e xd a t aT h ei n d e xd a t as t o r e so ne a c hi n d e xs e r v i c es e r v e r,e n s u r i n gt h es e c u r i t yo f t h ei n d e xd a t a E a c hs u b s y s t e mu s e st h es t r a t e g y b a s e dd i s t r i b u t e da r c h i t e c t u r e T h es t r a t e g yd e s c r i b e st h ed i s t r i b u t i o no fs e r v i c e sw i t h i nt h es y s t e m,d e v e l o p e da n dp u b l i s h e db yt h em a s t e r,A l ls e r v e r sw i t h i nt i r es y s t e mp r o v i d es e r v i c e si na c c o r d a n c ew i t ht h es t r a t e g ya sa ni n d e p e n d e n ta u t o n o m o u ss y s t e mT h e yc o l l a b o r a t ed i r e c t l y C l i e n t sd i r e c t l ya c c e s s i n gt h es e r v i c e sa r ea l s oi na c c o r d a n c ew i t ht h es t r a t e g y,a n dt h e r ei sn on e e df o rt h en l a s t e ri n v o l v e d I tg r e a t l ye n h a n c e ds y s t e ms c a l a b i l i t yI na d d i t i o n,i ta l s oi n c r e a s e ds y s t e mp e r f o r m a n c ea n dr e l i a b i l i t yC u r r e n t l yt h eW e bs e a r c he n g i n em a n u f a c t u r e r sa r en o to p e ns t o r a g es y s t e ms o l u t i o n s T h i st h e s i sg i v e sas o l u t i o nf o ri n t e r n e ts e a r c he n g i n es t o r i n gw e bp a g e sT oi m p r o v ep e r f o r m a n c e,s i m p l i e yd a t aa c c e s sm o d e l s,t h eW e bs t o r a g es y s t e mn ol o n g e rb a s e do nd i s t r i b u t e df i l es y s t e m I tu s e ss t r a t e g y b a s e dd i s t r i b u t e da r c h i t e c t u r e,c o n s t i t u t e sf r o ms t o r a g et e a m sT h e ym a i n t a i nt h eW e bo b j e c t sa l lb yt h e m s e l v e sT h em a s t e rd o e sn o tm a i n t a i no b j e c t sm e t a d a t a,n o ri n v o l v e di nd a t aa c c e s s C l i e n t sa c c e s st i l es t o r i n gs e r v i c ed i r e c t l ya c c o r d i n gt ot h es t r a t e g y T h ew h o l es y s t e me o n t i n u n o u s l yd e t e c t sv a r i o u se x c e p t i o n s,a n dd e a l sw i t ht h e mi nt i m e B yt h i sw a y,w eb u i l dah i g ha v a i l a b il i t ys y s t e mf r o mc h e a p,u n r e l i a b l eP C s T h i st h e s i si m p l e m e n t sar e l i a b l e,s c a l a b l e,h i g hp e r f o r m a n c ei n t e r a c ts e a r c he n g i n eA n di ts o l v e ds e v e r a lp r o b l e m si nd i s t r i b u t e dc r a w l i n gs y s t e m,w e bs t o r a g es y s t e m,i n d e xs e r v i c es y s t e mK e y w o r d s:s e a r c he n g i n e,w e bc r a w l i n g,w e bs t o r i n g,i n d e x,d i s t r i b u t e ds y s t e m3j背景与需求2目标3重点问题解决方案4架构5接口5 1外部接口52内部接口6功能与实现6 1W S C M a s t e r 功能与实现6 2S t o r a g eT e a mM a s t e r 和S t o r a g eC e l l 功能与实现7系统测试与分析第五章分布式索引系统1背景与需求2目标3重点问题解决方案4架构5接口5l索引计算系统的外部接口5 2索引计算系统的内部接口5 3索引服务系统的外部接口5 4索引服务系统的内部接口6功能与实现61I n d e x i n g M a s t e r 功能与实现6 2I n d e x e r 功能6 3I n d e xS e r v i c e M a s t e r 功能6 4I n d e xS e r v e r 功能7系统测试与分析第六章总结I本文主要成果一2进一步工作2 1需要进一步扩展的工作2 2需要完善的工作2,3需要研究的工作参考附录发表论文图序图lW i k i p e d i a 链接图图2 中国搜索引擎用户不满意情况统计图如蛇钉甜卯卯档弛跎”弛旺以苫卯钉锯加乃乃而蚰引引跎昭踮图3 搜索引擎一般结构图图4 分布式搜索引擎一般结构图图5 分布式搜索引擎总体架构图图6 一般分布式系统架构图图7 分离数据流的分布式系统架构图图8 基于策略的分布式系统架构图图9 爬虫系统在搜索引擎中的位置图1 0 爬虫系统构架围一图l l 爬虫系统交互序列图图1 2C r a w l e rM a s t e r 系统结构图图1 3C r a w l e r 系统结构图图1 4 爬虫系统下载曲线图1 5 服务器共享D A S 设备图1 6 N A S 存储系统图1 7S A N 存储系统图1 8W e bS t o r a g eC l u s t e r 架构图图1 9 W S C 交互序列图图2 0 W S C M a s t e r 系统结构图图2 1S t o r a g eT e a m 系统结构图图2 2 数据上传一对和一对多图2 3 多对多数据上传速度图2 4 数据下载速度图2 5 索引系统结构图图2 6 索引系统交互序列图图2 7I n d e x i n gM a s t e r 系统结构图图2 8I n d e x e r 系统结构图图2 9I n d e xS e r v i c eM a s t e r 系统结构图图3 0I n d e xS e r v e r 系统结构图表序表格1 爬虫策略发布接口消息格式定义表一表格2 爬虫心跳接口信息格式定义表表格3 爬虫心跳接口消息格式定义表表格4C r a w l e r 之间接口消息格式定义表表格5W e b 对象文件格式头部定义表表格6W e b 对象文件格式数据段定义表表格7W e b 对象包文件格式头部定义表表格8W e b 对象包描述文件格式头部定义表表格9 爬虫实验机器配置表2 表格1 0 多台爬虫计算机测试数据表1 表格l l 多台爬虫计算机测试数据表1 表格】2 存储系统测试计算机配置信息表HH博悖旧丝N巧如弛弛“钙铉”们:。佗乃卯勰勰四巧巧强弛弛鼹6表格1 3 一对一传送速度(单位:l O o b p s)表格1 4 一对多数据传输速度(单位:l o o b p s)表格15 多对多数据传输速度(单位:1 0。b p s)表格1 6 一对一数据下载速度(单位:1 0 6 b p s)表格1 7 二对二数据下载速度(单位:1 0 0 b p s)表格1 8 索引计算任务分配策略发布接口消息格式定义表表格1 9 索引计算系统心跳接口信息格式定义表表格2 0 索引服务系统心跳接口信息格式定义表表格2 11 0 M B 量级待索引数据计算表格2 21 0 M B 量级原始数据索引后关键字查询命中数和时间表格2 31 0 0 M B 量级带索引数据计算一表格2 41 0 0 M B 量级原始数据索引后关键字查询命中数和时间招铋”铝加孺弛为致谢X9 1 8 2 8 5首先要感谢我的父母,是他们给了我生命,养育我多年。在我生活有什么不愉快的时候,他们总是耐心的劝导我,安慰我;在我学习工作忙碌的时候,他们都一直支持我,甚至劝我少打电话。每每想起父母的点点滴滴,心中总是无比温暖和感激。而在异地求学的我平常都难得与他们见上一面,尽管我们彼此都非常挂念。这学期毕业论文一直都非常忙碌,往家里打电话的时间也少了,很多时候都没有好好跟他们聊聊天,心中很是愧疚。感谢弟弟在我离开的日子照顾父母!作为兄长,我很少关心他的生活,倒是他总是反过来关心我,真是对不住。导师朱明教授一直都悉心指导我学习工作,很多时候他的三言两语总是让陷入迷茫的窝窝茅塞顿开。从他那里不仅仅学习到很多知识,更重要的,我还学习到很多学习、工作的方法,这将使我受益终身。毕业论文一开始,朱老师就和我们一起讨论搜索引擎中可能遇到的各种问题,详细讨论系统中各个模块的设计,可能的难点,解决思路等等。毕业论文能够如期完成与朱老师的指导是密不可分的。在这里我要说一声,朱老师,谢谢您的指导!感谢您多年来的教诲!本课题组的王海洋、周家明、蒋澜以及早期参加的刘守群、朱超、徐锦等,感谢你们的努力工作,也感谢你们在集体讨论中贡献出你们的智慧,有了你们的帮助,整个搜索引擎才得以实现,本文也才得以完成。高小波、梁荣龙、庞勇强、王胜,还有胡冰和我一起在这个实验室走过了三年,平常生活、学习、工作中,都得到你们的大力帮助,我们也互相讨论各种问题,经历这么多年,我们已经成为最好的朋友。前几天,王胜和他老婆去领结婚证了。能够找到一个共度生的伴侣,生命有了归宿,真是大喜啊!真的好羡慕你们,祝福你们生活幸福,白头偕老。同实验室的郭春茂、李香、杨扬、钟捷飞:宫涛、戴洪、周军等都给我各种帮助;室友、很多本科同学以及其他同学,哦,还有身在海外的朋友们,在此一并感谢你们的关心、帮助与支持。不久就要离开这个美丽的校园了,在这里,我已经度过了七个春秋;在这里,我经历了人生最珍贵的一段日子;也是在这里,我学会了很多知识、懂得了做人的道理。感谢你,我的母校【第一章绪论第一章绪论1 互联网搜索引擎的历史与发展1 1 互联网的历史与发展1 9 5 8 年1 月7 日,美国政府由于国防需要,在五角大楼成立了国防前沿研究项目署(A R P A)。1 9 6 0 年,A R P A 研发了第一个计算机互鞋网络A R P A 网,1 9 7 4 年A R P A的鲍勃-凯思和斯坦福的温登泽夫提出T C P I P 协议!,并在1 9 8 3 年将A R P A 网的核心协议由N C P。改变为T C P I P,即现在的互联网基础协议。在J 9 8 6 年,美国国家科学基金会(N a t i o n a lS c i e n c eF o u n d a t i o n,N S F)建立了大学之间互联的骨干网络N S Fn e t,这是因特网历史上重要的一步。由于N S F 网对全社会开放,得到了极大的发展,迅速取代A R P A 网,成为国际互联网络的主干网4。1 9 9 4 年,N S F N E T 转为商业运营5。在互联网发展到同时,1 9 9 1 年8 月6 日,T i i nB e r n e r s L e e 在C E R N(欧洲原子能研究组织,E u r o p e a nO r g a n i z a t i o nf o rN u c l e a rR e s e a r c h)经过两年的努力,终于在新闻组上发布W o r l d W i d e W e b 项目,即今天的万维网。万维网通过H T M L(H y p e rT e x t M a r k e rL a n g u a g e)标记语言编写网页,通过超链接把网页组织在一起,如下图:图lW i k i p e d i a 链接图这是w i k i p e d i a 网站链接图,从W i k i p e d i a 主页出发,会链接到W i k i p e d i a 的各种语言的子网站,以及Y a h o o,G o o g l e 等其他网站。而这些网站也会链接到更多得其他网站,这样就将整个万维网链接起来,从而可蚪简单方便的互相访问。文献【1IJ 正文第6 页:当前互联网的基础协议,参看文献3 2 1,N k t:h t t p:z h w i k i p e d i ao r g w i k i T C P I PN e t w o r k C o n t r o lP r o g r a m,参看文献【3 4 1,网址:h t t p:e n w i k i p e d i a o r g w i k i N e t w o r k _ C o a t r o t P r o g r a m4 参看文献f 3I 5 参看文献【32 ,网址:h t t p:z h w i k i p e d i ao r g w i k i E 4 B A 9 2 E 8 8 1 9 4 E 7 B D 9 I第一章绪论万维网一经推出就得到了极快的发展,如今已经成为互联网上最重要的应用。各种传统的应用分分向w w w 整合,比如传统的E m a i l,B B S 等网络系统。另一方面,新的基于W W W 的应用也层出不穷,比如B l o g,W i k i 等等。经历了十几年的发展,W W W正变得更加繁荣。1 2 搜索引擎分类随着w w w 内容越来越繁多,人们查找想要的内容也变得越来越困难,互联网搜索引擎的出现很大程度上解决了这个问题。通常人们把目录检索系统也成为搜索引擎,比如很著名的雅虎W e b 目录。但是它与本文所研究的搜索引擎存在着很大的差别,很多学者也认为它并不是严格意义上的搜索引擎。搜索引擎的一个重要特点是,根据要检索的内容构造索引倒排表。查询时从倒排表索引中找到相关内容的文档,这是目录检索系统并不具备的。搜索引擎的分类方式很多,目前也没有很统一的分类表。本文在参考了很多搜索引擎分类,并考察了目前广泛应用的搜索引擎系统后,总结出如下分类:按照搜索的范围,搜索引擎可以分为:”桌面搜索引擎。桌面搜索引擎的目的为了方便个人电脑用户查找自己计算机上的文件,通过对个人电脑上的文件建立索引,加快查找速度。目前G o o g l e以及其他几家公司都已经推出,或者正在开发桌面搜索引擎产品。2)企业搜索引擎。企业搜索引擎主要是针对企业用户对企业局域网和其他共享资源建立索引,方便企业用户查找内部资源。目前G o o g l e、I B M 等几家公司已经推出了相关产品。3)互联网搜索引擎。面向整个互联网资源的搜索引擎,通常由爬虫机器人自动从互联网搜集资源,然后建立索引,供用户查询。目前已有一大批互联网搜索引擎厂商推出了相应产品,如G o o g l e,M s n,百度等等。按照搜索的文档类型,搜索引擎又可以分为:1)网页搜索。网页搜索是目前互联网搜索引擎最主要的搜索内容,援索内容集中于互联网页面。2)图片搜索图片搜索是近几年出现的针对互联网图片的一种搜索,I q 前技术能力的限制,图片搜索还不能根据图片画面内容来搜索,只能通过图片所出现的上下文文字,以及图片所包含的元数据信息来搜索。3)音频搜索,与图片搜索类似,音频搜索主要检索互联网上出现的各种音频文件,如m p 3 等。由于音频文件一般都有元数据信息、,因此建立索引检索比较容易。另外对于歌曲,往往还会有相应的歌词搜索。4)视频搜索。视频搜索是最近几年才出现的,与图片搜索和音频搜索类似,搜索内容集中于视频短片。视频搜索的推出一方面得盏于搜索技术的日益成熟,另一方面是由于宽带互联网的推广。5)文档搜索。文档搜索一般应用于桌面或企业搜索引擎中,搜索的内容主要限于常用的文档类型,比如W o r d,E x c e l,P P T,P D F,以及电子邮件等文件。按照搜索的互联网内容,可以分为:1)一般网页搜索即针对普通网页的搜索引擎。2)新闻搜索,主要针对实时新闻内容,搜索引擎往往爬行大量新闻门户网站,对爬行得到的大量新闻内容建立索引,供用户搜索。另外搜索引擎还往往对新闻资讯进行聚合,推出新闻服务。2第一章绪论3)B T 搜索,由于P 2 P 技术的流行,B T 搜索也应运而生,专门针对B T 种子发布的一种搜索引擎,往往会汇集很多B T 种子发布网站的种子供用户搜索。4)R S S 搜索,随着R S S 技术的流行,也出现了很多相应的R S S 搜索引擎。5)B l o g 搜索,由于B l o g 的流行,很多搜索引擎厂商也推出了相应的B l o g 搜索引擎。B l o g 往往都具有类似的信息结构,并且大部分可以都通过R S S 发布,更新速度陕,因此搜索引擎厂商往往针对B l o g 推出专门的搜索引擎。6)学术搜索,很多科研工作者在研究某个课题时,往往需要查阅大量的论文,学习其他工作者的研究成果。虽然很多杂志社和专门的学术数据中心都有专门的学术论文搜索引擎,但是下载论文往往需要支付一定的费用,并且这些系统各不相通,用户往往需要查阅很多个这种数据中心才能得到比较全面的资料。学术搜索针对这一需求,利用爬虫技术自动从互联网上获取大量论文资料,建立索引。由于很多论文作者会把自己的论文发布到g t 己的个人主页上,从这些地方就可以免费下载论文了。按照搜索内容所属的行业可以分为:通用搜索引擎和行业搜索引擎。通用搜索引擎即针对普通网页的搜索引擎,而行业搜索引擎则是指针对某一行业信息的专门搜索引擎,比如工作就业,商品等。还有一种分类方法是按照搜索结果来源,一般搜索引擎都是从互联网爬行网页,建立索引,然后查询索引数据库得到搜索结果,返回给用户。元搜索引擎则不同,它本身不爬行互联网网页,它的搜索结果来源于其他搜索引擎。用户搜索时,它将搜索语句发送给其他搜索引擎,其他搜索引擎返回结果后,元搜索引擎将这些结果整合在一起返回给用户。元搜索引擎极大的提高了搜索的查全率,但是搜索效率方面要低一些。1 3 互联网搜索引擎的历史与发展1 9 9 0 年初,当时万维网(W o r l dW i d eW e b)还未出现,为了查询散布在各个分散的主机中的文件,曾有过A r c h i e、G o p h e r 等搜索工具,随着互联网的迅速发展,基于H 丌P访问的W e b 技术的迅速普及,他们就不再能适应用户的需要。在1 9 9 4 年1 月,第一个既可搜索又可浏览的分类目录E I N e tG a l a x y(T r a d e w a v eG a l a x y)上线,它还支持G o p h e r和T e l n e t 搜索。同年4 月,Y a h o o 目录诞生,并开始支持简单的数据库查询,获得了巨大的成功。这就是早期的目录导航系统,网站收录和更新都是要人工维护的。在信息量剧增的条件下,就变得难以及时更新与维护,运行成本也极高。1 9 9 4 年7 月,L y c o s 推出了基于r o b o t 的数据发现技术。通过机器人程序自动从万维网上搜集网页。并支持搜索结果相关性排序,并且最先开始在搜索结果中使用网页自动摘要。1 n f o s e e k 也是同时期的一个重要代表,他们是搜索引擎史上一个重要的进步。1 9 9 5 年1 2 月才登场亮相的A l t a V i s t a 推出了大量的创新功能使它迅速到达当时搜索引擎的顶峰,它第一个支持自然语言搜索的搜索引擎,具各了基于网页内容分析,智能处理的能力,第一个实现高级搜索语法的搜索引擎(如支持A N D、O R、N O T 等),同时A l t a V i s t a 还支持搜索新闻群组(N e w s g r o u p s),搜索图片等具有划时代意义的功能。同时期还有i n k t o m i、H o t B o t 等搜索引擎。1 9 9 7 年8 月N o r t h e r n l i g h t 公司正式推出搜索引擎,它第一个支持对搜索结果进行简单的自动分类,也是当时拥有最大数据库的搜索引擎之一。1 9 9 8 年1 0 月,G o o g l e 诞生。由于它具备很多独特而且优秀的功能,比如优秀的P a g eR a n k 算法,高效迅速的搜索速度等等,并且在界面等实现了革命性创新,简洁易第一章绪论用,支持多种文件格式,支持完整字符串查找,拼写检查等等实用功能,成为目前最流行的搜索引擎之一。在中文搜索引擎领域,1 9 9 6 年8 月成立的搜狐公司是最早参与作网络信息分类导航的网站,曾一度有“出门找地图,上网找搜狐的”美誉。由于其仿效雅虎,采用人工分类提交的方式整理网络信息,随着网络信息的巨增,逐渐被基于r o b o t 自动抓取智能分类的新一代信息技术取代。北大天网是教育网最流行的搜索引擎,它由北大计算机系网络与分布式系统研究室开发,于1 9 9 7 年1 0 月2 9 日正式在C E R N E T 上提供服务,2 0 0 0 年初成立天网搜索引擎新课题组,由国家9 7 3 重点基础研究发展规划项目基金资助开发,收录网页约6 0 0 0万,利用教育网优势,有强大的F T P。搜索功能。百度中文搜索由超链分析专利发明人、前I n f o s e e k 资深工程师李彦宏和好友徐勇2 0 0 0 年1 月创建,目前支持网页信息检索,图片,F l a s h,音乐等多媒体信息的检索。7由于多年的中文分析技术积累,目前在中文搜索领域领先于业界最大的搜索引擎G o o g l e。2 0 0 4 年8 月1 9 日,G o o g l e 在N A S D A Q 上市,取得了巨大成功,让很多公司重新认识到搜索引擎市场的重要性,分分进入。I B M 和O r a c l e 等巨头都推出了面向企业的搜索引擎,而G o o g l e 和M i c r o s o f t 则展开了桌面搜索引擎的竞争。2 0 0 5 年,M i c r o s o f t投入巨大的人力物力加大搜索引擎的研发,目前己推出b e t a 版本,正在评估。集成很多新的功能,支持网页、新闻、图片、桌面搜索、本地搜索、词典、百科全书、股票、电影、
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传

当前位置:首页 > 环境建筑 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2026 宁波自信网络信息技术有限公司  版权所有

客服电话:0574-28810668  投诉电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服