基于领域本体聚焦爬虫技术研究学位论文.pdf

资源描述

1、山东科技大学硕士学位论文摘要摘要We b信息量的急剧猛增以及广大互联网搜索用户信息检索需求的不断提升，使得搜索引擎技术由原来的面向全体互联网用户，提供公用信息服务的通用搜索引擎发展到面向特定领域，为用户提供专业信息服务的垂直搜索引擎。相应地，在通用爬虫技术研究的基础上，也需要进一步对聚焦爬虫技术进行研究。论文首先对搜索引擎和垂直搜索引擎、通用爬虫和聚焦爬虫的相关概念、体系结构及工作原理做出了介绍和讨论。然后，从抓取目标的描述、网页分析算法和网页搜索算法三个角度对传统的聚焦爬虫关键技术进行了分析，为进一步的研究打下了铺垫。论文重点对基于领域本体的聚焦爬虫技术进行了深入研究。主要的工作与

2、论点如下：（1）论文讨论了被用作聚焦爬虫主题模型的领域本体的设计、构建和更新方法。从路径距离、语义重合度、语义深度、语义密度和概念属性儿个角度，研究并改进了领域本体概念语义相似度的计算方法。（2）论文提出一种基于领域本体概念语义相似性的主题相关度计算方法，通过对向量空间模型中的网页文档向量进行语义扩展，使聚焦爬虫对网页的分析具备了一定程度的概念语义特性，提高了聚焦爬虫的查全率和查准率。（3）论文提出一种面向主题的改进的Hits算法，它从URL字符串、锚文本、扩展锚文本及父页面主题相关度几个方面来分析链接基于内容的主题相关性。然后，将基于内容的分析加入到传统的基于网络链接结构的Hit

3、s算法中，使其在综合考虑网页内容和网络链接结构的前提下得到了很大程度的优化，削弱了主题漂移现象。（4）针对We b Community和隧道现象所造成的最佳优先算法只能做到“局部最优”的现象，论文提出一种基于隧道技术的最佳优先算法。算法引入URL优先队列和多个 URL候选队列的概念，通过暂不放弃主题无关URL以发现更多主题相关URL的策略，使得最佳优先算法在某种程度上跨越了网络隧道，初步具备了“全局最优”的特点。关键字：聚焦爬虫，领域本体，Hits算法，向量空间模型，最佳优先算法山东科技大学硕士学位论文AbstractAbstractWith the rapid growth of the

4、Inte rne t information re source s and the promotion of use rs information re trie val d e mand s,it is re que ste d that se arch e ngine be d e ve lope d from ge ne ral-purpose se arch e ngine which provid e s all use rs with public information se rvice s to ve rtical se arch e ngine which provid e

5、 s spe cific d omain se rvice s.Corre spond ingly,it is ne ce ssary that furthe r re se arche s on focuse d crawle r te chnology should be ad d re sse d on basis of ge ne ric crawle r te chnology.In the pape r,we make some introd uction and d iscussion about ge ne ral-purpose se arch e ngine and ve

6、rtical se arch e ngine,as we ll as ge ne ric crawle r and focuse d crawle r,and we also make analysis and comparison on the ir syste m archite cture and working principle.In ad d ition,we analyze the trad itional ke y te chnologie s of focuse d crawle r from thre e aspe cts:the d e scription of the

7、capture goal,page analysis algorithm and page se arch algorithm.The se are the basis of the in-d e pth stud y.In the pape r,we make furthe r re se arch on focuse d crawle r te chnology base d on d omain Ontology.The main work and conclusions are as follows:(1)we d iscuss the d e sign,construction an

8、d re ne wal of d omain Ontology which is use d as the topic mod e l of focuse d crawle r.And we stud y and improve the d omain-Ontology-base d se mantic similarity computing me thod by analyzing such factors as path d istance be twe e n two nod e s,se mantic ove rlapping d e gre e,se mantic d e pth,

9、se mantic d e nsity and conce pt attribute s.(2)We propose a topic similarity computing me thod base d on se mantic similarity of d omain Ontology conce pts.It ad d s ce rtain se mantic characte ristic to the focuse d crawle rs page analysis by e xpand ing the d ocume nt ve ctor of Ve ctor Space Mod

10、 e l,and it improve s the re call and pre cision of the focuse d crawle r.(3)We propose an improve d topic-orie nte d Hits algorithm,it analyze s topic similarity base d on conte nt by analyzing URL,anchor te xt,e xpand e d anchor te xt and the topic similarity d e gre e of the pare nt page.The n it

11、 ad d s the se conte nt-base d analysis into Hits algorithm which d e pe nd s on link structure,and it is optimize d gre atly by analyzing both conte nt and link structure.The improve d Hits algorithm we ake ns the topic d rifting phe nome non.(4)In vie w of the local optimization characte ristic of

12、 Be st F irst Algorithm cause d by We b Community and We b Tunne l,we propose the Be st F irst Algorithm base d on Tunne ling Te chnology.It e mploys the conce pts of the prior URL que ue and the cand id ate URL que ue s and ad opts the strate gy that not giving up the irre lative URL imme d iate ly

13、 in ord e r to find more山东科技大学硕士学位论文 Abstractre lative URLs.Thus the Be st F irst Algorithm base d on Tunne ling Te chnology can bre ak through the we b tunne ls and gain the characte ristic of global optimization.Keywords：F ocuse d Crawle r,Domain Ontology,Hits Algorithm,Ve ctor Space Mod e l,Be st

14、 F irst Algorithm山东科技大学硕士学位论文目录目录1绪论.11.1 课题研究背景.11.2 课题研究状况及发展趋势.21.3 论文研究内容.51.4 论文组织结构.62搜索引擎技术概述.72.1 搜索引擎的概念及性能指标.72.2 搜索引擎的分类及发展趋势.82.3 搜索引擎体系结构及工作原理.92.4 从通用搜索到垂直搜索.122.5 本章小结.153聚焦爬虫技术概述.163.1 通用爬虫与聚焦爬虫.163.2 聚焦爬虫体系结构及工作原理.183.3 聚焦爬虫关键技术.203.4 本章小结.284领域本体在聚焦爬虫中的应用.294.1 本体相关理论.294.2 聚焦爬虫领域本

15、体的设计、构建与更新.324.3 领域本体概念语义相似度计算方法的改进与应用.384.4 本章小结.435基于领域本体的聚焦爬虫技术研究.445.1 基于领域本体概念语义相似性的主题相关度计算方法.445.2 基于改进的Hits算法的主题相关性预测方法.485.3 基于隧道技术的最佳优先算法.555.4 本章小结.596总结与展望.606.1 总结.606.2 展望.60参考文献.62致谢.65攻读硕士期间主要成果.66山东科技大学硕士学位论文Conte ntsContents1 Introduction.11.1 Re se arch Background s of the Issue.1

16、1.2 Pre se nt Re se arch Situation and Tre nd.21.3 Re se arch Conte nt.51.4 F rame work of the Pape r.62 Summary of Search Engine Technology.72.1 Conce pts and Pe rformance Ind e xe s of Se arch Engine.72.2 Classifications and Tre nd of Se arch Engine.82.3 Syste m Archite cture and Principle of Se a

17、rch Engine.92.4 F rom Ge ne ric Se arch to Ve rtical Se arch.122.5 Paragraphic Summary.153 Summary of Focused Crawler Technology.163.1 Ge ne ric crawle r and F ocuse d Crawle r.163.2 Syste m Archite cture and Principle of Ve rtical Se arch Engine.183.3 Ke y Te chnologie s of F ocuse d Crawle r.203.4

18、 Paragraphic Summary.284 Domain Ontologys Application in Focused Crawler.294.1 Ontology The orie s.294.2 The De sign Construction and Upd ate fbr the Domain Ontology of F ocuse d Crawle r.324.3 Improve me nt in Computation of Conce ptual Similarity in Domain Ontology and its Application.384.4 Paragr

19、aphic Summary.435 Research on Technology of Domain-Ontology-Based Focused Crawler.445.1 Computation Me thod of Topic Similarity base d on Conce ptual Similarity in Domain Ontology.445.2 Topic Similarity F orcasting Me thod base d on improve d Hits Algorithm.485.3 Be st F irst Algorithm base d on Tun

20、ne ling Te chnology.555.4 Paragraphic Summary.596 Summarizations and Prospects.606.1 Summarizations.606.2 Prospe cts.60References.62Acknowledgement.65Main Work Achievements during Working on Master Paper.66山东科技大学硕士学位论文绪论1绪论1.1 课题研究背景Inte rne t的发展势如破竹，导致了 we b信息量的急剧膨胀。据统计，目前因特网上可索引到的网页数已超过110亿页，并且仍在

21、以指数级的生长方式急剧猛增。面对如此浩瀚而又气势凶猛的信息海洋，Google、百度等传统的通用搜索引擎对信息的打捞、索引越发显得力不从心，逐渐显露出“覆盖率低、时效性差、准确性差”等弊端。通用搜索引擎立意于满足用户的公共信息查询需求，它根据用户输入的查询串与索引页面在内容上的匹配程度的高低来筛选、返回页面。这种检索方式不但带回大量的无关页面，而且缺乏个性，已不能满足人们日益增长的对个性化服务的需求。面对这些挑战，适应特定领域、特定人群的特定需求的垂直搜索引擎（也称专业搜索引擎或主题搜索引擎）应运而生，并越来越受到人们的关注与青睐。垂直搜索引擎面向特定领域，专注于自己的特长，保证

22、了对领域信息的完全收录与及时更新，具备“专、精、深”的特点，是未来搜索技术发展的大势所趋。目前，搜索引擎对网页信息的获取主要还是通过网络爬虫技术来实现。网络爬虫 Crawle r（也称网络蜘蛛We b spid e r）是一种能够跟踪网络上超链接结构，并不断进行网络资源发现与采集的程序。传统意义上的爬虫指通用爬虫，它通常只关注于网页链接的获取，以及网页或网页块的整体抓取，对网页内容基本不作分析与处理。所以，适用于通用搜索引擎的网络爬虫不能满足垂直搜索引擎搜集“主题相关”网页信息的特定需求，需要具备更高智能性和针对性的面向垂直搜索的爬虫系统来实现主题信息的获取。它不仅要能提取、分析网页

23、链接，而且还应能分析网页的结构及内容，准确提取、加工结构化信息，以对网页的重要性和主题相关性做出及时而又准确的判断一一聚焦爬虫系统在搜索技术的发展过程中担起了此项重任。聚焦爬虫是目标主题驱动的、进行有选择性地爬行网页的爬虫系统。它区别于通用爬虫的地方就在于能够进行主题相关性分析，通过主题相关性分析来选择主题相关网页进行抓取，是使得垂直搜索引擎具备专业特色的关键所在。因而，聚焦爬虫技术的发展决定着垂直搜索引擎的进化，对聚焦爬虫技术的研究也已在搜索技术研究领域倍受关注。1山东科技大学硕士学位论文绪论1.2 课题研究状况及发展趋势1.2.1 课题研究状况自垂直搜索引擎诞生以来，人们一直因

24、循着三条主线逐步展开对聚焦爬虫的研究，它们分别是：抓取目标的描述、网页分析算法和网页搜索算法。抓取目标的描述是决定网页分析算法与URL搜索策略如何制定的基础。现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征，基于目标数据模式和基于领域概念三种。而网页分析算法和网页搜索算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。本文从以下几个方面对这两部分内容展开描述：基于网页内容的评价算法、基于网络拓扑结构的评价算法、基于未来回报的评价算法、基于动态价值的评价算法和基于概念语义的评价算法。基于网页内容的分析主要有F ish-Se archno和Shark-se arch”“两

25、种算法。F ish-Se arch 算法由De Bra于1994年提出，它将用户输入的查询关键词或短语作为主题，将包含查询串的页面看作与主题相关，且仅搜索主题相关页面。这种相似度的评价方法只能确定页面与主题是否相关，不能评价相关程度的高低，因此具有局限性；后来，He rsovici对 F ish-Se arch算法进行了改进，提出了 Shark Se arch算法。该算法充分利用了锚文本及其上下文，采用基于连续值的相似度函数计算链接价值，在计算出页面是否相关的同时，还可以得出相关性的大小。基于网页内容的分析以文本的内容与主题的相似度来评价链接价值的高低，从而决定其搜索策略。优点是计算简

26、单，在距离相关页面较近的地方搜索时性能较好，但由于忽略了 We b页面的结构化特征，很难反映We b的整体情况，存在“近视”的缺点。Page Ranki6和Hitspq算法是最经典的两个基于网络拓扑结构的网页分析算法。两者都是通过对网页间链接度的递归和规范化计算，得到每个网页的重要度评价。Page Rank 算法的“用户冲浪”模型考虑了用户访问行为的随机性，但忽略了用户访问行为的目的性，即网页和链接与查询主题的相关性。针对这个问题，Hits算法计算页面的Authority 权重和Hub权重，并以此决定页面中链接的访问顺序。基于链接结构评价的搜索算法，考虑了链接的结构特征，对主题相关网站

27、搜索时使用效果较好，但由于忽略页面内容与主题的相关性，容易出现搜索偏离主题的“主题漂移”问题。另外，在搜索过程中需要迭代计算Page Rank值或Authority及Hub权重，当页面和链接数量不断增长时计算复 2山东科技大学硕士学位论文绪论杂度也呈指数级增长。基于未来回报的分析算法通过训练发掘出链接文本中“隐含”的结构信息，这些结构信息反映了距离搜索目标的远近，因而在搜索远期回报方面具有一定优势。其代表性方法有基于巩固学习的搜索策略和基于“语境图”的搜索策略。McCallums将巩固学习引入网络蜘蛛模型，其主要特点是利用巩固学习的方法预测和选择未来回报最大的链接进行搜索。Dili

28、ge ntiio从相关页面出发，构建“语境图”(Conte xt Graphs)和分类器，并根据语境图的层次预测距离相关页面的远近，较近的页面较早访问。基于未来回报的分析算法的不足之处在于：其一是预测未来回报的能力有限，进一步的研究表明它们的预测距离不超过3-4层；其二是其“离线”(off-line)的训练方式需要选择典型站点或种子集，加重了用户的负担。基于动态价值的搜索策略的特点是价值评价机制并不“固定”，而是随搜索环境的变化而动态变化。针对传统的基于内容评价的网络蜘蛛存在“近视”的问题，Este rs提出了基于“隧道”技术(tunne ling strate gy)的搜索策略，即

29、当搜索位置距离相关页面较远时，则动态调整搜索策略，将搜索主题的范围扩大，使网络蜘蛛能够跨越无关页面，寻找到正确的搜索方向。考虑到传统的搜索策略通常采用“固定的”主题集，主题集的构建方式对搜索效率影响较大，为此Aggarwal也提出了“智能搜索”技术，在搜索过程中通过“在线”学习链接的结构特征获得用户的兴趣集，用于指导搜索过程。Chakrabarti,提出了利用“在线相关反馈”(online re le vance fe e d back)调整搜索策略，以提高搜索效率的方法。基于“动态”价值评价的搜索策略根据环境的变化动态调整价值评价机制，表现出极大的灵活性.实验表明，这类搜索策略能有

30、效提高搜索效率。基于概念语义的网页分析算法把信息检索从基于关键词层面提升到基于知识(概念语义)的层面。主题爬虫针对的“主题”是与领域相关的一组概念，有学者使用“概念空间”来表示刖，目前较流行的是用本体(Ontology)来表示叩。基于概念语义的网页分析算法利用Ontology对领域概念及概念间关系的明确定义来提高判定精度，是一种比较新又比较好的尝试。其优点在于聚焦爬虫可将领域本体作为主题概念模型，并根据领域本体概念间的语义相似性关系，通过对爬行网页文档向量中的主题关键词进行语义扩展来实现文档向量的规范化，从而进一步挖掘主题信息，扩大网页搜索范围，提高检索精度。其不足之处在于，该方

31、法对领域本体的依赖性非常大，领域本体构建的好坏以及更新的快慢直接影响着聚焦爬虫的爬行效率和质量。3山东科技大学硕士学位论文绪论1.2.2 发展趋势论文在1.2.1中讨论了聚焦爬虫技术的研究现状。接下来，论文依然因循聚焦爬虫技术研究的三条主线对其发展趋势进行讨论：（1）抓取目标描述的优化对抓取目标即垂直搜索引擎主题的描述是聚焦爬虫进行网页抓取的根本依据。抓取目标描述的全面性和准确性直接决定着爬虫的搜索质量。传统的给定一初始种子样本集、给定一网络目录结构的方式存在很大的局限性，不适合呈爆炸式增长的网络信息集合。基于概念空间（领域本体）的方法是一种趋势，需要在本体的构建、更新、推理规则以及语

32、义相似度的计算方面做更加深入的研究，并尽量使其更加适合聚焦爬虫的实际需求。（2）对网页分析内容和技术的优化就内容而言，De e p We b数据的挖掘是将来的一个大趋势。因为互联网中的数据大部分都存在于动态的De e p We b之中，静态页面大约仅占整个互联网数据的三分之一，而当前爬虫对网页的爬取也主要是针对静态页面的。此外，随着网络技术的发展，互联网中的数据已不再局限于文字和链接信息，大量的图片、音频和视频信息充斥着互联网，因此对这些多媒体数据的分析和挖掘也将是将来研究的一个热点和重点。就技术而言，将信息抽取、数据挖掘与数据仓库技术应用到网页搜索技术中可以使爬虫从抓取到的网页信息中

33、学习、挖掘出更有价值的信息，对提高网页分析的效能和质量非常有益。（3）对网页搜索算法的优化网页搜索算法的优化主要从提高链接价值预测的准确性和增加网络蜘蛛的自适应性两个方面进行深入。提高链接价值预测的准确性需要将各类评价方法相结合，尤其是将基于立即回报价值评价和基于未来价值评价相结合值得进一步研究；将目前信息检索领域中的“概念检索理论应用于链接价值的计算，是一个新的尝试方向。增加网络蜘蛛的自适应性主要通过采用启发式搜索策略来实现。在爬虫搜索过程中，每次除选择价值最优的链接外，还以一定的概率有限度地接受价值次优的链接。本质上说，网络蜘蛛的搜索问题是一个“多目标”规划问题。在合理的时间限度

34、内，以较少的网络资源、存储资源和计算资源的消耗获得更多的主题相关页面是网络蜘蛛追求的最终目标。4山东科技大学硕士学位论文绪论1.3 论文研究内容针对聚焦爬虫技术的研究主要涉及抓取目标的描述、网页分析算法以及网页搜索算法三个切入点。论文以这三个切入点为线索展开相关研究。抓取目标描述立意于构建一种能够涵盖垂直搜索引擎主题信息的主题模型。传统的方法是给定一种子集合或给定一主题网站的目录结构，其信息容量相对较小，对主题的描述表现出相当的局限性。本文利用领域本体来实现抓取目标的描述。领域本体是关于领域中相关概念及概念间关系的一种描述。通常，由领域专家来完成领域本体的构建，以它作为主题模型，主题

35、信息具备相当的覆盖度和权威性。且领域本体的概念层次结构支持推理，聚焦爬虫可利用领域本体中概念间的语义相似性对主题进行扩展，从而提高查全率和查准率。聚焦爬虫对网页及URL的分析侧重于主题相关性。对网页进行分析的目的在于计算网页的主题相关度，以决定是否对抓取的网页信息进行索引；对URL的分析主要是预测 URL所对应网页的主题相关性，以决定是否抓取URL对应的网页。针对网页的主题相关度计算，本文提出基于领域本体中概念间的语义相似性来优化向量空间模型的方法。论文首先提出一种领域本体概念语义相似度计算的方法，分别从本体中概念间的路径距离、语义重合度、语义深度、语义密度以及概念属性等几个方面对语

36、义相似性进行分析，给出一个领域本体概念语义相似度的计算公式。并以概念相似度为依据来对向量空间模型的文档向量进行规范化和优化。由此，通过引入领域本体，使得聚焦爬虫对网页的分析具备了一定程度的概念语义特性。针对URL主题相关性的预测，本文提出一种改进的 Hits算法。传统的Hits算法更加注重网页在链接结构中的重要性，却没有充分考虑到网页主题相关度的重要性，这对聚焦爬虫而言是一大缺失。本文充分利用URL串自身的信息、锚文本、扩展锚文本以及父页面传递给子页面的主题相关度值等信息来优化Hits 算法，使其更加符合垂直搜索引擎的切实需求，并可利用领域本体对网页主题预测中所有涉及到的文本信息进

37、行语义扩展，以加大聚焦爬虫的搜索范围。在搜索算法的优化方面，本文针对由“We b Community”和“隧道现象”所造成的最佳优先算法“局部最优”的特点，提出一种基于隧道技术的最佳优先算法。通过引入一个最大爬行深度和增加3个URL候选队列来缓存当前与主题无关的URL,这样可以通过对当前主题无关网页的分析来发现一些主题相关的URL,使得最佳优先算法在某种程度上跨越了网络隧道，初步具备了“全局最优”的特点。5山东科技大学硕士学位论文绪论1.4 论文组织结构本文按照以下结构来组织论文内容：第一章为绪论。主要介绍论文课题的研究背景、研究现状及发展趋势。第二章介绍搜索引擎技术，包括搜索引擎和垂

38、直搜索引擎的概念、分类、体系结构及工作原理、搜索引擎的发展趋势等，并在本章末尾对通用搜索引擎和垂直搜索引擎进行了比较。第三章介绍聚焦爬虫技术，包括通用爬虫和聚焦爬虫的概念、体系结构及工作原理，并对二者的工作方式进行了比较。进而从抓取目标描述、网页分析算法和网页搜索算法三个角度介绍了聚焦爬虫的关键技术。第四章讨论领域本体在聚焦爬虫中的应用。首先介绍了本体、领域本体的相关概念。然后讨论了充当聚焦爬虫主题模型的领域本体的设计、构建和更新方法。然后，从路径距离、语义重合度、语义深度、语义密度和概念属性儿个角度，研究并改进了领域本体中概念语义相似度的计算方法。第五章讨论基于领域本体的聚焦爬虫技

39、术。首先基于改进的领域本体概念语义相似度计算方法提出一改进的主题相关度计算方法，通过对网页文档向量进行语义扩展，使得聚焦爬虫对网页的分析具备了一定程度的概念语义特性。接下来提出一改进的Hits算法，综合考虑网页内容和网络链接结构来评价URL的重要度，在很大程度上削减了主题偏移现象，优化了主题预测的准确度。最后，论文提出基于隧道技术的最佳优先算法。它采用暂不放弃主题无关网页以发现更多主题相关网页的算法对最佳优先算法进行优化，使其“局部最优”的特点转变为“全局最优”。第六章对本文工作做出总结和展望。6山东科技大学硕士学位论文搜索引擎技术概述2搜索引擎技术概述2.1 搜索引擎的概念及性能指

40、标2.1.1 搜索引擎的概念Google和百度是最典型的搜索引擎系统。整体而言，我们可以将搜索引擎看作是为广大互联网用户提供信息检索服务的软件系统。它根据用户输入的关键字，在互联网上搜索相关信息，然后将搜索结果反馈给用户。实际上，搜索引擎并不是真正搜索互联网，它搜索的是预先整理好的网页索引数据库。真正意义上的搜索引擎，通常指的是收集了 Inte rne t上几千万到几十亿个网页并对网页中的每个关键词进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在网页内容中包含了该关键词的网页都作为搜索结果被搜出来。然后利用相关排序算法进行排序，最终结果将按照与搜索关键词的相

41、关度高低依次排列呈现给搜索用户。那么，我们究竟该如何对搜索引擎下一个定义呢？李晓明山等提出：搜索引擎是一种在We b上应用的软件系统，它以一定的策略在we b上搜集和发现信息，在对信息进行处理和组织后，为用户提供We b信息查询服务。2.1.2 搜索引擎的性能需求互联网对搜索引擎的性能需求主要体现为查得快、查得全、查得准和查得稳四个方面。其中，“快”应快到秒级以下（商用搜索引擎到毫秒级），而影响快的主要因素有索引库的效率、分布查询的处理能力以及查询缓存的命中率几个方面；而“全”，则体现为查全率，反映的是搜索引擎能根据用户输入的关键字于we b中打捞信息的能力，捞的越多，查全率越高；

42、“准”自然是最重要的，因为用户往往关心的只是查出所有结果的前几条。“准”用查准率来衡量，即查出的相关文档总数与查出所有文档总数的比率。影响查准率的主要因素是网页排序算法（Page Rank算法）；而“稳”则指搜索引擎运行的稳定性，涉及文件的存储方式、查询系统和索引系统的设计儿大方面。7山东科技大学硕士学位论文搜索引擎技术概述2.2 搜索引擎的分类及发展趋势2.2.1 搜索引擎的分类搜索引擎按服务方式的不同可分为全文搜索引擎、目录搜索引擎和元搜索引擎三种。（1）全文搜索引擎全文搜索引擎是名副其实的搜索引擎，它们都是通过从互联网上提取的各个网站的信息（以网页文字为主）而建立的数据库中，检索与

43、用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户。典型代表有Google和百度。（2）目录的搜索引擎目录搜索引擎通过人工浏览各站点的信息，按照一定的分类规则或分类体系对网站进行分类，基于站点导航进行分类浏览，可看作网站的黄页查询。最具代表性的目录搜索引擎莫过于大名鼎鼎的Yahoo。（3）元搜索引擎元搜索引擎没有自己的数据，它在接受用户查询请求时，将用户查询需求同时提交给多个搜索引擎，然后将所有的查询结果按自己的算法进行筛选、整理后反馈给查询用户。就实质而言，它也是一种面向网页的全文检索。著名的元搜索引擎有国外的 InfoSpace和国内的搜星搜索引擎。2.2.2 搜索

44、引擎的发展趋势最初的以目录搜索为主要特征的目录式搜索引擎（如Yahoo）被称作第一代搜索引擎；而引入链接分析技术后的搜索引擎（如google）被称作第二代搜索引擎。目前，第二代搜索引擎正在发展和形成之中，它以智能化、个性化和专业化为目标，逐渐呈现出以下热点研究领域：（1）多媒体搜索引擎与文本搜索不同的是，多媒体搜索引擎并不是以关键词作为搜索对象，而是基于内容检索的，通过将视频或音频文件分割对其视觉图象的结构和音乐风格进行分析。未来的网络是多媒体数据的时代，随着宽频服务的广泛应用与计算机软硬设备的快速更新，多媒体资料在互联网上更为丰富，多媒体搜索必将大放异彩！8山东科技大学硕士学位论文

45、搜索引擎技术概述（2）个性化搜索引擎个性化搜索引擎通过长期观察和记录用户的搜索行为，从中识别用户的信息需求偏好，并且能够根据用户对搜索结果的评价，自觉调整搜索策略，使得对于同一检索请求，不同用户能够得到最贴近自己需要的信息。个性化搜索引擎的核心是根据用户信息及通过跟踪分析用户的搜索行为来提高搜索引擎的查准率和亲和力，以使其更加适合各类用户的口味，满足他们不同的搜索需求。（3）智能搜索引擎智能搜索引擎把信息检索从目前基于关键词的层面提升到基于知识（或概念）的层面。它引入语义的概念，并逐渐增强自然语言处理、语音识别和理解的能力，对知识有一定的理解与处理能力，能够实现智能分词技术、同义词技

46、术、概念搜索、短语识别以及机器翻译技术等，它允许用户采用自然语言进行信息检索，为他们提供更方便、更确切的搜索服务。（4）垂直搜索引擎垂直搜索引擎是面向特定领域、特定人群的特定需求的搜索引擎。它专注于自己的特长，表现出“专、精、深”的特点，且具行业色彩，保证了对该领域信息的完全收录与及时更新。目前，垂直搜索方面的应用在互联网上异军突起，引发了一股搜索技术的应用狂潮。2.3 搜索引擎体系结构及工作原理2.3.1 搜索引擎体系结构通常，搜索引擎主要由下载系统、分析系统、索引系统和查询系统组成。下载系统负责we b网页的抓取及跟踪下载工作；分析系统负责对获取到的网页进行内容和链接分析、网

47、页消重、计算PR值、并对网页进行中文分词等工作；索引系统则主要负责倒排索引的生成、存储及检索工作；查询系统是用户与搜索引擎进行交互的窗口，用于用户提交查询请求并为用户生成、返回查询结果。图2.1给出搜索引擎的体系结构：9山东科技大学硕士学位论文搜索引擎技术概述图2.1搜索引擎体系结构F ig.2.1 Syste m Archite cture of Se arch Engine2.3.2 搜索引擎的工作原理根据图2.1所给出的搜索引擎体系结构，论文描述其各个部分的工作原理如下：（1）网页的抓取搜索引擎所要做的首要工作就是在互联网上不断地抓取网页，此项工作由搜索引擎的下载系统利用它的抓取程

48、序一一网络爬虫（Crawle r）来完成。网络爬虫可以理解为一段自动搜集网页的智能程序。它因循一定的爬行策略，自动从互联网上抓取网页，然后对网页进行预处理和分析，并提取出新的url信息进行新一轮的抓取。（2）网页的预处理及倒排索引的创建搜索引擎抓到网页后，需要将抓到的网页交由分析系统做网页的预处理工作，包括网页结构化、网页消重、中文分词、超链接分析以及PR值的计算等。之后，索引系统将根据网页预处理的结果提取关键词，建立网页倒排索引文件，以辅助查询系统的查询工作。为了更好地分析和理解下载系统所捕获的网页信息，分析系统首先会根据HTML 文档半结构化的特点对其进行结构化分析，以使标签与内

49、容相分离，并识别出有用的正文信息。经过网页结构化分析后，分析系统提炼出了网页的亚文文本内容。而对捕获到的所有网页而言，重复是在所难免的。因此，分析系统的第二项任务就是查重、消重。经过了网页的结构化和消重后，便可对内容进行分析和处理了。一方面要进行中文分词,即将正文文本中的各个句子切割成一个个小的词汇单元；再就是根据一些特定的分析算 10山东科技大学硕士学位论文搜索引擎技术概述法为网页打分。接下来，由索引系统根据分词及打分的结果为网页建立倒排索引。索引系统建好后，用户就可以通过搜索引擎的用户接口提交搜索请求了。（3）提供信息检索服务搜索引擎通过查询系统为用户提供信息检索服务：用户输入关键词

50、进行检索，搜索引擎从索引数据库中找到匹配该关键词的网页，然后加工生成查询结果，并通过用户接口将查询结果反馈给用户。离线部分图2.2搜索引擎的工作流程F ig.2.2 Workflow fbr Se arch Engine整体而言，可将搜索引擎体系统结构的四大部分分成两大块：分别是由下载系统、分析系统与索引系统组成的离线部分，和仅由查询系统自身组成的在线部分。离线部分承担数据制作工作，而在线部分则提供数据服务工作，各部分工作流程如图2.20为了使查询系统能为用户提供优质高效的数据查询服务，离线部分在日常的T作中需要做大量的工作，首先是由下载系统对网页进行及时而又全面的抓取，将网页下载到

展开阅读全文

基于领域本体聚焦爬虫技术研究 学位论文.pdf

基于领域本体聚焦爬虫技术研究学位论文.pdf