毕业论文-主题网络爬虫的研究与实现.doc

资源描述

SelectionParagraphFormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPointselectionParagraaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaphFormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesTSelectionParbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbagraphFoLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPointse11111111111111111111111111111111lectionParagraphFormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPoctionParagraphFormatLineSpaci2222222222222222222222ngLinesToPoints2SelectionParagraphFormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPointselectionParagraphFccccccccccccccccccccccccccccccccccccccccccccccccccccccccormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPoctionParagraSelec 1. 基于C8051F单片机直流电动机反馈控制系统的设计与研究 2. 基于单片机的嵌入式Web服务器的研究 3. MOTOROLA单片机MC68HC（8）05PV8/A内嵌EEPROM的工艺和制程方法及对良率的影响研究 4. 基于模糊控制的电阻钎焊单片机温度控制系统的研制 5. 基于MCS-51系列单片机的通用控制模块的研究 6. 基于单片机实现的供暖系统最佳启停自校正（STR）调节器 7. 单片机控制的二级倒立摆系统的研究 8. 基于增强型51系列单片机的TCP/IP协议栈的实现 9. 基于单片机的蓄电池自动监测系统 10. 基于32位嵌入式单片机系统的图像采集与处理技术的研究 11. 基于单片机的作物营养诊断专家系统的研究 12. 基于单片机的交流伺服电机运动控制系统研究与开发 13. 基于单片机的泵管内壁硬度测试仪的研制 14. 基于单片机的自动找平控制系统研究 15. 基于C8051F040单片机的嵌入式系统开发 16. 基于单片机的液压动力系统状态监测仪开发 17. 模糊Smith智能控制方法的研究及其单片机实现 18. 一种基于单片机的轴快流CO〈,2〉激光器的手持控制面板的研制 19. 基于双单片机冲床数控系统的研究 20. 基于CYGNAL单片机的在线间歇式浊度仪的研制 21. 基于单片机的喷油泵试验台控制器的研制 22. 基于单片机的软起动器的研究和设计 23. 基于单片机控制的高速快走丝电火花线切割机床短循环走丝方式研究 24. 基于单片机的机电产品控制系统开发 25. 基于PIC单片机的智能手机充电器 26. 基于单片机的实时内核设计及其应用研究 27. 基于单片机的远程抄表系统的设计与研究 28. 基于单片机的烟气二氧化硫浓度检测仪的研制 29. 基于微型光谱仪的单片机系统 30. 单片机系统软件构件开发的技术研究 31. 基于单片机的液体点滴速度自动检测仪的研制 32. 基于单片机系统的多功能温度测量仪的研制 33. 基于PIC单片机的电能采集终端的设计和应用 34. 基于单片机的光纤光栅解调仪的研制 35. 气压式线性摩擦焊机单片机控制系统的研制 36. 基于单片机的数字磁通门传感器 37. 基于单片机的旋转变压器-数字转换器的研究 38. 基于单片机的光纤Bragg光栅解调系统的研究 39. 单片机控制的便携式多功能乳腺治疗仪的研制 40. 基于C8051F020单片机的多生理信号检测仪 41. 基于单片机的电机运动控制系统设计 42. Pico专用单片机核的可测性设计研究 43. 基于MCS-51单片机的热量计 44. 基于双单片机的智能遥测微型气象站 45. MCS-51单片机构建机器人的实践研究 46. 基于单片机的轮轨力检测 47. 基于单片机的GPS定位仪的研究与实现 48. 基于单片机的电液伺服控制系统 49. 用于单片机系统的MMC卡文件系统研制 50. 基于单片机的时控和计数系统性能优化的研究 51. 基于单片机和CPLD的粗光栅位移测量系统研究 52. 单片机控制的后备式方波UPS 53. 提升高职学生单片机应用能力的探究 54. 基于单片机控制的自动低频减载装置研究 55. 基于单片机控制的水下焊接电源的研究 56. 基于单片机的多通道数据采集系统 57. 基于uPSD3234单片机的氚表面污染测量仪的研制 58. 基于单片机的红外测油仪的研究 59. 96系列单片机仿真器研究与设计 60. 基于单片机的单晶金刚石刀具刃磨设备的数控改造 61. 基于单片机的温度智能控制系统的设计与实现 62. 基于MSP430单片机的电梯门机控制器的研制 63. 基于单片机的气体测漏仪的研究 64. 基于三菱M16C/6N系列单片机的CAN/USB协议转换器 65. 基于单片机和DSP的变压器油色谱在线监测技术研究 66. 基于单片机的膛壁温度报警系统设计 67. 基于AVR单片机的低压无功补偿控制器的设计 68. 基于单片机船舶电力推进电机监测系统 69. 基于单片机网络的振动信号的采集系统 70. 基于单片机的大容量数据存储技术的应用研究 71. 基于单片机的叠图机研究与教学方法实践 72. 基于单片机嵌入式Web服务器技术的研究及实现 73. 基于AT89S52单片机的通用数据采集系统 74. 基于单片机的多道脉冲幅度分析仪研究 75. 机器人旋转电弧传感角焊缝跟踪单片机控制系统 76. 基于单片机的控制系统在PLC虚拟教学实验中的应用研究 77. 基于单片机系统的网络通信研究与应用 78. 基于PIC16F877单片机的莫尔斯码自动译码系统设计与研究 79. 基于单片机的模糊控制器在工业电阻炉上的应用研究 80. 基于双单片机冲床数控系统的研究与开发 81. 基于Cygnal单片机的μC/OS-Ⅱ的研究 82. 基于单片机的一体化智能差示扫描量热仪系统研究 83. 基于TCP/IP协议的单片机与Internet互联的研究与实现 84. 变频调速液压电梯单片机控制器的研究 85. 基于单片机γ-免疫计数器自动换样功能的研究与实现 86. 基于单片机的倒立摆控制系统设计与实现 87. 单片机嵌入式以太网防盗报警系统 88. 基于51单片机的嵌入式Internet系统的设计与实现 89. 单片机监测系统在挤压机上的应用 90. MSP430单片机在智能水表系统上的研究与应用 91. 基于单片机的嵌入式系统中TCP/IP协议栈的实现与应用 92. 单片机在高楼恒压供水系统中的应用 93. 基于ATmega16单片机的流量控制器的开发 94. 基于MSP430单片机的远程抄表系统及智能网络水表的设计 95. 基于MSP430单片机具有数据存储与回放功能的嵌入式电子血压计的设计 96. 基于单片机的氨分解率检测系统的研究与开发 97. 锅炉的单片机控制系统 98. 基于单片机控制的电磁振动式播种控制系统的设计 99. 基于单片机技术的WDR-01型聚氨酯导热系数测试仪的研制 100. 一种RISC结构8位单片机的设计与实现 101. 基于单片机的公寓用电智能管理系统设计 102. 基于单片机的温度测控系统在温室大棚中的设计与实现 103. 基于MSP430单片机的数字化超声电源的研制 104. 基于ADμC841单片机的防爆软起动综合控制器的研究 105. 基于单片机控制的井下低爆综合保护系统的设计 106. 基于单片机的空调器故障诊断系统的设计研究 107. 单片机实现的寻呼机编码器 108. 单片机实现的鲁棒MRACS及其在液压系统中的应用研究 109. 自适应控制的单片机实现方法及基上隅角瓦斯积聚处理中的应用研究 110. 基于单片机的锅炉智能控制器的设计与研究 111. 超精密机床床身隔振的单片机主动控制 112. PIC单片机在空调中的应用 113. 单片机控制力矩加载控制系统的研究项目论证，项目可行性研究报告，可行性研究报告，项目推广，项目研究报告，项目设计，项目建议书，项目可研报告，本文档支持完整下载，支持任意编辑！选择我们，选择成功！项目论证，项目可行性研究报告，可行性研究报告，项目推广，项目研究报告，项目设计，项目建议书，项目可研报告，本文档支持完整下载，支持任意编辑！选择我们，选择成功！单片机论文，毕业设计，毕业论文，单片机设计，硕士论文，研究生论文，单片机研究论文，单片机设计论文，优秀毕业论文，毕业论文设计，毕业过关论文，毕业设计，毕业设计说明，毕业论文，单片机论文，基于单片机论文，毕业论文终稿，毕业论文初稿，本文档支持完整下载，支持任意编辑！本文档全网独一无二，放心使用，下载这篇文档，定会成功！本科毕业论文主题网络爬虫的设计与实现 Design and implementation of subject-oriented crawler 姓名：路刚学号：23020051204554 学　　院：软件学院系：软件工程专业：软件工程年级：2005级指导教师：史亮　副教授二〇〇九年六月 SelectionParagraphFormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPointselectionParagraaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaphFormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesTSelectionParbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbagraphFoLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPointse11111111111111111111111111111111lectionParagraphFormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPoctionParagraphFormatLineSpaci2222222222222222222222ngLinesToPoints2SelectionParagraphFormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPointselectionParagraphFccccccccccccccccccccccccccccccccccccccccccccccccccccccccormatLineSpacingLinesToPointsSelectionParagraphFormatLineSpacingLinesToPoctionParagraSelec 摘　要目前信息网上蕴含了大量的信息，但通过人工浏览的方法很难做到对信息的安全浏览、整理，很多有用的信息也就白白流失，产生了大量信息不能及时应用的矛盾，给用户造成了很大的不便，为了解决这一问题，搜索引擎这一新热点技术应运而生，本文结合信息网的特征，运用信息抽取和网页解析技术，设计和实现了搜索引擎中最重要的部分——网络爬虫，以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。本文首先对概述了网络爬虫的发展概况，然后分析了网络爬虫的体系结构以及实现原理，并深入分析了主题页面在Web上的分布特征与主题相关性的判别算法，具体工作如下： (1)爬虫部分，通过设计种子网站进行爬虫，下载尽可能全且与用户要求相符合的网站。 (2)网页预处理过程，包括分词、HTML解析和网页消噪。在对树节点进行裁剪的基础上，设计了基于样式的网页消噪方法，进一步提高网页消噪过程。 (3)主题相关性判断，包括特征提取和权值计算阶段。在特征提取阶段，通过组合文档频率，得到新的特征，达到降维和提高分类精度的效果。在权值计算阶段，结合信息增益、传统TFIDF算法和空间向量模型VSM算法，得到了更适合主题相关性判断的权值计算方法。 (4)最后，在MYECLIPSE平台上，实现了一个简易的网络爬虫系统，并简要分析了爬虫的运行效果，达到了令人满意的效果。关键词：网页解析；TFIDF算法；VSM算法 Abstract Currently there is lot of information in the public security information website,but it is not possible to visit and clean up all information only through artifical manner,so much import information would be lost,also would go aginst cracking a criminal case,which causes a great deal of inconvenience to users.To deal with this problem,search engine technology came into being the new hot spot.Based on the characteristics of information networks,the paper designed and implemented the most important part of search engine—Web Spider，using information extraction and web analytic technology to provide more detailed classification accuracy, data is more comprehensive and in-depth, more timely updates of Internet search services. This paper first outlined the development of search engines and reptile research network status and then analyzed the architecture of topic search engine and depthly analysd the theme of the page in the Web on the distribution of subject characteristics and the identification algorithm.In this paper,the concrete work as follows: (1)Spider part. By set seeds through the design of website, download as much as possible and with the whole site in line with user requirements. (2)Page pre-processing process, including Word particiling, HTML parsing and page de-noising. (3) To determine the relevance of the theme, including the feature extraction stage and the right value. In the feature extraction stage, through the combination of document frequency, new features, to achieve dimensionality reduction and improving the classification accuracy results. Value in the right phase, combined with information gain, TFIDF algorithm and the traditional vector space model algorithm, have been more suitable for the theme of the relevance of the right to determine the value of the calculation. (4) Finally, in MYECLIPSE platform to realize a simple network system reptiles, and reptiles a brief analysis of the effect of the operation, reached a satisfactory result. Key words: page analysis; TFIDF algorithm; space vector algorithm. IV 目录第一章绪论 1 1.1 选题背景和研究意义 1 1.2 搜索引擎的发展 1 1.3 国内外研究现状 3 1.4 本文的主要工作和论文结构 5 第二章网络爬虫工作原理 7 2.1 网络爬虫在搜索引攀中的地位 7 2.2 网络爬虫的基本原理 9 2.2.1 主题网络爬虫的体系结构 9 2.2.2 系统模块功能说明 10 2.3 内容提取 11 2.4 主题页面在web上的分布特征 12 2.5 本章小结 14 第三章网络爬虫的关键算法 15 3.1 网页搜索策略 15 3.2主题爬虫的搜索策略 16 3.2.1 基于内容评价的搜索策略 16 3.2.2 基于链接结构评价的搜索策略 19 3.3 主题相关性算法 21 3.3.1 向量空间模型(VSM) 21 3.3.2 页面主题相关性算法 23 3.4 本章小结 24 第四章主题爬虫的分析与设计 25 4.1 主题爬虫的体系结构 25 4.2 初始种子选取和URL队列维护 26 4.2.1 初始种子选取 26 4.2.2 URL队列维护 27 4.3 网页解析 27 4.3.1 HTML语法的分析 28 4.3.2 网页中信息资源的提取 29 4.4 主题相关性算法实现 30 4.4.1 分词算法 31 4.4.2 权值计算:TF-IDF算法 31 4.4.3 权值算法的改进：IG算法 34 4.4.4 VSM算法 38 4.5 建立索引 38 4.6 系统实现 39 4.6 总结 41 第五章总结与展望 42 5.1 本文总结 42 5.2 研究展望 42 参考文献 43 致谢 44 Contents Chapter 1 Introduction 1 1.1 Background of the topics and research significance 1 1.2 History of the development of search engines 1 1.3 Research status at home and abroad 3 1.4 Main work and structure of this paper 5 Chapter 2 Working principle of crawler 7 2.1 Status of crawler in search engine domain 7 2.2 The basic principles of crawler 9 2.2.1 Architecture of subject-oriented crawler 9 2.2.2 Introduction of module function 10 2.3 Information extraction 11 2.4 Distribution features of subject-oriented page on web 12 2.5 Summary of this chapter 14 Chapter 3 Key algorithm of crawler 15 3.1 Web searching strategy 15 3.2 Searching strategy of subject-oriented crawler 16 3.2.1 Link-based relevance algorithm 16 3.2.2 Content-based relevance algorithm 19 3.3 Subject relevance algorithm 21 3.3.1 VSM(Vector Space Model) 21 3.3.2 Relevance algorithm about web page subject 23 3.4 Summary of this chapter 24 Chapter 4 Analysis and design about subject-oriented crawler 25 4.1 Architecture of subject-oriented crawler 25 4.2 Beginning seeds selection and URL queue maintaince 26 4.2.1 Beginning seeds selection 26 4.2.2 URL queue maintaince 27 4.3 Web page extraction 27 4.3.1 HTMLsyntax analyze 28 4.3.2 Information resources extraction of the web page 29 4.4 Implementation of Relevance algorithm 30 4.4.1 Segmentation algorithm 31 4.4.2 Weight caculate: TF-IDF algorithm 31 4.4.3 Improve：IG algorithm 34 4.4.4 VSM algorithm 38 4.5 Create index 38 4.6 Implementation of this system 39 4.6 Summary of this chapter 41 Chapter 5 Summary and Outlook 42 5.1 Summary of this paper 42 5.2 Prospect resarch 42 References 43 Thanks 44 主题网络爬虫的研究与实现第一章绪论 1.1 选题背景和研究意义随着Internet的快速发展，网络正在深刻地影响着我们的生活。而在网上发展最为迅速的WWW（World Wide Web）技术，以其直观、简单、高效的使用方式和丰富的表达能力，已逐步成为Internet上最为重要的信息发布和交互方式，据美国因特网监制公司Netcraft 28日宣布，截止2008年2月底，全球互联网网站数量超过1.6亿，达162662053，较一个月前增加了450万。网页数量也达到百亿级别。随着网络信息资源的急剧增长，越来越多的信息涌到人们的面前，然后Web信心在人们提供丰富信息的同时，却在Web信息的高效便捷使用方面给人民带来巨大的挑战：一方面Web上的信息种类繁多、丰富多彩，而另一方面却很难找到真正有用的信息，搜索引擎就是在这样的背景下出现的，并且已经发挥出不可替代的作用，成为帮助人们从浩瀚的信息海洋中获取自己想要的信息的有效工具和一种举足轻重的网络应用手段。 1.2 搜索引擎的发展伴随互联网爆炸式的发展，普通网络用户想找到所需的资料简直如同大海捞针，这时为满足大众信息检索需求的专业搜索网站便应运而生了。自上世纪就是年代诞生以来，搜索引擎经历了四个发展阶段[1]：所有搜索引擎的祖先，是1990年由Montreal的McGill大学的Emtage等发明的Archie。该软件可以根据用户的文件名查找分布在各个ftp主机上的文件。受Archie的启发，Nevada大学于1993年开发了一个Gopher搜索工具Veronica。 (1) 第一代搜索引擎出现于1994年。这类搜索引擎一般数据量少，而且无法及时更新网页，检索速度比较慢。在实现上基本沿用较为成熟的IR、数据库、网络等技术。早期，一些编程者设想既然所有网页都可能有连向其他网站的链接，那么从一个网站开始，跟踪所有网页上的所有链接，就有可能检索整个互联网。到1993年底，一些基于此原理的搜索引擎开始纷纷涌现，比如：Scotland的JumpStation大学McBryan的The World Wide Web Worm。 1994年4月，Stanford University 的两名博士生，美籍华人杨致远和David Filo共同创办了“Yahoo！”。在早期，“Yahoo！”的数据是手工输入的，是一个可搜索的目录，也可称作目录型搜索引擎。 1994年7月20日，Lycos的发布是搜索引擎史上又一个重要的进步。除了相关性排序外，Lycos还提供了前缀匹配和字符相近限制，Lycos第一个在搜索结果中使用了网页自动摘要。 (2) 第二代搜索引擎大约出现于1996年。这一时期的搜索引擎大概采用分布式方案来提高数据规模、响应速度等性能，并且在检索阶段开始采用数据挖掘等技术来提高结果的相关性；1997年8月出现的Northernlight是第一个支持对检索结果进行简单聚类分类的搜索引擎。这一时期也出现一种新的搜索引擎——元搜索引擎。用户只需提交一次搜索请求，由元搜索引擎负责提交给多个预先选定的独立搜索引擎，并将各独立搜索引擎返回的所有查询结果，集中起来处理后再返回给用户。第一个元搜索引擎是Washington大学硕士生Eric Selberg 和Oren Etzioni 在1995年开发的Metacrawler。 (3) 第三代搜索引擎大约出现于1998年。此时索引数据库的规模继续增大，并结合用户反馈信息进一步提高检索结果相关性。在1998年10月之前，Google只是Stanford大学的一个小项目BackRub。1999年2月，Google完成了从Alpha版到Beta版的蜕变。现在Google的数据库已经超过四十亿网页。除了数据规模的剧增，功能也变得多样，比如开始出现主题搜索和地域搜索。Google就包括PageRank、动态摘要、网页快照、多语言支持、用户界面等功能。值得一提的是，2000年1月，两位北大校友，超链分析专利发明人、前Infoseek资深工程师李彦宏在背景中关村创立百度公司，并于同年10月正式发布Baidu搜索引擎，专注于中文搜索。Baidu搜索引擎的特色包括：百度快照、网页预览、相关搜索词、错别字纠正等特色搜索。凭借其多样的服务、简洁的界面和高效的性能，百度以纪念馆占领国内大部分市场份额。 (4) 为满足搜索需求的多样化和进一步提高相关性的要求，以主题搜索引擎为代表的第四代搜索引擎开始成为人们研究的热点。现在人们将更多的新技术融入到搜索引擎中，比如将人工智能技术融入爬虫的搜索策略，并结合自然语言处理技术来理解用户搜索行为，学习新词和提高搜索结果的相关性。网络上开始出现各种专业领域的搜索万站。随着互联网规模的急剧膨胀，一家搜索引擎光靠自己单打独斗已无法适应目前的市场情况，因此现在搜索引擎之间开始出现了分工协作，并有了专业的搜索引擎技术和搜索数据库服务提供商。像国外的Inktomi，它本身并不是直接面向用户的搜索引擎，但像包括Overture、LookSmart等在内的其他搜索引擎提供全文网页搜索服务。 1.3 国内外研究现状人们于20世纪80年代开始对Web信息抽取技术进行研究，研究的方向主要集中在两个领域。一方面研究的主要目的是把网页中的无结构化数据或半结构化数据变成结构化数据，在这方面已有大量的研究工作，包括HTML结构分析方法(如XWRAP[2]和Lixo[3])、基于自然语言处理的方法(如SRV)、机器学习学习方法和基于Ontology方法等，这些方法通常是面向特定领域、特定网站或者目前针对特定格式。信息抽取另一方面的研究主要目的不是提取细粒度的数据而是提取标题、正文等主题内容或兴趣区域，本章将介绍这一领域的研究现状[4]。在国外方面，Finn等人将HTML文档看作字符和标签组成的序列，在字符集中的区域提取文字。这种方法仅适合主题文字集中的网页，如果段落间有表格或链接标签丰富的结构，就不能有效处理。Kaasinen等人提出Desk-Card模型，将网页(Desk)分为若干Card，每次显示一个Card，减少了页面大小，但是没有提取出信息，用户需要阅读多个Card才能确定主题。Buyukkokten等人提出了STU模型，STU对应网页中的快(block)，将网页分割为平行的STU，Desk-Card模型和STU模型都采用了分块思想，后者减少了定位时间，但是它们都改变了源网页的结构和内容，而且没有提取出主题信息，保留了无关的文字和链接。Gupta等人的方法是从网页中删除无关部分，维持了网页的结构和内容，但在删除链接较少考虑上下文的语义，极易删除正文中的链接列表，使提取结果不完整。在国内方面，对网页中主题内容的抽取近年来也被广泛的研究。王琦等基于DOM规范，针对HTML的半结构化特征和缺乏语义描述的不足，提出含有语义信息的STU-DOM模型，它以STU节点内的链接数和非链接文字数为节点的语义信息，将HTML文档转换为STU-DOM树，并对其进行基于结构的过滤和基于语义的剪枝。胡国平等人针对新闻网页，提出了基于统计的正文抽取的方法，它只适合于一个网页中所有正文信息都放在一个TABLE中的情况。孙承杰等将节点内非链接文字、链接文字占本节点文字以及整棵HTML树的比例，以及节点是否出现TABLE、DIV、TR、TD标签等方面的信息作为节点的特征向量，提出了基于双层决策的正文抽取策略，并利用特征向量提取和决策树算法对上述决策进行建模。主题爬虫就是根据一定的网页分析算法过滤与主题无关的链接，保留主题相关的链接并将其放入待抓取的URL队列中;然后根据一定的搜索策略从队列中选择下一个要抓取的网页URL，并重复上述过程，直到到达系统的某一条件时停止。所有被爬虫程序抓取的网页将会被系统存储，进行一定的分析，对于主题爬虫来说，这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。为了高效地抓取与主题相关的信息资源，研究者提出了许多主题定制策略和相关算法，使得主题爬虫尽可能多地爬行主题相关的网页，尽可能少的爬行无关网页，并且确保网页的质量。通过分析比较，本文将它们分为如下四类。 (1) 基于文字内容的启发式方法基于文字内容的启发策略主要是利用了Web网页文本内容、URL字符串、锚文本等文字内容信息。不同的分析方法构成了不同的启发策略和相应的算法。主要包括: ① Best first search方法:基本思想是给定一个待爬行URL队列，从中挑选最好的URL优先爬行。爬行主题采用关键词集合来描述，待爬行URL的优先级是根据主题词和已爬行网页p的文字内容来计算，用它们的相关度来估计p所指向网页的相关度。相关度大的网页，它所指向的网页优先级就高，从而决定了待爬行队列中URL的优先级顺序。在主题爬虫研究领域，该算法具有一定的竞争力，所以很多研究者将其作为算法性能的比较基准。 ② Fish search方法。 1994年由学者De Bra等人[5]提出。它将在网络上遍历的爬虫比喻成海里的一群鱼，当它们发现食物(相关信息)时，这些鱼就继续繁殖，寻找新的食物;当没有食物时(没有相关信息)或水被污染(带宽不够)时，它们就死掉。该算法的关键是根据代表用户感兴趣主题的种子站点和主题关键词，动态地维护待爬行的URL优先级队列。 ③ Shark search方法[6]。它在 Fish seareh算法的基础上进行了改进。此算法综合考虑网页以及链接文本的相关性，对网页中的U甩按照优先权值进行排序，通过乘上一个衰减因子来继承父页面的相关性。与fish算法相比，Shark算法精确度高，能更好地保证爬行器正确的搜索方向，提高相关信息的发现率。 (2) 基于Web超链接结构图评价的方法基于Web图的启发策略的基本思想来自于文献计量学的引用分析理论。尽管引用分析理论的应用环境与Web并不相同，但到目前为止，网页之间的超链接还是比较有价值的一种信息。基于Web超链接结构图评价的爬行算法有以下几种: ① BackLink:一个网页被其他网页所引用的次数越多，就说明越重要。待爬行URL队列按照BackLink的数量来排序，数量大的优先爬行。 ② PageRank:基于Web图，首先计算每个网页的PageRank值，然后对待爬行URL队列按照PageRank的值进行排序。 PageRank算法是由Google的创始人S.Brin和LPage提出的，它是一种与查询无关的算法[7]。在BackLink算法中，一个网页的链入网页数量越大，它的重要性就越大，而没有考虑入链的质量问题。实际上，不同质量的网页对网页重要性的贡献是不同的。简单地说，按照BackLink算法，要想提高某网页的重要性，只要建立许多网页

展开阅读全文