1、 分类号 密级 UDC 编号 学 位 论 文 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 Implementation of Education Resource Vertical Searching System Based on Hadoop 分 类 号 : 密 级 :
2、U D C : 编 号 : 学 位 论 文 基于Hadoop平台的教育资源垂直搜索系统的设计与实现 Implementation of Education Resource Vertical Searching System Based on Hadoop 学科专业: 计算机应用技术 计算机科学与通信工程学院 2 0 11 年 04
3、 月 江 苏 大 学 工 程 硕 士 学 位 论 文 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密 , 在 年解密后适用本授权书。 本学位论文属于 不保密 。
4、学位论文作者签名: 指导教师签名: 年 月 日 年 月 日 I 毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人郑重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得 及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或
5、集体,均已在文中作了明确的说明并表示了谢意。 作 者 签 名: 日 期: 指导教师签名: 日 期: 使用授权说明 本人完全了解 大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部内容。 作者签名: 日 期:
6、 学位论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。 作者签名: 日期: 年 月 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权 大学
7、可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 涉密论文按学校规定处理。 作者签名: 日期: 年 月 日 导师签名: 日期: 年 月 日 指导教师评阅书 指导教师评价: 一、撰写(设计)过程 1、学生在论文(设计)过程中的治学态度、工作精神 □ 优 □ 良 □ 中 □ 及格 □ 不及格 2、学生掌握专业知识、技能的扎实程度 □ 优 □ 良 □ 中 □ 及格 □ 不及
8、格 3、学生综合运用所学知识和专业技能分析和解决问题的能力 □ 优 □ 良 □ 中 □ 及格 □ 不及格 4、研究方法的科学性;技术线路的可行性;设计方案的合理性 □ 优 □ 良 □ 中 □ 及格 □ 不及格 5、完成毕业论文(设计)期间的出勤情况 □ 优 □ 良 □ 中 □ 及格 □ 不及格 二、论文(设计)质量 1、论文(设计)的整体结构是否符合撰写规范? □ 优 □ 良 □ 中 □ 及格 □ 不及格 2、是否完成指定的论文(设计)任务(包括装
9、订及附件)? □ 优 □ 良 □ 中 □ 及格 □ 不及格 三、论文(设计)水平 1、论文(设计)的理论意义或对解决实际问题的指导意义 □ 优 □ 良 □ 中 □ 及格 □ 不及格 2、论文的观念是否有新意?设计是否有创意? □ 优 □ 良 □ 中 □ 及格 □ 不及格 3、论文(设计说明书)所体现的整体水平 □ 优 □ 良 □ 中 □ 及格 □ 不及格 建议成绩:□ 优 □ 良 □ 中 □ 及格 □ 不及格 (在所
10、选等级前的□内画“√”) 指导教师: (签名) 单位: (盖章) 年 月 日 评阅教师评阅书 评阅教师评价: 一、论文(设计)质量 1、论文(设计)的整体结构是否符合撰写规范? □ 优 □ 良 □ 中 □ 及格 □ 不及格 2、是否完成指定的论文(设计)任务(包括装订及附件)? □ 优 □ 良 □ 中 □ 及格 □ 不及格 二、论文(设计)水平 1、论文(设计)的理论意义或对解决实际问题的指导意义 □ 优 □ 良
11、□ 中 □ 及格 □ 不及格 2、论文的观念是否有新意?设计是否有创意? □ 优 □ 良 □ 中 □ 及格 □ 不及格 3、论文(设计说明书)所体现的整体水平 □ 优 □ 良 □ 中 □ 及格 □ 不及格 建议成绩:□ 优 □ 良 □ 中 □ 及格 □ 不及格 (在所选等级前的□内画“√”) 评阅教师: (签名) 单位: (盖章) 年 月 日 江苏大学硕士研究生毕业论文 教研室(或答辩小组)及教学系意
12、见 教研室(或答辩小组)评价: 一、答辩过程 1、毕业论文(设计)的基本要点和见解的叙述情况 □ 优 □ 良 □ 中 □ 及格 □ 不及格 2、对答辩问题的反应、理解、表达情况 □ 优 □ 良 □ 中 □ 及格 □ 不及格 3、学生答辩过程中的精神状态 □ 优 □ 良 □ 中 □ 及格 □ 不及格 二、论文(设计)质量 1、论文(设计)的整体结构是否符合撰写规范? □ 优 □ 良 □ 中 □ 及格 □ 不及格 2、是否完成指定的论文(设计)
13、任务(包括装订及附件)? □ 优 □ 良 □ 中 □ 及格 □ 不及格 三、论文(设计)水平 1、论文(设计)的理论意义或对解决实际问题的指导意义 □ 优 □ 良 □ 中 □ 及格 □ 不及格 2、论文的观念是否有新意?设计是否有创意? □ 优 □ 良 □ 中 □ 及格 □ 不及格 3、论文(设计说明书)所体现的整体水平 □ 优 □ 良 □ 中 □ 及格 □ 不及格 评定成绩:□ 优 □ 良 □ 中 □ 及格 □ 不及
14、格 (在所选等级前的□内画“√”) 教研室主任(或答辩小组组长): (签名) 年 月 日 教学系意见: 系主任: (签名) 年 月 日 摘 要 互联网的出现改变了我们的生活、工作、学习乃至娱乐的方式。网上丰富的基础教育资源为广大基础教育工作者、学生以及学生家长提供了充足的参考资料和教育信息,然而由于缺乏行之有效的整合标准和手段,目前这些资源的分布呈现高度分散状态,内容庞杂无序,结构化程度低,用户往往难以快速准确地获取到自己需要的信息。所以我们必须研究和设计出针对教育资源搜索的网络平台,以提高用户获取教育资源信
15、息的速度和准确度。 本文通过对现有的互联网搜索平台的分析,借鉴其他应用领域的垂直搜索平台所采用的架构和设计方法,通过使用Hadoop平台的分层分布的架构和聚焦蜘蛛的爬行技术,提出基于Hadoop平台的B/S多层分布式架构系统模型,给出提高搜索运行效率的若干关键技术,并基于该架构的设计实现了系统。本文的主要工作包括: (1) 通过对Hadoop平台的基本原理和架构以及Hadoop平台的两个核心组件HDFS与Map/Reduce的分析,选择Hbase对系统的数据进行管理,并对可视化系统的Hbase数据模型的设计以及条件查询的改进进行阐述。 (2) 基于抽样调查和教育经验,进行MDVSP的软件
16、需求分析,设计基于Hadoop平台的教育资源垂直搜索(MDVSP)架构模型。该架构模型把业务处理服务器与Web服务器分开,采用并行计算提高业务处理能力,使得基于该架构模型下的系统具有良好的可伸缩性、可扩展性、可维护性和更高的安全性。 (3) 研究基于Hadoop平台的教育资源搜索系统所采用的关键技术,包括聚焦蜘蛛的爬行技术、网页信息结构化提取技术、远程过程调用(RPC)技术、基于Hadoop的Map/Reduce技术和基于Hadoop的负载均衡技术。 (4) 以Hadoop为基础架构,采用Java开发语言,设计并实现Hadoop平台的教育资源搜索系统。经过详细的系统测试,系统在实现效率、搜
17、索的准确率和可扩展性等方面较有代表性的垂直搜索平台先进。 关键词:垂直搜索引擎;Hadoop;网页信息抽取;抽取规则;索引库 VI Abstract The WWW has been a tremendous impact on the way of human beings lives, works, and studies, even entertainments. Especially in education realm, educators, students and their parents can get more and more references a
18、nd education resources with the help of internet. However, there’s still an unresolved a problem, for lacking of suitable standards and filtering methods, actually, it will spend more time to get the resource you really want .To solve this issue, we need to do some research and design a better platf
19、orm to extract interesting information conveniently, accurately and efficiently. On the basis of comparing the frameworks and designing methods adopted by current Searching Engines, and learning from other applications used in vertical searching platform architecture and design method, by means of
20、the hierarchical structure and the focused-spider creeping technology, this dissertation presents a new model of Multi-tier Distributed Vertical Searching Platform(MDVSP) for Educational Realm based on Hadoop, which is a mixed B/S framework. The thesis also amply demonstrates the key techniques of i
21、mproving the operating efficiency of the MDVSP. Moreover, based on the new mixed framework of MDVSP, the dissertation succeeds in designing the Prototype System of MDVSP. The dissertation mainly concerns the following four aspects: 1. This dissertation presents the basic principles and framework of
22、 the Hadoop platform, and introduces the two core components of Hadoop HDFS and Map/Reduce algorithm. To manage data on the Hadoop platform better, the MDVSP chooses Hbase as database storage, which is a major component of Hadoop. This thesis also uses several sections to describe the Hbase’s date s
23、tructure model design and the query improvements. 2. MDVSP software requirement analysis is based on sampling survey results and education experiences. MDVSP is chosen based on the analysis result. The advantage of this model is to process the business and Web separately, and it can parallel comput
24、e Map/Reduce. Which provide MDVSP better condensability, expendability, maintainability and higher security. 3. The key technologies that MDVSP has been used includes focused-spider creeping technology, structured web information extraction technology, remote procedure call(RPC) technology, Map/Red
25、uce technology based on Hadoop and load balancing technology based on Hadoop. 4. With the key technologies researching, and detailed analyzing the requirement of the MDVSP, this dissertation accomplishes the design of the Prototype System of M-Disem, which uses Java programming language and structu
26、res on Hadoop platform. After a detailed system testing and compared with other Vertical Searching Systems, the MDVSP achieves high efficiency, accuracy searching and good scalability. Keywords Vertical; Searching Engine; Hadoop; Web Information Extraction; Extraction rules; Index Database 江苏大
27、学硕士研究生毕业论文 目 录 第一章绪 论 1 1.1 课题研究背景及意义 1 1.1.1背景及意义 1 1.1.2 目前现状 1 1.2 教育资源搜索存在的问题 2 1.3 本文主要工作 3 1.4 本文的组织结构 3 第二章 HADOOP平台架构 5 2.1 Hadoop的产生 5 2.2 基于Hadoop分布式架构的优势 5 2.3 Hadoop组件 6 2.4 本章小结 6 第三章 MDVSP平台需求分析 8 3.1 教育资源垂直搜索的用户群 8 3.2 MDVSP搜索资源类型需求 9 3.3 MDVSP搜索平台功能需求 10 3.4 本章小
28、结 11 第四章基于HADOOP平台的MDVSP模型 12 4.1 分布式文件系统HDFS与Map/Reduce技术 12 4.1.1 分布式文件系统HDFS 13 4.1.2 Map/Reduce技术 16 4.2 基于Hadoop的MDVSP平台的多层分布式架构 19 4.2.1 系统体系结构 19 4.2.2 MDVSP平台数据处理模型整体框架 20 4.2.3 MDVSP平台数据在HDFS中存放结构 21 4.3 MDVSP通信数据模型设计 21 4.3.1 数据模型分析 21 4.3.2 数据模型设计 22 4.3.3 主表设计 23 4.4 本章小结 2
29、5 第五章基于HADOOP平台的MDVSP的关键技术 27 5.1 MDVSP中聚焦蜘蛛 27 5.1.1 工作原理 27 5.1.2 关键技术 28 5.2 Map/Reduce设计 31 5.2.1 Map/Reduce 逻辑结构设计 32 5.2.2 Map/Reduce 数据流设计 32 5.2.3 容错和可靠性设计 33 5.2.4 任务粒度和backup 任务性能优化设计 34 5.3 远程调用设计 35 5.3.1 MDVSP采用的RPC远程调用设计思想 35 5.3.2 MDVSP-RPC数据表示设计 36 5.3.3 MDVSP-RPC服务器端的实
30、现 38 5.3.4 MDVSP-RPC客户端的实现 38 5.4 Hadoop的HA设计 39 5.4.1 Health Check 设计 40 5.4.2 Hadoop Failover流程设计 41 5.5 本章小结 42 第六章 MDVSP平台的实现 43 6.1 方案部署 43 6.1.1 硬件配置 44 6.1.2 SSH公钥认证配置 44 6.1.3 Hadoop平台搭建 44 6.1.4 Hbase平台搭建 45 6.1.5 与垂直搜索引擎结合 46 6.2 开发平台及其开发工具 47 6.2.1 操作系统 47 6.2.2 硬件平台 47 6
31、2.3 开发工具 47 6.3 MDVSP系统的实现 48 6.3.1 聚焦蜘蛛模块的实现 48 6.3.2 教育资源搜索结果 49 6.3.3 教育资源信息自动抽取的实现 51 6.3.4 Lucene倒排文件索引结构 56 6.3.5教育资源信息的存储实现 58 6.4用户查询功能的实现 58 6.4.1用户查询主要函数实现 58 6.4.2教育资源信息查询 60 6.5 运行结果与对比 62 6.6 本章小结 64 第七章 总结与展望 65 7.1 总结 65 7.2 展望 65 参考文献 67 致 谢 69 江苏大学硕士研究生毕业论文
32、 42 第一章绪论 1.1课题研究背景及意义 1.1.1背景及意义 随着网络与通信技术的迅速发展,Web信息爆炸性的增长,互联网已经成为一个巨大的海量信息空间。如何迅速、准确、方便的从如此庞大的信息库获取自己需要的信息,是互联网用户面临的一个重要问题。 搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用,信息的价值得到众多商家的普遍认可,成为互联网中最有价值的领域。大家熟知的搜索引擎Google、百度、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了重要的贡献。我国互联网络信息中心CNNIC于2006年1月发布的《第17次中国互联网络发展统计报告》显示:搜索引
33、擎以65.7%的使用率成为第二大网络服务[1]。 互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户越来越难迅速找到符合的信息,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容。因此,如何对通用搜索引擎技术进行改进,使查询的结果更加贴近用户的要求,成为搜索引擎行业近期的研究热点。 对于基础教育领域的广大教师、学生、家长以及其他教育工作者,互联网已经成为他们获取基础教育资源和信息的重要工具,网上大量的试卷
34、教学研究论文、课件、课外阅读材料、招生信息等基础教育资源信息可以使教师提高自己的工作效率和水平,使学生扩大自己的知识面,使家长掌握最新的教育信息。那么对教育资源用户来讲,目前的信息服务能否满足他们的需求?他们更倾向于什么样的信息服务形式? 1.1.2 目前现状 1. 获取基础教育资源最常用的方式是搜索引擎[2] 用户获取基础教育资源的较经常使用的方式为搜索引擎、学科专题网站、基础教育综合网站。其中使用最多的是搜索引擎。 2. 目前的搜索引擎还不能完全满足用户需求[2] 综合性通用搜索引擎在一定程度上方便了用户查找利用网上信息,但由于它面向的是大众,强调通用性,搜索结果中有很多杂乱信
35、息,信息的准确度较低,不能完全满足基础教育用户的需求。 3. 倾向简单的检索方式[2] 大多数人通常使用关键词查询,一部分人使用诸如“+(and)”、“-(or)”等检索技巧,使用高级检索的人很少,用合适的关键词检索是被所有用户认为是比较容易的,所有用户都倾向于简单易用的检索方式。 4. 通常输入的检索内容包含不同层次的信息 大多数用户输入单个或多个关键词,而多个关键词的查询往往包含有两类信息——主题描述信息和资源的类别限制信息。比如说,一位教师输入“《阿Q正传》教案”,关键词“阿Q正传”是主题信息,关键词“教案”,是类别限制信息,再如一个学生查找“八年级(上)生物学试题”为学段(年级
36、学科和资源类型的组合。最常见的主题描述信息是学科内知识点、语文课文标题等,常见的类别限制信息是学科、学段(或年级)、资源类型。 总体上,用户使用通用搜索引擎获取基础教育资源存在的问题可归为以下两个方面: 1. 教育资源的关键词不能被搜索引擎正确识别,导致检索结果的信息杂乱与过量,即使搜索出来也与可能是与教育无关的资源信息。 2. 由于在通过关键词检索方式中,关键词与类别词的混杂使用导致信息准确度较低。往往要搜索的信息排序靠后或漏检。 1.2教育资源搜索存在的问题 根据以上分析,用户获取网上教育资源主要存在以下问题: 1、信息过量。网上资源内容广泛,通用搜索引擎返回的大量信息过多
37、过杂,专业性不强.使用户淹没在海量信息里,筛选信息需要耗费大量的精力。 2、信息准确度低。由于通用搜索引擎强调通用性,检索范围广,对资源没有筛选分类,资源索引库十分庞杂,很难满足特定用户群的特定需求。 3、信息服务缺乏针对性,缺少用户交互。通用搜索引擎检索结果完全依赖于用户的关键词,即对于不同的用户,同一个关键词返回的结果相同,没有与用户联系起来,难以满足用户的个性化需求。 1.3 本文主要工作 本人通过对现有教育领域搜索引擎的技术分析,结合问卷抽样调查反馈,对用户的需求进行鉴别、综合和建模,清除用户需求的模糊性、歧义性和不一致性,定义了本系统的功能和性能需求,在对Hadoop平台的框
38、架研究基础之上,提出了基于Hadoop平台的MDVSP(Multi-tier Distributed Vertical Searching Platform)模型,详细阐述了MDVSP系统在设计和实现过程中应用到的一些关键技术,并基于该模型实现了MDVSP原型。 本文的工作包括: (1) 提出了基于Hadoop平台的教育资源垂直搜索系统(MDVSP)模型。包括切合本系统的分布式的集群整体框架和HDFS存放结构。 (2) 阐述了MDVSP中应用的关键技术,包括聚焦蜘蛛的原理和爬行算法。 (3) 设计了Map/Reduce的逻辑结构和数据流。 (4) 设计和封装了RPC远程调用协议。给出
39、了设计思想和数据表示设计。 (5) 设计了MDVSP的HA。包括框架、原理和详细实现。 (6) 以JAVA和PERL为工具实现了MDVSP系统原型。 最后对全文的内容进行了总结,分析了系统现有的不足,并提出了进一步完善的目标和基本方法。 1.4 本文的组织结构 本论文共分为七章,各章内容具体安排如下: 第一章 绪论。主要论述课题的研究背景,垂直搜索引擎发展现状、存在的问题。 第二章 Hadoop平台架构。介绍Hadoop的概念和Hadoop的优点,Hadoop平台架构。 第三章 MDVSP平台需求分析。给出MDVSP平台的使用用户群,并基于抽样调查和多年的教育经验,对用户的需求
40、进行鉴别、清除用户需求的模糊性、歧义性和不一致性,将原始问题的理解与软件开发经验结合,深入描述软件的功能和性能需求。 第四章 基于Hadoop平台的MDVSP模型。叙述基于Hadoop平台的教育资源垂直搜索模型(MDVSP),并阐述这种架构的优点,提出使用这种架构可以解决目前现有搜索平台在教育领域搜索中存在的一些问题。对MDVSP系统进行了逻辑结构设计和物理结构设计。 第五章 基于Hadoop平台的MDVSP的关键技术。阐述基于Hadoop平台模型下构建教育资源垂直搜索系统(MDVSP)中用到的关键技术。主要包括聚焦蜘蛛的爬行技术、基于Hadoop平台下Map/Reduce的逻辑结构和数据
41、流设计和系统采用的MDVSP-RPC远程调用的封装技术。 第六章 MDVSP平台的实现。以JAVA和PERL为开发工具,通过Hadoop平台框架实现基于上述架构模型的MDVSP系统的各层设计,并列出相关功能的关键性JAVA和PERL代码。通过试验,并与有代表性的垂直搜索平台的搜索结果进行性能对比,分析MDVSP平台在教育资源领域的搜索效率和准确度都有所提高。 第七章 总结与展望。对本文的工作进行总结,并从系统功能和理论研究两个方面对以后的工作进行规划和展望。 第二章Hadoop平台架构 2.1 Hadoop的产生 自从Google工程师Jeffrey Dean提出Map Re
42、duce编程思想,MapReduce便在Google的各种 Web应用中释放着魔力。然而,也许出于技术保密的目的,Google公司并没有透露其 MapReduce的实现细节。幸运的是,Doug Cutting开发Hadoop作为 MapReduce[5-6]开源实现,让MapReduce这么平易近人地走到了我们面前。 2006年1月, Doug Cutting 因其在开源项目Nutch和Lucene的卓越表现受邀加入Yahoo公司,专职在Hadoop项目上进行开发。现在,Doug Cutting已经加盟 Cloudera(一家从事 Hadoop产品商业化及技术支持的公司)。作为 Google
43、MapReduce技术的开源实现,Hadoop理所当然地借鉴了Google的Google File System文件系统、MapReduce 并行算法以及 BigTable。因此,Hadoop也是一个能够分布式处理大规模海量数据的软件框架,这一点不足为奇。Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。Hadoop的高效性在MapReduce的思想下, Hadoop是并行工作的,以加快任务处理速度。Hadoop的可扩展性--依赖于部署 Hadoop软件框架计算集群的规模,Hadoop的运算是可扩展的,具有处理 PB 级数据的能力。
44、 2.2 基于Hadoop分布式架构的优势 没有不好的工具,只用不适用的工具。本系统采用Hadoop分布式架构的目的有以下几个方面: 1. 可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。 2. 经济:框架可以运行在任何普通的PC上。 3. 可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。 4. 高效:分布式文件系统的高效数据交互实现以及MapReduce结合LocalData处理的模式,为高效处理海量的信息作了基础准备。 2.3 Hadoop组件 Hadoop是一个分布式计算基础架构这把"大伞"下的相关子项目
45、的集合,其中最出名的是MapReduce及其分布式文件系统HDFS,还有其他子项目提供配套服务.如下: 表2.1 Hadoop组件 Pig Chukwa Hive HBase MapReduce HDFS Zoo Keeper Core Avro l Core: 一系列分布式文件系统和通用I/O的组件和接口(序列化、Java RPC和持久化数据结构。 l Avro: 一种提供高效、跨语言RPC(Remote Procedure Call Protocol)的数据序列系统,持久化数据存储。 l MapReduce: 分布式数据处理模式和执行环境,运行于大型商用机
46、集群。 l HDFS:(Hadoop Distributed File System)分布式文件系统,运行于大型商用机集群。 l Pig: 一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。 l HBase: 一个分布式的、列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。 l ZooKeeper: 一个分布式的、高可用性的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。 l Hive: 分布式数据仓库。Hive管理HDFS中存储的数据,并提供基于S
47、QL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。 l Chukwa: 分布式数据收集和分析系统。Chukwa[7-9]运行HDFS中存储数据的收集器,它使用MapReduce来生成报告。 2.4 本章小结 本章重点介绍了Hadoop技术背景和基于HDFS分布式架构的优点,也指出了目前Hadoop版本的HDFS在功能上和性能上的一些不足之处,如名称节点的单点故障隐患。尽管HDFS目前仍然不尽完善,但是这些缺陷和不足之处不会影响到具体项目的成功实施。为了更好的应用Hadoop平台框架,对MDVSP系统中设计到的组件进行剖析。 第三章MDVSP平台需求分析 当我要
48、查找"高三物理试卷模拟考试",为什么百度,谷歌都出现了培训中心的广告?想要查找"小学三年级上学期课件",搜索结果出现了大量的招生广告……越来越多的教育工作者、学生发现百度和谷歌搜索平台,不容易使用了,想要获得自己想要的信息,需要大量的时间来筛选。今日,中国科学院研究生院管理学院副院长吕本富博士对此现象也给出了这样的结论:”从信息的匹配度上看,两家搜索引擎都不能满足用户完全需要”。 造成这种现象的原因是什么呢?用一句话概括就是“网民多样化,需求多样化”。随着互联网普及程度的不断提高,网民由以前的IT专业人士扩大到不同职业,不同年龄的群体。而搜索引擎是仅次于网页一般性浏览、收发电子邮件的网民第三
49、大基本需求,其需求自然随之也变得多样化。据赛迪网调查,有六成的网民认为面向某一领域的搜索引擎对其非常或比较重要,因此当大学毕业生有了例如论文、外文翻译、论文格式等某种特定需求时,他自然希望能够使用面向这些特定需求的搜索引擎。但这些需求的复杂性与多样性都是传统搜索引擎无法满足的。这就导致了搜索引擎市场上出现了这样的趋势。 MDVSP垂直化搜索“专、精、深” 等特点给教育行业工作者、学生带来了方便,MDVSP的定位很简单:以特定的信息服务提供给易用、简单且富有效率的信息。MDVSP不关注搜索信息的竞价排名的现状,所以MDVSP搜索引擎的在教育界的价值便突出出来。此外,由于针对特定行业的培训、考试
50、辅导教材等信息的分类,垂直化搜索与传统搜索相比显得更为“聪明”、更具人性化。 3.1 教育资源垂直搜索的用户群 早在2003年的时候,江苏苏州教育界就构想“打造中小学校的教育信息资源共享平台“。MDVSP搜索平台的定位就是教育领域的幼稚园、小学、中学、大学、机构培训以及成人教育。图3.1给出了教育资源垂直搜索面向的用户群体。从图上可以看出用户的群体数量还是比较大的。在一定程度上解决了教学资源的资源共享[12]。 图3.1 MDVSP搜索平台使用对象 3.2 MDVSP搜索资源类型需求 教育资源包括从事教育事业的人力资源、物力资源、和无形资源的总和。其中直接支持教学活动






