大数据关键技术文档.docx_咨信网zixin.com.cn

资源描述

1、第1章绪论随着计算机技术、通信网、互联网迅速发展和日益普及，Internet上信息量迅速增长。从海量信息块中迅速检索出顾客真正需要信息正变得很困难，信息搜索应向着具备分布式解决能力方向发展，本系统运用hadoop分布式开源框架良好扩充能力、较低运作成本、较高效率和稳定性来满足需求。现状：缺陷和局限性：（1）成果主题有关度不高。（2）搜素速度慢。引入hadoop+nutch+solr长处：（1）hadoop平台数据解决高效。hadoop集群解决数据比起单机节约数倍时间，数据量越大优势越明显，满足信息采集对数据解决速度和质量规定。（2）hadoop平台具备高扩展性。可以恰当扩展集群数量来满足

2、日益不断增长数据量，而这并不会毁坏原集群特性。（3）安全可靠性高。集群数据冗余机制使得hadoop能从单点失效中恢复，即Hadoop能自动进行数据多次备份，以保证数据不丢失，虽然当某个服务器发生故障时，它也能重新布置计算任务。（4） Nutch不但提供抓取网页功能，还提供理解析网页、建立链接数据库、对网页进行评分、建立solr索引等丰富功能。（5）通过Nutch插件机制实现了系统可扩展性、灵活性和可维护性，提高了开发效率。可以依照顾客需求进行灵活定制抓取和解析，提高了系统使用性。（6）通过solr集群，采用分布式索引在不同机器上并行执行，实现检索服务器之间信息互换。可以通过设定主题进行索引检索

3、。研究目的和内容本文研究目的是全面进一步分析研究分布式搜索引擎，进而优化分布式搜索引擎中索引构建方略，内容涉及：（1）进一步研究hadoop分布式平台，仔细剖析hadoop中分布式文献系统HDFS和map/Reduce编程模型。（2）进一步研究Nutch架构、有关技术与体系构造，着重研究分析Nutch插件系统内部构造和流程；对protocol-httpclient插件进行开发支持表单登录；对 url过滤、信息解析插件进行开发，提高搜索主题有关度；（实现用mapreducegoogle排序算法，改进系统搜索关联度）。系统功能构造（1）本地资源解析模块对本地文本pdf,word,excel内容解

4、析和索引，按照主题分类，添加到相应主题中进行搜素。（2）搜索模块顾客依照不同主题进行内容索引、核心词查询，将跟查询关联度最高前n个文档返回给顾客，并记录出在这些查询成果中浮现频率最高前n个词。顾客可依照需求修改配备文献，提高搜索有关度。（3）信息爬取模块信息定制采集模块1、种子URL：用作抓取器爬取出发点，也叫做根URL。2、核心字：核心字选取很重要，描述了抓取任务所属分类主题方向。3、深度：由于Nutch抓取模块采用是广度优先方略，抓取深度选取决定了抓取时间长度和抓取网页数量大小。普通依照所选用种子URL类型和详细限度以及对网页抓取规模需求来进行设立。在信息定制模块顾客设立主题信息，ur

5、l信息、抓取深度信息，抓取线程依照定制信息，开始抓取工作。（综合型搜索引擎；某一主题类网站，垂直搜索引擎；博客搜索引擎）信息解析过滤模块依照fiddle进行登录分析，修改网络合同插件，支持简朴一次跳转表单登录，顾客可以在配备文献中进行设立，然后抓取内容；复杂登陆需要分析登陆过程，写出相相应网络合同插件。由于本系统在网络资源采集过程中支持个性化定制，只对目的站点感兴趣内容进行采集，分析目的站点构造特点，在页面采集完毕后，从中提取出链接、元数据、正文、标题、核心字、描述等信息，进行后续过滤和其她解决。链接提取一方面要判断页面类型，页面类型可以有应答头分析得出，依照不同类型选取相应爬取和解析插件，

6、对遇到带有链接标记如、等，就从标记构造属性中找出目的url，并从成对该标记之间抽取出正文作为该链接阐明文字，链接文字普通能反映文章主题信息，系统设定阈值，判断主题和阐明性文字有关性，对爬取链接进行过滤，加入到爬取链接列表中。定制采集子模块，依照正则表达式对网页内容进行过滤，获取和解决跟主题有关内容，过滤无关信息内容；对网页编码格式进行提取，实现内容编码转换。（下一步改进主题有关度链接过滤算法）（4）系统管理模块顾客对依照需求对系统配备参数进行修改。论文组织构造 1、绪论。本章一方面简介了本文研究背景及意义，接着研究了信息采集与搜索技术国内外发呈现状，最后给出了本文研究内容和论文组织构造。2、

7、核心技术。Hadoop、Nutch、Solr技术架构及文本检索算法本章简介了开源软件Hadoop、Nutch、Solr基本状况;详细简介了Hadoop框架及其进行分布式计算编程模型MapReduce和数据存储系统HDFS；Nutch以Hadoop分布式文献系统HDFS作为底层数据平台，采用MapReduce编程方式实现数据分布式解决，以扩展机制为突出特性，顾客可以依照实际需求对其添加插件进行扩展改进，构建自己信息采集搜索系统；通过Solr集群，采用分布式索引在不同机器上并行执行，实现检索服务器之间信息互换，减小索引对机器规定，同步简介了惯用文本检索算法VSM ，pagerank和lucene默

8、认排序算法。3、系统环境配备。Hadoop+Nutch+Solr系统运营环境配备与运营。本章简介配备Hadoop+Nutch+solr系统运营环境并详细阐述其运营流程。4、基于Hadoop+Nutch+Solr信息采集搜索系统设计与实现。本课题采用hadoop+Nutch+Solr开源软件，缩短了开发时间并且可以依照个性化需要采集数据提高搜素成果精度，基于mapreduce实现了pagerank算法,将pagerank作为一种独立索引项添加到nutch默认lucene排序算法中，顾客可以依照需求自己定义排序规则，提高检索有关度。（基于hadoopnutch网页排序算法研究与实现）系统有关技术简

9、介Hadoop hadoop由 Apache公司于年秋天作为Lucene子项目Nutch一某些正式引入。Hadoop被定位为一种易于使用平台，以HDFS、MapReduce为基本，可以运营上千台PCServer构成系统集群，并以一种可靠、容错方式分布式解决祈求。本文基于Hadoop+Nutch+Solr开发信息采集搜索项目，现对Hadoop进行全面分析和进一步研究。Hadoop框架简介Hadoop是执行大数据分布式应用开源框架，凭借高效，可靠，可扩展等特性受到广泛应用，它有两大最核心模块：进行分布式计算MapReduce与底层存储系统HDFS（Hadoop Distributed FileS

10、ystem分布式文献系统）。MapReduce中任务分解（Map）与成果汇总（Reduce）是其重要思想。Map就是将一种任务分解成各种任务，Reduce就是将分解后多任务分别解决，并将成果汇总为最后成果。Hadoop整体由九个子项目构成，其中MapReduce和HDFS两大核心将在后文展开详细简介。框架如下图所示，项目功能如下表所示.图 Hadoop框架图子项目功能Hadoop CommonHadoop系统核心，提供子项目基本支持HDFS实现高吞吐分布式存储MapReduce执行分布式并行计算HBase一种可扩展分布式数据库系统Pig为并行计算提供数据流语言和执行框架Hive提供类SQL语法

11、进行数据查询数据仓库ZooKeeper提供分布式锁等Mahout一种大规模机器学习和数据挖掘库ArvoHadoopRPC(远程过程调用)方案表Hadoop子项目功能简介MapReduce编程模型MapReduce是一种编程模型，该模型将数据扩展到各种数据节点上进行解决，它最早是Google提出一种软件架构，用于大规模数据集（不不大于1TB）并行运算。并行编程模式最大长处是容易扩展到各种计算节点上解决数据。开发者可以很容易就编写出分布式并行程序。mapreduce重要思想是将自动分割要执行问题（例如程序）拆解成map（映射）和reduce（化简）方式；一种MapReduce作业（job）一方面会

12、把输入数据集分割为各种独立数据块，再以键值对形式输给Map函数并行解决。Map函数接受一种输入键值对值，产生一种中间键值对集合，由MapReduce保存并集合所有具备相似中间key值中间value值传递给Reduce函数， reduce对这些value值进行合并，形成一种value值集合，最后形成输出数据。解决流程如下图：MapReduce解决流程Hadoop分布式文献系统（HDFS）Hadoop分布式文献系统(HDFS)是Google GFS存储系统开源实现，HDFS具备高容错性和高传播率，特别适合具备大数据集程序应用。HDFS采用master/slave架构。一种HDFS集群包括一种单独

13、名字节点（Namenode）和一定数目数据节点（Datanode）构成一种HDFS集群。HDFS被设计成一种可以在大集群中、跨机器、可靠存储海量数据框架。它将所有文献存储成block块构成序列，除了最后一种block块，所有block块大小都是同样，她们存储在一组Datanode中，文献所有block块都会由于容错而被复制，每个文献block块大小和容错复制份数都是可配备,她们在Namenode统一调度小进行数据块创立、删除和复制工作。下图所示为HDFS体系架构图 HDFS体系构造图Namenode和Datanode都可以在普通计算机上运营。Namenode作为master服务，它负责管理文

14、献系统命名空间和客户端对文献访问。NameNode会保存文献系统详细信息，涉及文献信息、文献被分割成详细block块信息、以及每一种block块归属Datanode信息，对于整个集群来说，HDFS通过Namenode对顾客提供了一种单一命名空间；Datanode作为slave服务，在集群中可以存在各种，普通每一种Datanode都相应于一种物理节点，Datanode负责管理节点上它们拥有存储，它将存储划分为各种block块，管理block块信息，同步周期性将其所有block块信息发送给Namenode。从上面简介可以看出，在搭建好Hadoop集群上，大数据集一方面会由HDFS安全稳定地分布存储

15、到集群内多台机器上，再运用MapReduce模型将该数据集分解为较小块（普通为64MB）进行解决，特点是高效、安全、具备高吞吐量。Hadoop顾客可以在不理解分布式底层细节状况下较好地运用该分布式平台开发分布式程序，进行高效数据存储和运算。因而Hadoop成为管理大量数据核心技术，在信息采集和搜索领域使用范畴越来越广。hadoop具备如下突出长处：（1）hadoop平台数据解决简朴高效。hadoop运营在由普通PC机组建大型集群上，顾客可以在平台上迅速编写并行代码运营分布式应用，避免耗时数据传播问题；集群解决数据比起单机节约数倍时间，数据量越大优势越明显，满足信息采集对数据解决速度和质量规定。

16、（2）hadoop平台具备高扩展性。可以恰当扩展集群数量来满足日益不断增长数据量，而这并不会毁坏原集群特性。（3）安全可靠性高。集群数据冗余机制使得hadoop能从单点失效中恢复，即Hadoop能自动进行数据多次备份，以保证数据不丢失，虽然当某个服务器发生故障时，它也能重新布置计算任务。Nutch Nutch 是 Apache 基金会一种开源项目，它原本是开源文献索引框架 Lucene 项目一种子项目，日后徐徐发展成长为一种独立开源项目。它基于 Java 开发，基于 Lucene 框架，提供 Web 网页爬虫功能。从 nutch0.8.0开始，Nutch 完全构建在 Hadoop 分布式计算平

17、台之上，因而基于 Hadoop Nutch 信息采集系统可以布置在由成千上万计算机构成大型集群上，Nutch 也分为2某些，信息爬取和检索，但nutch1.2版本之后，Nutch专注只是爬取数据，而全文检索某些彻底交给solr。nutch抓取流程中，抓取器也叫蜘蛛或者机器人，以广度优先搜索（BFS）方式从公司内部网或者互联网抓取网页，爬取过程涉及了爬虫模块和解析模块。爬虫程序将网页页面抓回判断格式解析数据，形成页面内容数据库。种子url nutch采集过程要预先给定初始种子url，而种子url选取将直接影响主题搜索质量，因而选用初始种子url原则是种子页面自身要具备较高主题有关性。初始种子ur

18、l既可以是一种网站首页，也可以是网站子页面，核心是要尽量覆盖主题资源，最后实现抓取目的最大化，重要有四种办法生成初始种子url:（1）人工指定：给出某个领域权威专家给出有关种子页面。（2）自动生成：依照顾客指定某些核心词，并将这些核心词提交给通用搜索引擎，从检索成果中抽取前N个页面作为种子页面。（3）混合模式：即人工指定与自动生成相结合，一方面运用通用搜索引擎获得某些有关页面，然后通过人工筛选、过滤、合并、评价，形成一种能充分反映主题特性种子页面。（4）增长爬虫学习能力：通过建立各个领域主题种子库，并对检索历史、顾客反馈信息进行分析基本上，动态优化产生相应主题种子页面集。种子选用在实际操作中

19、应当依照需求及领域特性选取恰当办法。Nutch插件机制Nutch此外很吸引人一点在于，它提供了一种插件框架，使得其对各种网页内容解析、各种数据采集、查询、集群、过滤等功能可以以便进行扩展，插件扩展只需通过给定接口实现，每个接口之下实现互相独立，顾客可以专注于目的接口扩展而不必紧张该接口与其她接口交互Nutch 插件体系构造。nutch使用plugin系统有三个因素：1、可扩展性通过plugin，nutch容许任何人扩展它功能，而咱们要做只是对给定接口做简朴实现。2、灵活性由于每个人都可以依照自己需求而写自己plugin，这样plugin就会有一种很强大资源库。这样对与应用nutch程序员来

20、说你有了更多关于内容爬取、过滤算法来选取。3、可维护性一种plugin开发者只要关注这个plugin所要实现功能，而不需要懂得整个系统是怎么工作，仅仅需要懂得是plugin和plug之间互换数据类型，这使得内核更加简朴，更容易维护。插件体系构造图图插件体系构造插件内部构造图插件内部构造runtime ：描述了其需要 Jar 包，和发布 Jar 包requires ：描述了依赖插件extension ：描述了扩展点实现extension-point：描述插件宣布可扩展扩展点Nutch通过插件机制实现了系统可扩展性、灵活性和可维护性，使得各个某些开发人员只需关注自己领域，不必去紧张如何整

21、合系统，也极大提高了开发效率。爬虫技术1、网络爬虫网络爬虫事实上是一种基于 web程序，它从初始种子站点出发，进行过滤检查，当爬虫打开某个 HTML 页面后，它会分析 HTML 标记构造来获取信息，并获取指向其他页面超级链接，然后通过既定搜索方略选取下一种要访问站点。从理论上讲，如果为 Spider 指定个恰当时始文档集和个恰当网络搜索方略，它就可以遍历整个网络。为理解决Web采集核心问题，通过不断地研究与实践，将爬行器由最初期单纯基于整个Web爬行器发展到可满足不同需要各种采集技术爬行器。大体可以分为如下几种类型：第一种是基于整个Web爬行器。重要是指目的为从某些种子URL扩充到整个We

22、b爬行器。第二种是增量式爬行器。老式爬行器依照自己需要采集足量信息后停止采集，当过一段时间这些数据过时后，它会重新采集一遍来代替先前信息，称为周期性Web采集器。而增量式爬行器对待就页面采用增量式更新，即采集器在需要时候采集新产生或己经发生了变化页面，而对没有变化页面不进行采集。和周期性信息采集相比，增量式信息采集能极大地减小数据采集量，从而极大地减少了采集时间与空间开销。但是与此同步，增量式信息采集也增长了算法复杂性和技术难度。第三种是基于主题爬行器是指选取性地搜寻那些与预先定义好主题有关页面爬行器。和基于整个Web爬行器相比，它并不采集那些与主题无关页面，因此大大地节约了硬件和网络资源，保

23、存页面也由于数量少而更新快。第四种是基于顾客个性化爬行器。不同顾客对一种搜索引擎提交同一种检索词，她们期待成果是不尽相似。而通用搜索引擎却只能返回相似检索成果，这显然不完全符合顾客需要。而基于顾客个性化爬行器是一种轻量级采集系统，它目的就是通过顾客兴趣制导或与顾客交互等手段来采集信息，给顾客提供个性化服务。第五种是移动爬行器。这种爬行器并不像其她爬行器同样在本地客户机向Web站点服务器发送页面祈求，而是将自己上载到它所要采集服务器中，在本地进行采集，并将采集成果压缩后，再回传到本地。这样做大量地节约了Web资源，大量剪裁工作将在被采集对象服务器上完毕。第六种是基于元搜索爬行器。它对顾客提交查询

24、祈求通过各种领域或门户搜索引擎搜索，并将成果整合后返回给顾客。普通元搜索引擎并不保存Web页面索引文献，但是有某些元搜索引擎会保存为它服务每个搜索引擎信息特性，后来依照顾客祈求做出选取。 Nutch使用累积式爬取与增量式爬取相结合方略进行，既保证了数据完整性又保证了时效性。2、网络爬虫爬行方略网页抓取方略可以分为广度优先、深度优先和最佳优先三种。深度优先在诸多状况下会导致爬虫陷入(trapped)问题，当前常用是广度优先和最佳优先办法。1、广度优先搜索广度优先搜索方略是指在抓取过程中，在完毕当前层次搜索后，才进行下一层次搜索。该算法设计和实现相对简朴。在当前为覆盖尽量多网页，普通使用广度优先

25、搜索办法。下面，我将以图示方式简介广度优先遍历过程，如下图所示。图（）选取A作为初始种子节点url，则广度优先搜索过程，如表（）所示。表广度优先搜索过程操作队列中元素初始空A入队列AA出队列空BCDEF入队列BCDEFB出队列CDEFC出队列DEFD出队列EFE出队列FH入队列FHF出队列FG入队列HGH出队列GI入队列GIG出队列I I 出队列空在表所示搜索过程中，出队列节点顺序即是图（）广度优先搜索过程。由此可见，图（）所示广度优先搜索过程顺序为：A-B-C-D-E-F-H-G-I。2、深度优先搜索深度优先搜索方略从起始网页开始，选取一种URL进入，分析这个网页中URL，选取一种

26、再进入。如此一种链接一种链接地抓取下去，直到解决完一条路线之后再解决下一条路线，但每进一步一层，网页价值和PageRank都会相应地有所下降。图（）所示深度优先广度优先搜索过程顺序为：A-B-C-D -E-H-I-F-G3、最佳优先搜索最佳优先搜索方略按照一定网页分析算法，预测候选URL与目的网页相似度，或与主题有关性，并选用评价最佳一种或几种URL进行抓取。它只访问与主题有关网页。信息检索技术信息检索(IR)，通俗讲，就是要在一种很大文本(有时也许是其她数据，如图像等)集合中，找到与顾客需求有关可以满足顾客需求非构造化信息。向量空间模型（VSM）向量空间模型将文档映射为一种特性向量V(

27、d)=(t1,1(d)；tn，n(d)，其中ti(i=1,2，,n)为一列互不雷同词条项，i(d)为ti在d中权值，普通被定义为ti在d中浮现频率tfi(d)函数，即。在信息检索中惯用词条权值计算办法为 TF-IDF 函数，其中N为所有文档数目，ni为具有词条ti文档数目。TF-IDF公式有诸多变种，下面是一种惯用TF-IDF公式：依照TF-IDF公式，文档集中包括某一词条文档越多，阐明它区别文档类别属性能力越低，其权值越小；另一方面，某一文档中某一词条浮现频率越高，阐明它区别文档内容属性能力越强，其权值越大。两文档之间相似度可以用其相应向量之间夹角余弦来表达，即文档di，dj相似度可以表达为

28、进行查询过程中，先将查询条件Q进行向量化，重要根据布尔模型:当ti在查询条件Q中时，将相应第i坐标置为1，否则置为0，即从而文档d与查询Q相似度为在查询过程中，可以计算出每个文档与查询相似度，进而可以依照相似度大小，将查询成果进行排序。向量空间模型可以实现文档自动分类和对查询成果相似度排序，可以有效提高检索效率；它缺陷是相似度计算量大，当有新文档加入时，则必要重新计算词权值。Lucene Scoring 评分机制solr使用lucene内部评分机制，现对lucene评分机制进行简介。lucene 评分公式：score(q,d) = coord(q,d) queryNorm(q) (tf(t i

29、n d) idf(t)2t.getBoost() norm(t,d)t in q其中：tf(t in d)关联到项频率，项频率是指项t 在文档d 中浮现次数 frequency。默认实现是：tf(t in d) =frequencyidf(t)关联到反转文档频率，文档频率指浮现项t 文档数docFreq。docFreq 越少 idf 就越高。默认实现：idf(t) =1 + log(numDocsdocFreq+1)coord(q,d)评分因子，是基于文档中浮现查询项个数。越多查询项在一种文档中，阐明些文档匹配程序越高。默认是浮现查询项比例。queryNorm(q)查询原则查询，使不同查询之间

30、可以比较。此因子不影响文档排序，由于所有有文档都会使用此因子。默认值：queryNorm(q) = queryNorm(sumOfSquaredWeights) =1sumOfSquaredWeights 每个查询项权重平分方和(sumOfSquaredWeights)由 Weight 类完毕。例如 BooleanQuery 地计算：sumOfSquaredWeights = q.getBoost()2(idf(t) t.getBoost()2t in qt.getBoost()查询时期项 t 加权（如：java1.2），或者由程序使用 setBoost()。norm(t,d)压缩几种索引期

31、间加权和长度因子：Document boost- 文档加权，在索引之前使用 doc.setBoost()Field boost- 字段加权，也在索引之前调用 field.setBoost()lengthNorm(field)- 由字段内 Token 个数来计算此值，字段越短，评分越高，在做索引时候由 Similarity.lengthNorm 计算。以上所有因子相乘得出 norm 值，如果文档中有相似字段，它们加权也会相乘：norm(t,d) = doc.getBoost() lengthNorm(field) f.getBoost()fieldfindnamed ast索引时候，把 norm

32、值压缩(encode)成一种 byte 保存在索引中。搜索时候再把索引中 norm 值解压(decode)成一种 float 值，这个 encode/decode 由 Similarity 提供。solr使用了Lucene内核，也继承了Lucene打分规则，咱们可以依照自己应用实现评分算法，换掉默认；也可以使用默认，运用修改solr配备文献，来调节评分。Page Rank算法一种网页重要性等于指向它所有网页重要性相加之和。如果网页j存在一种指向网页i连接，则表白j所有者以为i比较重要，从而把j一某些重要性得分赋予i。这个重要性得分值为：为网页jPageRank值，为网页j出链数。一种页面Pa

33、geRank是由所有链向它页面（链入页面）重要性通过递归算法得到。一种有较多链入页面会有较高级别，相反如果一种页面没有任何链入页面，那么它没有级别。由于存在某些出链为0，也就是那些不链接任何其她网页网，也称为孤立网页。因而需要对 PageRank公式进行修正，即在简朴公式基本上增长了阻尼系数（damping factor）q， q普通取值q=0.85。即网页iPageRank值；因此公式意义是：网页iPageRank值=（1-d）+d*（链接到网页i所有PR值/该网页所有出链数量之和）。信息采集搜索系统安装本系统采用hadoop1.1.2+nutch1.6+solr4.10分布式集群进行信息

34、采集与搜索，集群配备状况如下图：表（）系统配备序号名称描述1Hadoop1.1.2使用MapReduce进行并行爬取，使用HDFS存储数据，Nutch任务提交在Hadoop集群上，支持分布式2Nutch1.6重要负责爬取数据，支持分布式3Solr4.10重要负责检索，对爬完后数据进行搜索，查询，海量数据支持分布式4Centos6.5Linux系统，在上面运营hadoop、nutch等应用5Tomcat7.0应用服务器，给Solr提供容器运营6JDK1.7提供JAVA运营环境7Ant1.9提供Nutch等源码编译8IKAnalyzer对网页内容与标题进行分词，便于全文检索hadoop系统运营

35、环境配备 hadoop需要在Java环境和Unix系统下运营，也可以跨平台运营，本系统是在linux操作系统下运营，需要配备完毕如下运营环境： Java环境： jdk1.7版本vi /etc/profileexport JAVA_HOME=/usr/jdk1.7export JRE_HOME=$JAVA_HOME/jreexport CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATHexport PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH从而完毕所需要java环境配备。 hadoop集群配备：hadoop1

36、.1.2我在这里做了5个机器hadoop集群Master.Hadoop192.168.47.62Slave1.Hadoop192.168.47.63Slave2.Hadoop192.168.47.64Slave3.Hadoop192.168.47.65Slave4.Hadoop192.168.47.66在 192.168.47.62上vi /etc/profileexport HADOOP_HOME=/home/hadoopmaster/hadoop-1.1.2export PATH=$PATH:$HADOOP_HOME/binvi /etc/hosts127.0.0.1 localhost1

37、92.168.47.62 Master.Hadoop192.168.47.63 Slave1.Hadoop192.168.47.64 Slave2.Hadoop192.168.47.65 Slave3.Hadoop192.168.47.66 Slave4.Hadooplocalhost Master.Hadoop配备无密码登录，在这里我不做简介。进入hadoop-1.1.2/conf下vi masters192.168.47.63(secondaryhost)vi slaves192.168.47.62192.168.47.63192.168.47.64192.168.47.65192.168

39、-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic) http.timeout 10000 /propertyhttp.agent.name Mozilla/4.0 (compatible；MSIE 5.0；Windows NT；DigExt)Gecko/0101 Firefox/20.0 plugin.folders ./src/plugin http.redirect.max 2 http.content.limit-1file.content.limit-1http.accept.languageen-us,en-gb

40、,en;q=0.7,*;q=0.3Nutch与solr集成配备1、将solr/example/webapps/solr.war拷贝到tomcatwebapps中2、进入到到tomcat7中，对war进行解压，然后删除war包。3、拷贝solr/example/lib/ext下有关依赖jar包到webapps/solr/WEB-INFO/lib中4、修改web.xmlsolr/home指定到solr所在途径。5、修改tomcat/confserver.xml文献中编码加入一行URLEncoding=UTF-86、solr不会自动创立core,把multicore中core0拷到solr/exam

41、ple/，拷贝nutch配备文献schema-solr4.xml到core0/conf/下，重命名schema-solr4.xml为schema.xml，修改solrconfig.xml要和相应core相应，7 、加入分词工具，在这里对我用是IKAnalyzer。基于Hadoop+Nutch+Solr信息采集搜索系统设计与实现信息采集搜索系统实现，以第二章有关技术理论分析与研究为基本，运用MapReduce编程模型在分布式解决方面长处，实现了pagerank算法在系统检索中评分；对nutchurl过滤，内容解析插件进行改进，实现了顾客自订制链接和获取主题内容；对本地资料文献实现格式辨认并抽取

42、题名、时间、内容等文本信息保存为xml文献，实现本地有关主题信息查询。系统采用IK分词器，最后完毕了信息采集与搜索设计与实现。系统构造总体设计本系统布置在hadoop+nutch+solr集群框架上，分为四个某些，系统功能构成如下：系统功能构成图资料文档解析，实现单个文献和压缩文献上传，对压缩文献自动解压；对资料文献实现多格式辨认，例如pdf,word,html,excel等格式文献，文献提取标题，作者，时间，内容等核心信息，转换为xml文献，保存在指定途径下，对文献集建立索引，进行搜索查询。分布式爬取，系统运用hadoop+nutch 实现分布式数据爬取，对插件进行改进实现url过滤；对

43、爬出子站点网页构造进行分析，过滤那些不但愿存在文本内容，改进解析插件，实现顾客可以进行内容过滤定制，去除脚本、图片以及其他标签，获取和解决跟主题有关内容；对网页编码格式进行提取，实现内容编码转换。本系统支持带有一次跳转简朴表单登陆抓取，系统管理中设立相应有关信息；复杂登陆需要分析登陆过程，此外写出相相应网络合同插件。系统区别领域，依照不同主题建立索引。分布式检索，系统实现选取不同主题core进行查询，输入查询核心词，提供检索文档中浮现词频最高前n个词和关联文档；顾客自动创立不同core,修改模板配备文献相应选项，进行替代。系统管理，实现顾客对nutch插件修改；实现顾客对简朴表单登陆相应参数修

44、改；顾客可以变化如keywords，description，pagerank等fields索引项信息，依照站点特性，从而变化排序主题关联度。系统架构图系统运用hadoop+nutch 实现分布式数据爬取，基于Map/Reduce编程模型，充分运用其并行特性进行任务分发和成果归并，获取高效高质爬行成果。系统架构图如下：系统架构图本系统基于五个节点Hadoop框架实现。在Master节点上，JobTracker负责待爬取网页链接分割并将任务分派给五个节点TaskTracker执行爬取任务。Master节点在协调节个系统分布式解决同步，也充当一种DataNode参加任务执行。TaskTracker接受JobTracker分派任务后，启动各种线程执行Map下载任务，完毕网页抓取工作。TaskTracker监测到Map任务执行完毕后启动Reduce执行数据合并任务。在HDFS文献系统中有三个数据库：CrawlDb和LinkDb存储URL及URL互联关系，作为爬行和重新爬取根据；Segments存储抓取网页内容。1、在Hadoop和nutch基本上爬取运营流程如下图所示：图hadoop+nutch爬取运营流程读取URL种子文献到CrawlDB,然后进行下面抓取程序：（1）循环1-4到指定抓取深度；从CrawlDB生成抓取列表；依照抓取列表中URL抓

展开阅读全文