大数据项目技术选型.docx_咨信网zixin.com.cn

资源描述

目录构造一、主流架构选用技术二、Hadoop版本选型方案三、选用的技术与其他工具的比照四、大数据相关的技术选型版本确定五、市场上的hadoop发行版厂商资料六、具体操作一、主流架构选用技术：采集层：flume ； sqoop 存储层：包括文件存储层和数据存储层文件：采用hdfs存储数据：采用hbase, redis等模型层：离线处理：mr/yarn;实时流式处理spark streaming（比storm的优势）分析层：hive 管理层：zookeeper〔调度；ha] 二、Hadoop版本选型方案： Hadoop 提供的经典方案：HDP [Hadoop Data Platform] 管理一体化数据接入 Flume Script SQL Nosql Stream Search Irr Memory Others Sqoop Pig Hive Hbase Storm Solr Spark YARN-Ready Apps NFS z. YARN WebHDFS Falcon HDFS 数据管理三、选用的技术与其他工具的比照：选用sqoop的好处：开源，抽取的数据可以直接传至hive,可操作性和可视性高选用Flume的好处：纯Java开发，框架清楚，易于开发，可以直接写hdfs且支持对t附和 sequence 压缩选用Spark的好处：基于存，适合需要屡次迭代计算的算法，在迭代处理计算方面比Hadoop快100倍以上，Spark采用一个统一的技术堆栈解决了云计算大数据的所有核心问题平安操作认证，授权，审计，数据保护准备，管理，监控 Storage ： HDFS Ambari Resource ： YARN Zookeeper Access ： Hive Oozie Pipeline: Falcon Cluster Kno* Hue的好处：多应用平台，便捷的操作流程；自动补全；查询结果表格化图像化四、大数据相关的技术选型版本确定：操作系统:CentOSG* 各个技术版本：〔最新，最稳定，bug少〕 Hadoop 版本：此版本是一个相对最新且比较稳定的版本，基数版本可能不稳定，最好选用偶数版本 Zookeeper 版本：此版本修复了此前的9个问题，最明显的是在关闭zookeeper时会产生的一个停顿问题。 Z. Flume版本： Kafka版本： Spark版本：此版本能支持以上的版本且相对稳定版 Sqoop版本： Hive版本： Hbase版本： Mahout 版本：五、市场上的hadoop发行版厂商资料：除了社区的 Apache Hadoop 夕卜，Cloudera , Horton works , MapR , EMC 版本： IBM , Intel ,华为等都提供了自己的商业版本。版本容特点网址 • doudera / d ocumentatio n/archive/c 曲/4-*/4-7- 1/CDH4-In stallation-Gu ide/cdh4ig_t opic_ll_4 ht ml Hort on works HDP 包括 HDFS、 YARN 、 HBase、 Map Reduce s Hive、Pig、 h orton works ./ Z. 11 Catalogs Zookeeper、 Oozies Mahouts Hue、 Ambari、Tez 和 Hive 的实时版(Stinger)以及其他开源工具。 MapR 包括 HDFS、HBase、 MapReduce、 Hive、 Mahouts Oozie、Pig、 Zoo Keeper、Hue 和其他开源工具。还包括直接NFS访问、快照和用于“高可用性”的镜像有的H Base实现（与 Apache API完全兼容），以及MapR管理控制台。 1.构建一个HDFS的私有替代品，这个替代品比当前的开源版本快三倍，自带快照功能，而且支才寺无 NameNode单点故障（SPOF）,并且在API上和开源版兼容，所以可以考虑将其作为替代方案。不再需要单独的NameNode机器，元数据分散在集群中，也类似数据默认存储三份。 2也不再需要用网络附加存储（NAS）来协助 NameNode做元数据备份，提高了机器使用率。 a还有个重要的特点是可以使用 nfs直接访问hdfs ,提供了与旧有应用的兼容性。镜像功能也很适合 s:/Z mapr / z. 4每年每个节点4000美元。 5在性能方面具备优势。包括、 .emc. /zh-/in de兆 htnTfro m GlobalSele ctor 在平台管理，平安认证，作业调度 .ibm. /us-en/ 算法，与DB2及netezza的集成上做了增强。兼容性好，同时运行多种Hadoop版本的程序，IBM的效劳。 Intel Hadoop 主要是强调其能提供全面的翘院解决方案设计,针对硬件具有更好的性能优化,以及提供集群管理工具和安装工具简化了 Hadoop的安装和配置,能够提供工程规划到实施各阶段专业的咨询效劳，实际中采购Intel版本貌似动力缺乏。 z. 性能好，最先进入中国市场。 Funsionlnsight Hadoop .huawei // HiveServer的HA功能，进程故障后系统自动Failover ,无需人工干预，这个也是对 Hadoop的小修补，远不如MapR解决的彻底。当为公司/部门选取特定发行版时，需要考虑如下因素：技术细节一一应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。易于部署一一应该有可用的工具包来管理部署、版本更新、补丁等。易于维护一一涉及集群管理、多中心支持、灾难恢复支持等。本钱一一包括实现*个特定版本所需要的费用、计费模式和许可证。企业应用集成支持一一包括对Hadoop应用与企业的其他应用进展集成的支持。选用Cloudera的方案： Z. Cloudem ：最成型的发行版本，拥有最多的部署案例。提供强大的部署、管理和监控工具。Qoudem开发并奉献了可实时处理大数据的Impala工程。优点： L基于Apache协议，100%开源。 2 版本管理清晰。比方Cloudeg CDH1, CDH2, CDH3, CDH4等，后面加上补丁版本，如CD H4.L0patch level 923 142,表示在原生态根底上添加了 1065个patch。 3比Apache Hadoop在兼容性、平安性、稳定性上有增强。第三方发行版通常都经过了大量的测试验证，有众多部署实例，大量的运行到各种生产环境。 4版本更新快。通常情况，比方CDH每个季度会有一个update,每一年会有一个release。 5,基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch 6提供了部署、安装、配置工具，大大提高了集群部署的效率，可以在几个小时部署好集群。 7・运维简单。提供了管理、监控、诊断、配置修改的工具，管理配置方便，定位问题快速、准确，使运维工作简单，有效。缺点： L涉及到厂商锁定的问题。〔可以通过技术解决〕六、具体操作： Hadoop2.6 HA 搭建至少四台机器：hadoopl, hadoop2, hadoop3, hadoop4 NM〔任务管理〕 Hadoopl Y Hadoop2 Y Y Y Y Hadoop3 Y Y Y Hadoop4 Y Y Y z. L core-site *ml (configuration〉 < property > <name >fs defaultFS</name > < value >hdfs: / / zhjy</value > </property > < property > < na me > ha. zookeeper quoru m</name> < value >hadoop 1:2181, hadoop2:2181,hadoop3:2181</value> < /property > < property > < na me > hadoopi tmp. dir</nanie> < value >/ opt/hadoop < / value > </property > < / configuration > 2 hdfs-site*ml 〈configuration〉 < property > <name>dfs nameservices</name > < value > z hjy < / value > < /property > < property > <name>dfs ha namenodes zhjy</name> < value >nnl, nn2 </value > < /property > < property > <name>dfs namenodei rpc-address zhjy; nnl </name> < value > hadoop 1:8020 < / value > </property > < property > <name>dfs namenodei rpc-address zhjy; nn2</name> < value > hadoop2:8020 </value > </property > < property > <name> dfs namenode -address zhjy nnl </name> < value > hadoop 1:50070 < / value > </property > < property > <name>dfs namenode -address zhjy nn2</name> < value >hadoop2:50070 < / value > </property > < property > <name>dfs namenode shared edits dir\/name > < value >qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/zhjy</value z. > </property> < property > <name> dfs client feilover pro^ provider zhjy</ na me > < value>org apache, hadoop. hdfs server, namenodei ha ConfigiiredFailoverPro*yProvider</value> </property > < property > < na me > dfs ha fencing methods </name> < value >sshfence < / value > </property > < property > <name> dfs ha fencing ssh. pri vate-key^files < / name > < value >/root/ ssh/id dsa</value > </property > < property > < name> dfs journalnodci edits dir</nam e > < value >/opt/hadoop/data〈/value > </property> < property > <name>dfs ha autom aticdfailover enabled </name> < value >true < / value > </property> </configuration > 3 准备 zookeeper 8) 三台 zookeeper ： hadoop 1, hadoop2, hadoop3 b) 编辑zoq cfg配置文件 i 修改 dataDir=/opt/zookeeper ii server l=hadoop 1:2888:3888 server 2=hadoop2:2888:3888 server 3=hadoop3:2888:3888 c) 在dataDir目录中创立一个myid的文件，文件容为1, 2, 3 4 配置 hadoop 中的 slaves 5 启动三个 zookeeper ：. /zkServer.sh start 6 启动三个 Journal Node ：. /hadoop-daemon. sh start j)urnalnode 7 . 在其中一个 namenode 上格式化：hdfs namenode -format S 把刚刚格式化之后的元数据拷贝到另外一个namenode上 a)启动刚刚格式化的namenode b) 在没有格式化的 namenode 上执行：hdfs namenode -bootstrapStandby c) 启动第二个namenode 9 . 在其中—namenode 上初始化 zkfc ： hdfs zkfc -formatZK 10 .停顿上面节点：stop-dfs sh 全面启动：start-dfssh z.

展开阅读全文