资源描述
目录构造
一、主流架构选用技术
二、Hadoop版本选型方案
三、选用的技术与其他工具的比照
四、大数据相关的技术选型版本确定
五、市场上的hadoop发行版厂商资料
六、具体操作
一、主流架构选用技术:
采集层:flume ; sqoop
存储层:包括文件存储层和数据存储层
文件:采用hdfs存储
数据:采用hbase, redis等
模型层:离线处理:mr/yarn;实时流式处理spark streaming(比storm的优势)
分析层:hive
管理层:zookeeper〔调度;ha]
二、Hadoop版本选型方案:
Hadoop 提供的经典方案:HDP [Hadoop Data Platform]
管理一体化数据接入
Flume Script SQL Nosql Stream Search Irr Memory Others
Sqoop Pig Hive Hbase Storm Solr Spark YARN-Ready Apps
NFS
z.
YARN
WebHDFS
Falcon
HDFS
数据管理
三、选用的技术与其他工具的比照:
选用sqoop的好处:开源,抽取的数据可以直接传至hive,可操作性和可视性高
选用Flume的好处:纯Java开发,框架清楚,易于开发,可以直接写hdfs且支持对t附和 sequence 压缩
选用Spark的好处:基于存,适合需要屡次迭代计算的算法,在迭代处理计算方
面比Hadoop快100倍以上,Spark采用一个统一的技术堆栈解决了云计算大数据
的所有核心问题
平安操作
认证,授权,审计,数据保护准备,管理,监控
Storage : HDFS Ambari
Resource : YARN Zookeeper
Access : Hive Oozie
Pipeline: Falcon
Cluster Kno*
Hue的好处:多应用平台,便捷的操作流程;自动补全;查询结果表格化图像化
四、大数据相关的技术选型版本确定:
操作系统:CentOSG*
各个技术版本:〔最新,最稳定,bug少〕
Hadoop 版本:
此版本是一个相对最新且比较稳定的版本,基数版本可能不稳定,最好选用偶数版本 Zookeeper 版本:
此版本修复了此前的9个问题,最明显的是在关闭zookeeper时会产生的一个停
顿问题。
Z.
Flume版本:
Kafka版本:
Spark版本:
此版本能支持以上的版本且相对稳定版
Sqoop版本:
Hive版本:
Hbase版本:
Mahout 版本:
五、市场上的hadoop发行版厂商资料:
除了社区的 Apache Hadoop 夕卜,Cloudera , Horton works , MapR , EMC 版本:
IBM , Intel ,华为等都提供了自己的商业版本。
版本
容
特点
网址
• doudera / d ocumentatio n/archive/c 曲/4-*/4-7- 1/CDH4-In stallation-Gu ide/cdh4ig_t opic_ll_4 ht ml
Hort on works
HDP 包括 HDFS、
YARN 、 HBase、
Map Reduce s Hive、Pig、
h orton works ./
Z.
11 Catalogs Zookeeper、 Oozies Mahouts Hue、 Ambari、Tez 和 Hive 的实时版(Stinger)以及 其他开源工具。
MapR
包括 HDFS、HBase、 MapReduce、 Hive、 Mahouts Oozie、Pig、 Zoo Keeper、Hue 和其 他开源工具。还包括直 接NFS访问、快照和 用于“高可用性”的镜 像有的H Base实现(与 Apache API完全兼 容),以及MapR管理 控制台。
1.构建一个HDFS的私有替代品, 这个替代品比当前的开源版本快三 倍,自带快照功能,而且支才寺无 NameNode单点故障(SPOF),并 且在API上和开源版兼容,所以可 以考虑将其作为替代方案。不再需 要单独的NameNode机器,元数据 分散在集群中,也类似数据默认存 储三份。
2也不再需要用网络附加存储 (NAS)来协助 NameNode做元数 据备份,提高了机器使用率。
a还有个重要的特点是可以使用 nfs直接访问hdfs ,提供了与旧有 应用的兼容性。镜像功能也很适合
s:/Z mapr /
z.
4每年每个节点4000美元。
5在性能方面具备优势。
包括 、
.emc. /zh-/in de兆 htnTfro m GlobalSele ctor
在平台管理,平安认证,作业调度
.ibm. /us-en/
算法,与DB2及netezza的集成
上做了增强。兼容性好,同时运行 多种Hadoop版本的程序,IBM的 效劳。
Intel
Hadoop
主要是强调其能提供全面的翘院 解决方案设计,针对硬件具有更好 的性能优化,以及提供集群管理工 具和安装工具简化了 Hadoop的
安装和配置,能够提供工程规划到 实施各阶段专业的咨询效劳,实际 中采购Intel版本貌似动力缺乏。
z.
性能好,最先进入中国市场。
Funsionlnsight
Hadoop
.huawei //
HiveServer的HA功能,进程故障 后系统自动Failover ,无需人工干 预,这个也是对 Hadoop的小修 补,远不如MapR解决的彻底。
当为公司/部门选取特定发行版时,需要考虑如下因素:
技术细节一一应该包括Hadoop版本、包含的组件、涉及所有权的功能组件等。
易于部署一一应该有可用的工具包来管理部署、版本更新、补丁等。
易于维护一一涉及集群管理、多中心支持、灾难恢复支持等。
本钱一一包括实现*个特定版本所需要的费用、计费模式和许可证。
企业应用集成支持一一包括对Hadoop应用与企业的其他应用进展集成的支持。
选用Cloudera的方案:
Z.
Cloudem :最成型的发行版本,拥有最多的部署案例。提供强大的部署、管理和
监控工具。Qoudem开发并奉献了可实时处理大数据的Impala工程。
优点:
L基于Apache协议,100%开源。
2 版本管理清晰。比方Cloudeg CDH1, CDH2, CDH3, CDH4等,后面加上补丁版 本,如CD H4.L0patch level 923 142,表示在原生态根底上添加了 1065个patch。
3比Apache Hadoop在兼容性、平安性、稳定性上有增强。第三方发行版通常都经过 了大量的测试验证,有众多部署实例,大量的运行到各种生产环境。
4版本更新快。通常情况,比方CDH每个季度会有一个update,每一年会有一个release。
5,基于稳定版本Apache Hadoop,并应用了最新Bug修复或Feature的patch
6提供了部署、安装、配置工具,大大提高了集群部署的效率,可以在几个小时部署 好集群。
7・运维简单。提供了管理、监控、诊断、配置修改的工具,管理配置方便,定位问题 快速、准确,使运维工作简单,有效。
缺点:
L涉及到厂商锁定的问题。〔可以通过技术解决〕
六、具体操作:
Hadoop2.6 HA 搭建
至少四台机器:hadoopl, hadoop2, hadoop3, hadoop4
NM〔任 务管理〕
Hadoopl
Y
Hadoop2
Y
Y
Y
Y
Hadoop3
Y
Y
Y
Hadoop4
Y
Y
Y
z.
L core-site *ml
(configuration〉
< property >
<name >fs defaultFS</name >
< value >hdfs: / / zhjy</value >
</property >
< property >
< na me > ha. zookeeper quoru m</name>
< value >hadoop 1:2181, hadoop2:2181,hadoop3:2181</value>
< /property >
< property >
< na me > hadoopi tmp. dir</nanie>
< value >/ opt/hadoop < / value >
</property >
< / configuration >
2 hdfs-site*ml
〈configuration〉
< property >
<name>dfs nameservices</name >
< value > z hjy < / value >
< /property >
< property >
<name>dfs ha namenodes zhjy</name>
< value >nnl, nn2 </value >
< /property >
< property >
<name>dfs namenodei rpc-address zhjy; nnl </name>
< value > hadoop 1:8020 < / value >
</property >
< property >
<name>dfs namenodei rpc-address zhjy; nn2</name>
< value > hadoop2:8020 </value >
</property >
< property >
<name> dfs namenode -address zhjy nnl </name>
< value > hadoop 1:50070 < / value >
</property >
< property >
<name>dfs namenode -address zhjy nn2</name>
< value >hadoop2:50070 < / value >
</property >
< property >
<name>dfs namenode shared edits dir\/name >
< value >qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/zhjy</value
z.
>
</property>
< property >
<name> dfs client feilover pro^ provider zhjy</ na me >
< value>org apache, hadoop. hdfs server, namenodei ha ConfigiiredFailoverPro*yProvider</value>
</property >
< property >
< na me > dfs ha fencing methods </name>
< value >sshfence < / value >
</property >
< property >
<name> dfs ha fencing ssh. pri vate-key^files < / name >
< value >/root/ ssh/id dsa</value >
</property >
< property >
< name> dfs journalnodci edits dir</nam e >
< value >/opt/hadoop/data〈/value >
</property>
< property >
<name>dfs ha autom aticdfailover enabled </name>
< value >true < / value >
</property>
</configuration >
3 准备 zookeeper
8) 三台 zookeeper : hadoop 1, hadoop2, hadoop3
b) 编辑zoq cfg配置文件
i 修改 dataDir=/opt/zookeeper
ii server l=hadoop 1:2888:3888
server 2=hadoop2:2888:3888
server 3=hadoop3:2888:3888
c) 在dataDir目录中创立一个myid的文件,文件容为1, 2, 3
4 配置 hadoop 中 的 slaves
5 启动三个 zookeeper :. /zkServer.sh start
6 启动三个 Journal Node :. /hadoop-daemon. sh start j)urnalnode
7 . 在其中一个 namenode 上格式化:hdfs namenode -format
S 把刚刚格式化之后的元数据拷贝到另外一个namenode上
a)启动刚刚格式化的namenode
b) 在没有格式化的 namenode 上执行:hdfs namenode -bootstrapStandby
c) 启动第二个namenode
9 . 在其中—namenode 上初始化 zkfc : hdfs zkfc -formatZK
10 .停顿上面节点:stop-dfs sh
全面启动:start-dfssh
z.
展开阅读全文