收藏 分销(赏)

Hadoop基础知识培训.ppt

上传人:胜**** 文档编号:731512 上传时间:2024-02-27 格式:PPT 页数:48 大小:7.47MB
下载 相关 举报
Hadoop基础知识培训.ppt_第1页
第1页 / 共48页
Hadoop基础知识培训.ppt_第2页
第2页 / 共48页
Hadoop基础知识培训.ppt_第3页
第3页 / 共48页
Hadoop基础知识培训.ppt_第4页
第4页 / 共48页
Hadoop基础知识培训.ppt_第5页
第5页 / 共48页
点击查看更多>>
资源描述

1、企业信息化部把信息化打造成为中国电信企业核心竞争力之一Hadoop基础知识培训江西电信大数据支撑团队2014年中国电信大数据技术与应用培训PDF created with pdfFactory Pro trial version 2企业信息化部PDF created with pdfFactory Pro trial version 把信息化打造成为中国电信企业核心竞争力之一主要内容主要内容第一篇 Hadoop综述 第二篇 HDFS 分布式文件系统第三篇 MapReduce 分布式计算框架 第四篇 常用Hadoop组件介绍3企业信息化部把信息化打造成为中国电信企业核心竞争力之一第一篇第一篇Ha

2、doop综述综述:什么是Hadoop:Hadoop生态系统:Hadoop的厂商:Hadoop的部署PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一Hadoop是什么是什么?Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式 文件系统(HDFS)和分布式计算框架(MapReduce)为核心,为用户 提供了底层细节透明的分布式基础设施。yHDFS的的高高容容错错性性、高高伸伸缩缩性性等等优优点点,允允许许用用户户将将Hadoop部部署署 在廉价的硬件上,构建分布式系统。在廉价的硬件上

3、,构建分布式系统。yMapReduce分分布布式式计计算算框框架架允允许许用用户户在在不不了了解解分分布布式式底底层层细细节节 的的情情况况下下开开发发并并行行、分分布布的的应应用用程程序序,利利用用大大规规模模计计算算资资源,解源,解 决传统高性能单机无法解决的大数据处理问题决传统高性能单机无法解决的大数据处理问题Hadoop NutchLucene高性能全文 索引工具包高性能搜索 引擎工具包版本演进对应Cloudera公司的CDH3u5对应Cloudera 公司的CDH4PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为

4、中国电信企业核心竞争力之一Hadoop的特点的特点Hadoop运用于海量数据处理,主要有如下几个优势:方便方便Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群 上弹性Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集;同时在负载下降时,也可减少节点,以便高效使用资源。健壮Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以从容处理通用计算平台上出现的硬件失效情况。简单Hadoop允许用户快速编写出高效的并行分布式代码。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之

5、一HADOOP生态系统y经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的软件生 态系统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下所 示:PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一发展目标HADOOP生态系统(1)实时应用场景(05s):Storm、S4等;(2)交互式场景(5s1m):这种场景通常能要求必须支持SQL,则可行系统有:Cloudera Impala、Apache Drill、Shark等;(3)非交互式场景(1m1h):通常运行时间较长

6、,处理数据量较大,对容错性和扩 展性要求较高,可行系统有:MapReduce、Hive、Pig、Stinger等;(4)批处理场景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展性要 求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一HADOOP厂商Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主 流市场对其稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是Hadoop 厂商

7、通过技术创新各显神通。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一物理上的物理上的Hadoop集群集群PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一逻辑部署的逻辑部署的Hadoop集群集群PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一简介:江西电信Hadoop批处理平 台共由62台PC服务器构成,

8、形成物理上独立的3个RACK,按照功能角色分组,主控 节点、数据节点、Hive接入 节点、元数据节点、监控告 警节点和ETL节点。主控节点6台(2台Namenode、1台 Jobtracker、3台 Zookeeper)数据节点56台江西电信物理部署的江西电信物理部署的Hadoop集群集群PDF created with pdfFactory Pro trial version 12企业信息化部PDF created with pdfFactory Pro trial version 把信息化打造成为中国电信企业核心竞争力之一第二篇第二篇HDFS一:HDFS简介二:HDFS 架构三:漫画HDF

9、S之读写机制 四:漫画HDFS之容错性 五:漫画HDFS之复制策略企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 HDFS简简介介HDFS(HADOOP DISTRIBUTED FILE SYSTEM)HDFS(HADOOP DISTRIBUTED FILE SYSTEM),是一个分布式文件系统。,是一个分布式文件系统。它它是谷歌的是谷歌的GFSGFS提出之后出现的一种提出之后出现的一种用户级文件系统。有一定的容错。有一定的容错性,性,能提供高吞吐量的数据访问,适合大规模数据集上的应用。能提供高吞吐量的数据访问,适合大规模数据集上的应用。HDFS HDFS 提供了一个高度容错性和高吞

10、吐量的海量数据存储解决方案提供了一个高度容错性和高吞吐量的海量数据存储解决方案PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一2 HDFS 架构Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个blok会在多个datanode上存储多份副本,默认3份基本概念Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系Datanode:负责存储数据,数据以block的形式存在PDF crea

11、ted with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 HDFS 之漫画读写PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 HDFS 之漫画读写(续)PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 HDFS 之漫画读写PDF created with pdfFactory Pro trial version 企业信息

12、化部把信息化打造成为中国电信企业核心竞争力之一3 HDFS 之漫画读写PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 HDFS 之漫画容错PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 HDFS 之漫画容错PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 HDFS 之漫画容错PDF create

13、d with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 HDFS 之漫画容错PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一5 HDFS 之漫画复制策略PDF created with pdfFactory Pro trial version 24企业信息化部PDF created with pdfFactory Pro trial version 把信息化打造成为中国电信企业核心竞争力之一第二篇第二篇 MapReduce一

14、:MapReduce基础二:MapReduce优劣 三:MapReduce工作原理企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 MapReduce基础基础MapReduce是一种编程模型,用于大规模数据集的并行计算。核心操作 由Map(映射)和Reduce(归约)组成,极大地方便了编程人员在不会分 布式并行编程的情况下,将自己的程序运行在分布式系统上典型的MapReduce过程可以细分为Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等阶段PDF created with pdfFactory Pro tri

15、al version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 MapReduce示例示例1.输入端根据输入文本大小进行切片形成适合输入端根据输入文本大小进行切片形成适合Map处理的数据处理的数据片片2.分片后的数据申请分片后的数据申请Map资源资源,执行本地单词映射操执行本地单词映射操作作3.通过交换将通过交换将map生成的结果按照单词进行归并重生成的结果按照单词进行归并重组组4.重组后的结果,申请重组后的结果,申请Reduce资源,进行单词的合并统资源,进行单词的合并统计计5.对对Reduce的结果进行记录合并生成输出文的结果进行记录合并生成输出文件件MapReduce过程

16、示例过程示例 对对输输入入的的文文 本本进进行行单词单词 统计统计 对对输输入入的的文文 本本 进进 行行 单单词词 统计统计PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一2 MapReduce 执行过程从MapReduce在整个Hadoop框架 的位置可以看出作为Hadoop最成熟 的批处理框架,MapReduce起到承 上启下的作用,一方面可以操作 HDFS中的数据,另一方面可以被封 装,提供Hive、Pig这样的上层组件 的调用PDF created with pdfFactory Pro

17、 trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一MapReduce优劣优劣MapReduce的缺点的缺点 通过通过MapReduce这个分布式处理框架,不仅能用于处理大规模数据,这个分布式处理框架,不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和 灾备管理等,这样将极大地简化开发者工作灾备管理等,这样将极大地简化开发者工作 MapReduce的伸缩性非常好,也就是说,每增加一台服务器,其就的伸缩性非常好,也就是说,每增加一台服务器,其就 能将差不多的计算能力接入

18、到集群中,而过去的大多数分布式处理能将差不多的计算能力接入到集群中,而过去的大多数分布式处理框框 架,在伸缩性方面都与架,在伸缩性方面都与MapReduce相差甚远。相差甚远。MapReduce的缺点的缺点 MapReduce最大的不足则在于,其不适应实时应用的需求,目前最大的不足则在于,其不适应实时应用的需求,目前还还 无法满足用户交互式的需求。无法满足用户交互式的需求。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 MapReduce+YARNPDF created with pdfFac

19、tory Pro trial version 30企业信息化部把信息化打造成为中国电信企业核心竞争力之一第四篇 Hadoop常用组件简介:Hadoop常用组件Hbase简介:Hadoop常用组件Hive简介:Hadoop常用组件Pig简介:Hadoop常用组件Zookeeper简介:Hadoop常用组件Sqoop简介:Hadoop常用组件Hue简介PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 Hbase简介简介HBase是一个分布式的、多版本的、面向列的开源数 据库 利用Hadoop HDF

20、S作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统利用Hadoop MapReduce来处理HBase中的海量数据利用Zookeeper作为协同服务PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一HBase 简介(续)简介(续)大:一个表可以有上亿行,上百万大:一个表可以有上亿行,上百万列列 面向列:面向列面向列:面向列(族族)的存储和权限控制,的存储和权限控制,列列(族族)独立检索独立检索 稀疏:对于为空的列,并不占用存储稀疏:对于为空的列,并不占用存储空空 间,因

21、此,表可以设计的非常稀间,因此,表可以设计的非常稀疏疏 多版本:每条记录中的数据可以有多个多版本:每条记录中的数据可以有多个版本版本 无类型:存在无类型:存在HBase中的数据都是字中的数据都是字符符 串,无其他类型串,无其他类型PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一HBase与与RDBMS对比对比Hbase的优点y1 列的可以动态增加,并且列为空就不存储数据,节省存储空间.y2 可以自动切分数据,使得数据存储自动具有水平扩展.y3 可以提供高并发读写操作的支持Hbase的潜在缺点y1

22、不能支持条件查询,只支持按照Row key来查询y2 暂时不能支持Master server的故障切换,当Master宕机后,整个存储系统就会挂掉PDF created with pdfFactory Pro trial version HBaseRDBMS数据类型只有字符串丰富的数据类型数据操作简单的增删改查各种各样的函数,表连接存储模式基于列存储基于表格结构和行存储数据保护更新后旧版本仍然会保留替换可伸缩性轻易的进行增加节点,兼容性高需要中间层,牺牲功能企业信息化部把信息化打造成为中国电信企业核心竞争力之一2 HBase 体系结构体系结构PDF created with pdfFactor

23、y Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一Hbase应用场景成熟的数据分析主题,业务场景简单,不需要关系数据成熟的数据分析主题,业务场景简单,不需要关系数据库库中很多特性,查询模式已经确定并且不易改变中很多特性,查询模式已经确定并且不易改变传传统统的的关关系系型型数数据据库库已已经经无无法法承承受受负负荷荷,高高速速插插入入,有有大大 量读取清单的需求,并且有快速随机访问的需求量读取清单的需求,并且有快速随机访问的需求适适合合海海量量的的,但但是是同同时时也也是是简简单单的的操操作作,具具备备低低延延时时的的数数 据据返返回回,比比如如说说k

24、ey-value的的操操作作,是是生生产产环环境境对对外外访问可访问可 行的方式行的方式海量数据存储的驱使,具备动态扩展系统容量的需海量数据存储的驱使,具备动态扩展系统容量的需求求PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一Hadoop常用组件Hive简介Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一 张数据库表,并提供完整的类sql查询功能,可以将类sql语句转换为 MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速 实现简单的MapR

25、educe统计,不必开发专门的MapReduce应用,十分适合数 据仓库的统计分析。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一当前数据分析方法当前数据分析方法百万级百万级千万级千万级亿万级以亿万级以上上Unix/Linux工具工具 awk、grep、sort、join等等RDBMS,如,如MysqlPerl、python、java等等RDBMS,如,如 Mysql、Mongodb Oracle、DB2等等分布式:分布式:Oracle RAC、Greenplum Hadoop(开源免费)(开源

26、免费)MPP主要基于单机计主要基于单机计算算基于集群并行计基于集群并行计算算PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一HIVE VS SQL数据存储数据存储HDFS/HBaseRaw Device/Loacl FS数据格式数据格式用户自定义用户自定义系统决系统决定定 数据更新数据更新不支持(覆盖之前数据)不支持(覆盖之前数据)支持支持 索引索引有(有(0.8版本新增)版本新增)有有执行执行MapReduceExecutor执行延迟执行延迟高高低低可扩展性可扩展性高(高(UDF、UDAF、UD

27、TF)低低数据规模数据规模大(数据大于大(数据大于TB)小小数据检查数据检查读时模式读时模式写时模式写时模式列分隔符(通常为空格、列分隔符(通常为空格、”t”、”x001)行分隔符(行分隔符(”n”)随时间变化的随时间变化的如如MYSQL:MyISAM、InnoDB、MEMORYSQL:需要经常进行修改的,面向用户的数据需要经常进行修改的,面向用户的数据添加数据,添加数据,PDF created with pdfFactory Pro trial version HQLSQLHIVE:不支持建针没立有在数索据H引a仓,do库需o应p要之用扫上设描的计整,的个可,表扩数(展据或性仓者与库分h是区

28、a读d)o操o,p作因一远此致远延多迟于较写高操(作在0.8.X版之后加入了索引世)数界据上仓最库大的的特性Ha是do:op 集群在 Yahoo!,2009年的规模在 4000 台节点左右M文a件pR存e储du格c面e式向本,主身默题具认有有较T高ex的tF延ile迟、(Se分qu钟en级ce)File、RCFileSQL:集成的SQL:不数同据的库数由据于库A有CI不D 同语的义存的储严引格擎限。制对于海量数据的处理,数据库能力较弱目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有 100 台左右对于海量数据的处理,数据库能力较弱INSERT INTO.VALUESUPDATE.

29、SET 修改数据企业信息化部把信息化打造成为中国电信企业核心竞争力之一Pig是是Hadoop上层的衍生架构,对比上层的衍生架构,对比Hive(一种声明式的语言),(一种声明式的语言),Pig是是 一种过程语言,类似于存储过程一步一步的对数据进行转化一种过程语言,类似于存储过程一步一步的对数据进行转化Pig对对MapReduce算算法法实实现现了了一一套套shell,类类似似SQL语语句句,在在Pig中中称称为为 Pig Latin,可可以以对对数数据据进进行行排排序序、过过滤滤、求求和和、分分组组(group by)、关联、关联 (Joining)等操作等操作Pig也也可可以以由由用用户户自自

30、定定义义一一些些函函数数对对数数据据集集进进行行操操作作,也也就就是是传传说说中的中的 UDF(user-defined functions)。Hadoop常用组件Pig简介PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一PDF created with pdfFactory Pro trial version Pig和和Hive的对的对比比特性HivePig语言SQL-likePigLatin模式是(严格)是(不严格)分区是否服务可选(Thrift)否自定义函数是(Java)是(Java)用户序

31、列化/非序列化是是是否可以访问DFS是(不严格)是(严格)Join/Order/Sort是是Shell是是流计算是是Web接口是否JDBC/ODBC是(有限制)否企业信息化部把信息化打造成为中国电信企业核心竞争力之一Pig的设计哲学 Pig语言可以操纵各种类型的数据,无论数据是否是元数据、语言可以操纵各种类型的数据,无论数据是否是元数据、是是否结构化,都没有问题,甚至可以扩展到对键否结构化,都没有问题,甚至可以扩展到对键/值值 数据的操数据的操作作Pigs eat anything Pig设计是独立成体系的,可以在设计是独立成体系的,可以在Hadoop上的上的HDFS上实现上实现运行,运行,也

32、可以在其它的文件系统运行也可以在其它的文件系统运行Pig live anywhere Pig可以快速的处理数据,今后对可以快速的处理数据,今后对pig的持续改进,将不会的持续改进,将不会让它为让它为 了实现某种功能而降低性能,目的就是为了让了实现某种功能而降低性能,目的就是为了让Pig可以自由的飞可以自由的飞 翔翔Pigs fly Pig被设计为易于操作和修改,用户可以自己定义函数实现被设计为易于操作和修改,用户可以自己定义函数实现很多很多 数据操作的功能,为了更好的让数据操作函数共享,数据操作的功能,为了更好的让数据操作函数共享,pig发起了发起了 一个全球的一个全球的pig bank的计划

33、,上面会有全球的计划,上面会有全球pig开发工程师共享的开发工程师共享的 数据操作函数,这些函数可以免费共享数据操作函数,这些函数可以免费共享和使用和使用Pigs are domestic animalsPig什么都能什么都能吃吃Pig 哪儿都能哪儿都能活活Pig哪儿都能哪儿都能养养让让pig飞飞翔翔PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一ZooKeeper是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复

34、杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。Hadoop常用组件ZooKeeper简介PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一sqoop主要用来在Hadoop和关系数据库中传递数据。通过sqoop,我们 可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出 到关系数据库。Hadoop常用组件Sqoop简介sqoop架构非常简单,其整合了 Hive、Hbase和Oozie,通过 map-reduce任务来传输数据,从 而提供并发特性和容错。sqo

35、op架构非常简单,其整合了 Hive、Hbase和Oozie,通过 map-reduce任务来传输数据,从 而提供并发特性和容错。PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一推荐采用:Pentaho Data Integrate中的大数据组件集成中的大数据组件集成了了 Sqoop,使得我们可以在界,使得我们可以在界面通面通 过拖拽使用过拖拽使用sqoop组件,组件,提高大提高大 家的开发效率家的开发效率PDF created with pdfFactory Pro trial version

36、PentahoSqoop的拓展企业信息化部把信息化打造成为中国电信企业核心竞争力之一Hue是专门为运营和开发人员开发的,执行Hadoop相关应用的图形化用户界面。Hue程序被整合到一个类似桌面的环境,以web程序的形式发布,用户可以通过B/S方式使用Hadoop常用组件Hue简介PDF created with pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一江西电信江西电信Hue部署部署y推荐:数据分析人员通过Hue来使用 Hive可视化的界面和说明可以使没接触 过Hadoop的分析人员迅速上手PDF created with

37、pdfFactory Pro trial version 企业信息化部把信息化打造成为中国电信企业核心竞争力之一企业级企业级hadoop平台应用模式平台应用模式共勉:人类从依靠自身判断做决定到依靠数据做决定的转变,是大数据做出的最大贡献之一,也是我们为之奋斗的目标。PDF created with pdfFactory Pro trial version 吗吗?fMiE谢谢谢谢才巴,信息化打造成为中国电信企业核心竞争力之一才巴,信息化打造成为中国电信企业核心竞争力之一PDF created with pdfFfFactory Pro trial version lC!lC!ww.od仔仔actolVlV.com

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 教育专区 > 职业教育

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服