大数据平台介绍.ppt-资源下载-咨信网-让知识获取变得高效

大数据平台介绍.ppt

1、大数据平台介绍,1,2,目录,Hadoop,大数据生态圈介绍,大数据应用介绍,3,Cloudera Manager,介绍,Hadoop,大数据生态圈,Hadoop,生态圈,Hadoop,简介,Hadoop,一个分布式系统基础架构，由,Apache,基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。,简单地说来，,Hadoop,是一个可以更容易开发和运行处理大规模数据的软件平台。,Hadoop,的框架最核心的设计就是：,HDFS,和,MapReduce,。,HDFS,为海量的数据提供了存储，则,MapReduce,为海量的数据提供了计算。,

2、Hadoop,能解决哪些问题,海量数据需要及时分析和处理。,海量数据需要深入分析和挖掘。,数据需要长期保存,问题：,磁盘IO成为一种瓶颈,而非CPU资源。,网络带宽是一种稀缺资源,硬件故障成为影响稳定的一大因素,HDFS,适应条件,HDFS,：为以流式数据访问模式存储超大文件而设计的文件系统。,流式数据访问,指的是几百,MB,，几百,GB,，几百,TB,，甚至几百,PB,流式数据访问,HDFS,建立的思想是：一次写入、多次读取模式是最高效的。,商用硬件,hadoop,不需要运行在昂贵并且高可靠的硬件上,。,HDFS,不适应条件,低延迟数据访问,HDFS,是为了达到高数据吞吐量而优化的，这是以

3、延迟为代价的，对于低延迟访问，可以用,Hbase,（,hadoop,的子项目）。,大量的小文件,多用户写入，任意修改,HDFS,基本单元,Block(,块,),：,HDFS,基本储存单元，是个逻辑单元。一个文件有可能包含多个块，一个块有可以包含多个文件，由文件的大小和块大小的参数决定。,dfs.block.size,参数。,Hdfs,中,Block,的大小，默认,64MB,，如果设置大，就会有可能导致,Map,运行慢，设置小，有可能导致,Map,个数多，所有一定要设置适当。（目前主流机器建议设置为,128M,）,设置一个,Block 64MB,，如果上传文件小于该值，仍然会占用一个,Block

4、的命名空间（,NameNode metadata,），但是物理存储上不会占用,64MB,的空间,Block,大小和副本数由,Client,端上传文件到,HDFS,时设置，其中副本数可以变更，,Block,是不可以再上传后变更的,HDFS,处理机制,Client,：切分文件；访问,HDFS,；与,NameNode,交互，获取文件位置信息；与,DataNode,交互，读取和写入数据。,NameNode,：,Master,节点，管理,HDFS,的名称空间和数据块映射信息，配置副本策略，处理客户端请求。,DataNode,：,Slave,节点，存储实际的数据，汇报存储信息给,NameNode,。,S

5、econdary NameNode,：辅助,NameNode,，分担其工作量；定期合并,fsimage,和,fsedits,，推送给,NameNode,；紧急情况下，可辅助恢复,NameNode,，但,Secondary NameNode,并非,NameNode,的热备,HDFS,文件读取,MapReduce,简介,简介,MapReduce,是一个,高性能,的,批处理分布式计算框架,，用于,对海量数据进行并行分析和处理,。,MapReduce,将分析任务分为大量的并行,Map,任务和,Reduce,任务两类。,与传统数据仓库和分析技术相比，,MapReduce,适合处理各种类型的数据，包括结构

6、化、半结构化和非结构化数据。,结构化、半结构化、非结构化数据,结构化数据（即行数据，存储在数据库里，可以用二维表结构来逻辑表达实现的数据）,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据（包括所有格式的办公文档、文本、图片、,XML,、,HTML,、各类报表、图像和音频,/,视频信息等等）,所谓半结构化数据，就是介于完全结构化数据（如关系型数据库、面向对象数据库中的数据）和完全无结构的数据（如声音、图像文件等）之间的数据，,HTML,文档就属于半结构化数据。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。,MapReduce,简介,适合,处理的任务,适用于,离线批处理,任务

7、是以“行”为处理单位的，无法回溯已处理过的“行”，故每行都必须是一个独立的语义单元，行与行之间不能有语义上的关联。,相对于传统的关系型数据库管理系统，,MapReduce,计算模型更适合于处理半结构化或无结构话的数据。,不适合处理的任务,不适合一般,web,应用,不适合实时响应的任务,不适合小数据集的处理,不适合需要大量临时空间的任务,不适合,CPU,密集且具有许多交叉调用的任务,MapReduce,工作原理,MapReduce,执行流程,MapReduce,角色,Client,：作业提交发起者。,JobTracker:,初始化作业，分配作业，与,TaskTracker,通信，协调整个作业。

8、TaskTracker,：保持,JobTracker,通信，在分配的数据片段上执行,MapReduce,任务。,任务的分配,TaskTracker,和,JobTracker,之间的通信与任务的分配是通过心跳机制完成的。,TaskTracker,会主动向,JobTracker,询问是否有作业要做，如果自己可以做，那么就会申请到作业任务，这个任务可以使,Map,也可能是,Reduce,任务,。,MapReduce,工作原理,任务的执行,申请到任务后，,TaskTracker,会做如下事情：,拷贝代码到本地,拷贝任务的信息到本地,启动,JVM,运行任务,状态与任务的更新,任务在运行过程中，首先会将

9、自己的状态汇报给,TaskTracker,，然后由,TaskTracker,汇总告之,JobTracker,。,作业的完成,JobTracker,是在接受到最后一个任务运行完成后，才会将任务标志为成功。,此时会做删除中间结果等善后处理工作。,MapReduce,工作原理,Hadoop,实例,根据,URL,的顶级域名进行分类统计,输入、输出格式：文件,源文件格式如下：,统计目标：,Hadoop,实例,1.,编写,MapReduce,函数，客户端作业,Map,函数,Hadoop,实例,Reduce,函数,Job,设置,Hadoop,实例,编译、打包成,jar,文件,略,3.,源文件提交到,HDFS

10、文件系统,文件从本地提交到,HDFS,文件系统,put,命令,查看,HDFS,文件系统中已提交的文件,Hadoop,实例,使用,Hadoop,命令提交作业,提交作业,查看作业,localhost:50030,Hadoop,实例,查看执行结果,查看执行结果生成的文件,查看,HDFS,文件系统中的结果,HDFS,文件拷贝到本地，查看结果,Hive,简介,Hive,是什么,hive,是基于,Hadoop,的一个,数据仓库,工具，可以将,结构化,的数据文件,映射,为一张,数据库表,，并提供完整的,sql,查询功能,，可以将,sql,语句转换为,MapReduce,任务进行运行。其优点是学习成本低，可

11、以通过类,SQL,语句快速实现简单的,MapReduce,统计，不必开发专门的,MapReduce,应用，十分适合数据仓库的统计分析。,Hive,是建立在,Hadoop,上的,数据仓库基础构架,。它提供了一系列的工具，可以用来进行,数据提取转化加载（,ETL,）,，这是一种可以,存储,、,查询,和,分析,存储在,Hadoop,中的大规模数据的机制。,Hive,定义了简单的类,SQL,查询语言，称为,HQL,，它允许熟悉,SQL,的用户查询数据。同时，这个语言也允许熟悉,MapReduce,开发者的开发自定义的,mapper,和,reducer,来处理内建的,mapper,和,reducer,无

12、法完成的复杂的分析工作。,Hive,实例,创建托管表,1.,在,Hive,命令行执行建表语句,2.,查看元数据库中的表信息、字段信息,sds,、,columns_v2,Hive,实例,3.,从本地向,net_addr_1,表中导入数据,4.,查看导入的数据,Hive,实例,根据,URL,的顶级域名进行分类统计,-Hive,实现,1.,源数据入表,略,，使用已生成的,net_addr_1,2.,源数据加工转换，生成中间表,INSERT OVERWRITE TABLE net_addr_3 select net_id,regexp_replace(net_url,(.+.),)from net_a

13、ddr_1;,3.,根据中间表数据进行统计,Hbase,简介,HBase,是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库。和传统关系数据库不同，,HBase,采用了,BigTable,的数据模型：增强的稀疏排序映射表（,Key/Value,），其中，键由行关键字、列关键字和时间戳构成。,HBase,提供了对大规模数据的随机、实时读写访问，同时，,HBase,中保存的数据可以使用,MapReduce,来处理，它将数据存储和并行计算完美地结合在一起,。,利用,HBase,技术可在廉价,PC Server,上搭建起大规模结构化存储集群,Hbase,架构,Hbase,实例

14、1,、构建,Hbase,表,hbase_test,hbase create hbase_test,id01,2,、构建,hive,外表,hive_test,并对应,hbase_test,表,CREATE EXTERNAL TABLE hive_test(id01 STRING),STORED BY org.apache.hadoop.hive.hbase.HBaseStorageHandler,WITH SERDEPROPERTIES(hbase.columns.mapping=:key,id01),TBLPROPERTIES(hbase.table.name=hbase_test);,3,

15、数据通过,hive_test,导入到,hbase_test,表中,INSERT OVERWRITE TABLE hive_test SELECT id01 FROM hive_date;,Hbase,实例,大数据应用介绍,用户上网行为分析系统,用户行为分析系统数据处理流程图,唯品会日志处理框架简介,唯品会日志处理框架简介,全国重点车辆联网联控平台,Cloudera Manager,介绍,Cloudera Manager,介绍,CDH(Clouderas Distribution,including Apache Hadoop),，是,Hadoop,众多分支中的一种，由,Cloudera,维护

16、基于稳定版本的,Apache Hadoop,构建，并集成了很多补丁，可直接用于生产环境。,Cloudera Manager,则是为了便于在集群中进行,Hadoop,等大数据处理相关的服务安装和监控管理的组件，对集群中主机、,Hadoop,、,Hive,、,Hbase,、,Spark,等服务的安装配置管理做了极大简化。,Cloudera Manager,有四大功能,（,1,）管理,（,2,）监控,（,3,）诊断,（,4,）集成,Cloudera Manager,介绍,Cloudera Flume,Flume,是,Cloudera,提供的日志收集系统，,Flume,支持在日志系统中定制各类数据发

17、送方，用于收集数据；,Flume,是,Cloudera,提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，,Flume,支持在日志系统中定制各类数据发送方，用于收集数据；同时，,Flume,提供对数据进行简单处理，并写到各种数据接受方（可定制）的,能力。,Cloudera Manager,介绍,Cloudera Impala,Cloudera Impala,对你存储在,Apache Hadoop,在,HDFS,，,HBase,的数据提供直接查询互动的,SQL,。除了像,Hive,使用相同的统一存储平台，,Impala,也使用相同的元数据，,SQL,语法（,Hive SQL,

18、ODBC,驱动程序和用户界面（,Hue Beeswax,）。,Impala,还提供了一个熟悉的面向批量或实时查询和统一,平台。,Impala,不再使用缓慢的,Hive+MapReduce,批处理，而是通过与商用并行关系数据库中类似的分布式查询引擎（由,Query Planner,、,Query Coordinator,和,Query Exec Engine,三部分组成），可以直接从,HDFS,或者,HBase,中用,SELECT,、,JOIN,和统计函数查询数据，从而大大降低了延迟,Cloudera Manager,介绍,Cloudera,hue,Hue,是,cdh,专门的一套,web,

19、管理器，它包括,3,个部分,hue ui,，,hue server,，,hue db,。,hue,提供所有的,cdh,组件的,shell,界面的接口。你可以在,hue,编写,mr,，查看修改,hdfs,的文件，管理,hive,的元数据，运行,Sqoop,，编写,Oozie,工作流等大量工作,。,Cloudera Manager,介绍,S,park,Spark,与,Hadoop,一样，用于构建大规模、低延时的数据分析应用。,Spark,采用,Scala,语言实现，使用,Scala,作为应用框架,。,Spark,采用基于内存的分布式数据集，优化了迭代式的工作负载以及交互式查询。与,Hadoop,不

20、同的是，,Spark,和,Scala,紧密集成，,Scala,像管理本地,collective,对象那样管理分布式数据集。,Spark,支持分布式数据集上的迭代式任务，实际上可以在,Hadoop,文件系统上与,Hadoop,一起,运行,Spark,基于,map reduce,算法实现的分布式计算，拥有,Hadoop MapReduce,所具有的优点；但不同于,MapReduce,的是,Job,中间输出和结果可以保存在内存中，从而不再需要读写,HDFS,，因此,Spark,能更好地适用于数据挖掘与机器学习等需要迭代的,map reduce,的算法,。,Shark(Hive on Spark):Shark,基本上就是在,Spark,的框架基础上提供和,Hive,一样的,H iveQL,命令接口，为了最大程度的保持和,Hive,的兼容性，,Shark,使用了,Hive,的,API,来实现,query Parsing,和,Logic Plan generation,，最后的,PhysicalPlan execution,阶段用,Spark,代替,Hadoop MapReduce,年内目标,谢谢！,科技创新引领未来,

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？