收藏 分销(赏)

hadoop-技术基础学习资料PPT课件.ppt

上传人:胜**** 文档编号:778705 上传时间:2024-03-13 格式:PPT 页数:20 大小:1.14MB
下载 相关 举报
hadoop-技术基础学习资料PPT课件.ppt_第1页
第1页 / 共20页
hadoop-技术基础学习资料PPT课件.ppt_第2页
第2页 / 共20页
点击查看更多>>
资源描述
HADOOPHadoop概述一HadoopHadoop生生态态圈圈HadoopHadoop构架构架主要主要组组成部分及介成部分及介绍绍1 12 23 3目目录录1 1Hadoop是一个实现了MapReduce计算模型的开源分布式并行编程框架,程序员可以借助Hadoop编写程序,将所编写的程序运行于计算机机群上,从而实现对海量数据的处理。Hadoop还提供一个分布式文件系统(HDFS)及分布式数据库(HBase)用来将数据存储或部署到各个计算节点上。所以,可以大致认为:Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)HadoopHadoop构架分析构架分析构架分析构架分析2 2Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。HadoopHadoop组组成部分成部分成部分成部分3 31、HadoopHDFS是GoogleGFS存储系统的开源实现,主要应用场景是作为并行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、HyperTable)的底层分布式文件系统。HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。HadoopHadoop组组成部分成部分成部分成部分3 32、HadoopMapReduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上TB级别的数据集。一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据块,由Map任务(task)以完全并行的方式处理它们。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控,以及重新执行已经失败的任务。Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。HadoopHadoop组组成部分成部分成部分成部分3 33、Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。主要特点:存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数据仓库的统计分析。Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。HadoopHadoop组组成部分成部分成部分成部分3 34、HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个 ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。表是疏松的存储的,因此用户可以给行定义各种不同的列。在 HBase中数据按主键排序,同时表按主键划分为多个Hregion。Hadoop使用二登登陆陆HadoopHadoop集群集群HadoopHadoop建表建表数据数据查询查询及及导导出出HadoopHadoop的的hdfshdfs命令命令1 12 23 34 4目目录录2 2HOSTNAME133.128.88.200PORT22USERNAMEhadoop1 1登登登登录录hadoophadoop集群集群集群集群或者通过其他机器跳转到133.128.88.200下ssh hadoophadoop-m01或ssh hadoop133.128.88.200键入回车,输入密码。通过hive命令登陆数据库showdatabases;显示当前的所有数据库(同oracle数据库的用户);1 1usedw;切换数据库;登登登登录录hadoophadoop集群集群集群集群showfunctions;显示所有的函数;showtables;查看当前数据库下所有的表;showtables*tg*;模糊匹配当前数据库下所有的表;CREATE EXTERNAL TABLE tg_cdr_noinfo_fix_d(call_duration int,otherfee double,source_type string,cycle_tag string)PARTITIONED BY(day_part string)ROW FORMAT DELIMITED FIELDS TERMINATED BY,STORED AS INPUTFORMAT org.apache.hadoop.mapred.TextInputFormat OUTPUTFORMAT org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormatLOCATION hdfs:/beh/data/stage2/tg_cdr_noinfo_fix_dTBLPROPERTIES(last_modified_by=hadoop,last_modified_time=1464585329,transient_lastDdlTime=1464585329)创建外部表2 2HadoopHadoop建表建表建表建表字段字段类型型表名表名表分区表分区CREATE TABLE dwa_v_d_cus_cb_sing_use_add(day_id string COMMENT 日期日期,area_id string COMMENT 地市地市,city_id string COMMENT 区区县,user_id string COMMENT 订购实例例标识,toll_nums double COMMENT 本地本地长途次数途次数,use_status string COMMENT 用用户使用使用类型型 dim.dim_4G_use_status)COMMENT cBSS业务单用用户累累计使用衍生信息使用衍生信息(日日)(从入网开始)(从入网开始)PARTITIONED BY(day_part string)ROW FORMAT DELIMITED FIELDS TERMINATED BY,STORED AS INPUTFORMAT org.apache.hadoop.hive.ql.io.RCFileInputFormat OUTPUTFORMAT org.apache.hadoop.hive.ql.io.RCFileOutputFormatLOCATION hdfs:/beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_addTBLPROPERTIES(transient_lastDdlTime=1461115949);创建表2 2HadoopHadoop建表建表建表建表字段字段类型及注型及注释表名表名表注表注释表分区表分区表的相关命令showcreatetabledw.dwa_v_d_cus_cb_sing_use_add;查询建表脚本;3 3showpartitionsdw.dw_v_u_k_cdr_gprs_cb;查看表分区数据数据数据数据查询查询及及及及导导出出出出select*fromdw.dw_v_u_k_cdr_gprs_cbwhereday_part=20160101limit1;查询数据insertoverwritetabledim.dim_cbss_deposit清表插入数据insertintotable插入数据insertoverwritetabledw.dw_v_deposit_info_cbpartition(day_part=$v_day);插入分区3 3数据数据数据数据查询查询及及及及导导出出出出导出方法一:insertoverwritelocalDIRECTORY$check_log_dirROWFORMATDELIMITEDFIELDSTERMINATEDBY$v_splitselect$v_column_listfrom$v_tabletwhere$v_part=$v_date;$v_hqlsh$v_hql2&1|tee$v_export_log/dev/null导出方法二:hive-S-eselect1;$directoryHadoop查看目录空间使用情况命令:hadoopfs-count-q统计出目录数、文件数及指定路径下文件的大小,输出列为:DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.带上-q选项后的输出列为:QUOTA,REMAINING_QUATA,SPACE_QUOTA,REMAINING_SPACE_QUOTA,DIR_COUNT,FILE_COUNT,CONTENT_SIZE,FILE_NAME.4 4HaoopHaoop的的的的hdfshdfs命令命令命令命令Hdfs相关命令hadoopfsls/列出当前目录有哪些子目录,有哪些文件。4 4hadoopfs-count/HaoopHaoop的的的的hdfshdfs命令命令命令命令hadoopfsmkidr/test在Hadoop文件系统当中,创建一个test目录hadoopfsrmr/test在Hadoop文件系统当中,创建一个test目录hadoopfsget/filename从Hadoop文件系统当中,获取一个文件到本地的文件系统。hadoopfsputsrcfile/desfile从本地的文件系统上传一个文件到Hadoop文件系统中。THANK YOU
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服