ImageVerifierCode 换一换
格式:PPT , 页数:86 ,大小:2.32MB ,
资源ID:10263746      下载积分:18 金币
验证码下载
登录下载
邮箱/手机:
图形码:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/10263746.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

开通VIP折扣优惠下载文档

            查看会员权益                  [ 下载后找不到文档?]

填表反馈(24小时):  下载求助     关注领币    退款申请

开具发票请登录PC端进行申请。


权利声明

1、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
2、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
3、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
4、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前可先查看【教您几个在下载文档中可以更好的避免被坑】。
5、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
6、文档遇到问题,请及时联系平台进行协调解决,联系【微信客服】、【QQ客服】,若有其他问题请点击或扫码反馈【服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【版权申诉】”,意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4009-655-100;投诉/维权电话:18658249818。

注意事项

本文(Hadoop综述PPT学习课件.ppt)为本站上传会员【精****】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4009-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

Hadoop综述PPT学习课件.ppt

1、单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Hadoop,综述,1,2025/4/29 周二,主要内容,2,第一篇,HDFS,分布式文件系统,第二篇,MapReduce,第三篇,Hbase,简单介绍,2,2025/4/29 周二,第一篇,HDFS,3,一:,The Design of HDFS,二:,HDFS Concepts,三:应用程序示例,四:,Data Flow,3,2025/4/29 周二,第二篇,MapReduce,4,一,:,M,apReduce,基础,二:M,apReduce,数据流,三:M,apReduce,工作原理,4,2025/

2、4/29 周二,第三篇,Hbase,简单介绍,5,一,:,简介,二:数据模型,三:行、列、时间戳、,API,5,2025/4/29 周二,第一篇,HDFS,分布式文件系统,6,2025/4/29 周二,1 The Design of HDFS,Very large files,大数据集合为目标数,以千万计的文件,典型文件大小一般都在千兆至,T,字节,Streaming data access,write-one-read-many,访问模型,文件创建、写,关闭之后不需要改变简化数据一致性,适合,MapReduce,框架,或者,web crawler,Commodity hardware,错误检

3、测和快速、自动的恢复是,HDFS,的核心架构目标,7,2025/4/29 周二,1 The Design of HDFS,Low-latency data access,流式读为主,比之关注数据访问的低延迟,更关键在于数据访问的高吞吐量,arbitrary file modifications,严格要求在任何时候只有一个,writer,。文件尾,在异构的软硬件平台间的可移植性移动计算,Java,编写,8,2025/4/29 周二,2 HDFS Concepts,blocks,Namenodes and Datanodes,The Command-Line Interface,通信接口,9,20

4、25/4/29 周二,2.1 HDFS Concepts-blocks,files in HDFS are broken into block-sized chunks(64 MB by default),减少元数据的量,有利于顺序读写(在磁盘上数据顺序存放),副本的默认数目是,3,a file can be larger than any single disk in the network.,making the unit of abstraction a block rather than a file simplifies the storage subsystem.,10,2025/

5、4/29 周二,2.2 HDFS Concepts-,Namenodes and Datanodes,Basic model,Namenode,DataNode,心跳机制,11,2025/4/29 周二,2.2.1 HDFS Concepts-,Namenodes and Datanodes-,Basic model,Basic model,:,Master/Slaves/Client,Corresponding implementation,:Master NameNode SlavesDataNodes Client DFSClient,12,2025/4/29 周二,2.2.1 HDFS

6、 Concepts-,Namenodes and Datanodes-,Basic model,查看块信息,hadoop fsck files blocks,部分运行结果,13,2025/4/29 周二,2.2.2 HDFS Concepts-,Namenodes and Datanodes-,NameNode,manages the filesystem namespace,元数据信息包括:,文件信息,,根目录,hdfs:/master:9000/,每一个文件对应的文件块的信息,每一个文件块在DataNode的信息,persistent state of the filesystem met

7、adata.,Namenode folders structure,Namenode namespace,映像文件及修改日志,客户端对文件的访问,14,2025/4/29 周二,2.2.2.1 HDFS Concepts-Namenodes and Datanodes-NameNode-,manages the filesystem namespace,将所有的文件和文件夹的元数据保存在一个文件系统树中。,在硬盘上保存成以下文件:,命名空间镜像,(namespace image),修改日志,(edit log),心跳信号传递信息(并不存储在硬盘):,一个文件包括哪些数据块,分布在哪些数据节点上

8、系统启动的时候从,Datanode,收集而成的。,Datanode,在,Namenode,的指挥下进行,block,的创建、删除和复制。,15,2025/4/29 周二,2.2.2.2 HDFS Concepts-Namenodes and Datanodes-NameNode-persistent state of the filesystem metadata,对于任何对文件元数据产生修改的操作,,Namenode,都使用一个称为,Editlog,的事务日志记录下来。,例如,在,HDFS,中创建一个文件(,打开、关闭、重命名文件和目录,),,Namenode,就会在,Editlog,中插

9、入一条记录来表示;同样,修改文件的,replication,因子也将往,Editlog,插入一条记录。,整个文件系统的,namespace,,包括,block,到文件的映射、文件的属性,都存储在称为,FsImage,的文件中,这个文件也是放在,Namenode,所在系统的文件系统上,16,2025/4/29 周二,2.2.2.2 HDFS Concepts-Namenodes and Datanodes-NameNode-persistent state of the filesystem metadata,块进行复制的形式放置,按照块的方式随机选择存储节点。,a,副本的默认数目是,3,17,

10、2025/4/29 周二,2.2.2.3 HDFS Concepts-Namenodes and Datanodes-NameNode-Namenode folders structure,namespaceID=1232737062,cTime=0,storageType=NAME_NODE,layoutVersion=-18,VERSION,文件是,java properties,文件,保存了,HDFS,的版本号。,layoutVersion,是一个负整数,保存了,HDFS,的持续化在硬盘上的数据结构的格式版本号。,namespaceID,是文件系统的唯一标识符,是在文件系统初次格式化时生

11、成的。,cTime,此处为,0,storageType,表示此文件夹中保存的是元数据节点的数据结构。,18,2025/4/29 周二,2.2.2.4 HDFS Concepts-Namenodes and Datanodes-NameNode-,Namenode-,Namenode,文件系统命名空间映像文件及修改日志,客户端操作(打开、关闭、重命名文件和目录),NameNode将对文件系统的改动,追加,保存到本地文件系统上的一个日志文件(edits),NameNode,启动,从映像文件(,fsimage,)中读取,HDFS,的状态,接着应用日志文件中的,edits,操作,新的,HDFS,状态写

12、入(,fsimage,)中,使用一个空的,edits,文件开始正常操作。,写操作成功之前,修改日志都会同步,(sync),到文件系统。,fsimage,命名空间映像文件,是内存中的元数据在硬盘上的,checkpoint,NameNode,只有在启动阶段合并,fsimage,和,edits,,日志文件会变大,19,2025/4/29 周二,2.2.3 HDFS Concepts-Namenodes and Datanodes-DataNodes,文件存储的基本单元,保存,Block,的,Meta-data,周期性地将所有,Block,信息发送给,NameNode,。,文件夹结构,blk_,保存的

13、是,HDFS,的数据块,其中保存了具体的二进制数据。,blk_.meta,保存的是数据块的属性信息:版本信息,类型信息,和,checksum,目录中数据块到达一定数量,创建子文件夹,20,2025/4/29 周二,2.2.4 HDFS Concepts-,Namenodes and Datanodes-,心跳机制,master,启动,开一个,ipc server,slave,启动每隔,3,秒向,master,发送“心跳”,状态信息告诉,master,master,通过心跳的返回值,向,slave,节点传达指令,周期性接收“心跳”和,Blockreport,Datanode,上所有,block,

14、组成列表,21,2025/4/29 周二,2.3 HDFS Concepts-,Namenodes and Datanodes-,The Command-Line Interface,interacting with HDFS,hadoop fs mkdir input,hdfs:/master:9000/user/coole,在,hdfs:/master:9000/user/coole,下新建,input,目录,22,2025/4/29 周二,2.5 HDFS Concepts-,Namenodes and Datanodes-,通信接口,对通信的对象进行序列化,自己的序列化系统。,org.

15、apache.hadoop.io,中定义可序列化对象,实现了,Writable,接口,23,2025/4/29 周二,3 Hadoop,应用程序示例,/,在,hdfs:/master:9000/user/coole,目录下创建文件并写入内容,public class DFSOperator,public static void main(String args),Configuration conf=new Configuration();,try,FileSystem,fs=FileSystem.get(conf);,Path t=new Path(,hdfs:/master:9000/us

16、er/coole/dfs_operator.txt,);,FSDataOutputStream os=fs.create(t,true);,int i=0;,for(i=0;istring,71,2025/4/29 周二,Hbase,数据模型 行,每一行都有一个可排序的主键和任意多的列。,行关键字可以是任意字符串,表用行键即主键排序,通过主键访问表。,在一个行关键字下的每一个读写操作都是原子操作 有利于同行并发操作,举例,在,Webtable,里,通过反转,URL,中主机名的方式,可以把同一个域名下的网页组织成连续行。,72,2025/4/29 周二,Hbase,数据模型 列族,每行列分组形成

17、列族:,“:”,每张表有一个,family,集合,固定不变,相当于表结构,列族成员有相同前缀。,OK:a,与,OK:b,都属于,OK,列族成员,同一列族下存放的所有数据通常都是同一类型,列族必须先创建,然后能在其中的列关键字下存放数据,,动态增加列,限定词任意字符串。比如,,Webtable,列族是,anchor,;给列族的每一个列关键字代表一个锚链接,物理存储,列族成员在文件系统存在一起,(确切)面向列族。,这是访问控制的基本单位。,73,2025/4/29 周二,Hbase,数据模型 时间戳,表中每一个表项都可以包含同一数据的多个版本不同版本的表项内容按时间戳倒序排列,即最新的排在前面。,

18、自动进行垃圾清除。用户可以指明只保留表项的最后,n,个版本,在,Webtable,中,在,contents:,列中存放确切爬行一个网页的时间戳。如上的垃圾清除机制可以让我们只保留每个网页的最近三个版本。,74,2025/4/29 周二,Hbase,数据模型,行名是一个反向,URL,即,n.www,。,contents,列族存放网页内容,anchor,列族存放引用该网页的锚链接文本。,CNN,的主页被,Sports Illustrater,和,MY-look,的主页引用,因此该行包含了名叫“,anchor:”,和“,anchhor:my.look.ca”,的列。列名字的格式是,:,时间戳 每个锚

19、链接只有一个版本,由时间戳标识,如,t9,,,t8,;而,contents,列则有三个版本,分别由时间 戳,t3,,,t5,,和,t6,标识。,一个存储,Web,网页的例子的表的片断,75,2025/4/29 周二,Hbase,数据模型,概念视图,一个表可以想象成一个大的映射关系,通过主键,或者主键+时间戳,可以定位一行数据,由于是稀疏数据,所以某些列可以是空白的,下面就是数据的概念视图:,76,2025/4/29 周二,Hbase,数据模型,物理视图,在物理存储上面,它是按照列来保存的,,在概念视图上面有些列是空白的,这样的列实际上并不会被存储,如果在查询的时候不提供时间戳,返回最新版本,7

20、7,2025/4/29 周二,区域(,tablet,),表横向分不同区域,各区域代表所有行一个子集,区域确定:第一行(包含)最后行(不含),+,随机标识,表初始单个区域,-,逐渐扩大超过阈值,-,以行为界分割,区域分散在,HBase,集群上单元,Bigtable,通过行关键字的字典序来维护数据。动态划分成多个连续行叫做“子表”(,tablet,)是数据分布和负载均衡的单位。这样一来,读较少的连续行就比较有效率,78,2025/4/29 周二,架构与实现,Hbase,由主节点,master,多个区域服务器,regionserver,从结点,Master,分配区域给已注册的区域服务器,Region

21、server,负责,0,到多个区域,响应客户端读写请求,通知,master,分裂成子区域信息,79,2025/4/29 周二,特性,无真正索引,行顺序,无索引膨胀问题,插入操作性能与表大小无关,自动分区,商用硬件,建立在,1000-5000,节点,,RDBMS,非常消耗,IO,?,80,2025/4/29 周二,Hbase,API,BT,的提供了建立和删除表和列族的函数还提供了函数来修改集群,表和列族的元数据,比如说访问权限,81,2025/4/29 周二,Hbase,API,:,写入,Bigtable.,/Open the table,Table*T=OpenOrDie(”/bigtable

22、/web/webtable”);,/Write a new anchor and delete an old anchor,RowMutation r1(T,“n.www”);,r1.Set(”anchor:www.c-span.org”,“CNN”);,r1.Delete(”anchor:”);,Operation op;,Apply(,82,2025/4/29 周二,Hbase,API,:,写入,Bigtable.,在中,客户应用可以写或者删除值,从每个行中找值,或者遍历一个表中的数据子集图,2,的代码是使用,RowMutation,抽象表示来进行一系列的更新(为保证代码精简,没有包括无关

23、的细节)调用,Apply,函数,就对,ebtable,进行了一个原子修改:它为,周二,Hbase,API,:,读,Bigtable.,Scanner scanner(T);,ScanStream*stream;,stream=scanner.FetchColumnFamily(”anchor”);,stream-SetReturnAllVersions();,scanner.Lookup(”n.www”);,for(;!stream-Done();stream-Next(),printf(”%s%s%lld%sn”,scanner.RowName(),stream-ColumnName(),stream-MicroTimestamp(),stream-Value();,84,2025/4/29 周二,Hbase,API,:,读,Bigtable.,代码是使用,Scanner,抽象来遍历一个行内的所有锚点客户可以遍历多个列族有很多方法可以限制一次扫描中产生的行,列和时间戳例如,我们可以限制上面的扫描,让它只找到那些匹配正则表达式*,的锚点,或者那些时间戳在当前时间前,10,天的锚点,85,2025/4/29 周二,The End,86,2025/4/29 周二,

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服