收藏 分销(赏)

HDFS高可用性方案PPT.ppt

上传人:丰**** 文档编号:9486606 上传时间:2025-03-28 格式:PPT 页数:20 大小:2.03MB
下载 相关 举报
HDFS高可用性方案PPT.ppt_第1页
第1页 / 共20页
HDFS高可用性方案PPT.ppt_第2页
第2页 / 共20页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2,#,HDFS,高可用性方案,大数据高可用性方案,:,一。副本技术方案:主要介绍,HDFS,。,二。纠错码技术方案:主要介绍,HDFS-RAID,。,1.,集群高可用方法一:,副本技术,主要代表方案:,GFS/HDFS,、,Glusterfs,复制卷和,RAID1,。,Glusterfs,复制卷方法如下图所示:,1.1,副本技术的功能,副本(,Replication,)就是对原始数据的完全拷贝。,功能:,(,1,)通过冗余的文件数据,可以十分有效地提高文件的可用性;,(,2,)副本还可以选择性地放在合适的存储节点上,通过路由协议配合,可以实现数据的就近访问,提高系统性能。,2.,集群高可用方法二:,纠错码技术,主要代表方案:,HDFS-RAID,、,AZURE,、,QFS,、,ISILON,等。我们将,以,HDFS-RAID,为主来说明。,2.1 HDFS-RAID,总体架构,HDFS RAID,的实现不再,HDFS,上直接修改,而是在,HDFS,之上增加了一个包,contrib,。,2.1 HDFS-RAID,基本功能,1 Raid,数据的管理,DRFS,的管理包括,DFS,中哪些文件需要进行,raid,化,查询,raid,文件状态等,由,RaidShell,通过,RPC,与集群中的,RaidNode,通信,完成操作。,2 Raid,数据读写,DRFS,包装了,DFS,的读(只是读)请求,当发生,block,丢失或损坏,,DRFS,会捕获异常,并向,RaidNode,发送,RPC,对失效的数据进行恢复。,2.1 HDFS-RAID,工作原理(,1,),HDFS-RAID,中包括,RaidNode,、,NameNode,和,JobTracker,三个主节点。,数据,raid,化有两种:,1.,通过,raidFile,命令触发;,2.,周期扫描,policy,配置,根据新的配置信息进行相应的,raid,化。,2.1 HDFS-RAID,工作原理(,2,),raidFile,命令处理流程:,2.1 HDFS-RAID,工作原理(,3,),流程说明:,1.,检查,delay,时间,到时间方执行;,2.,参数处理,包括,path,路径校验,,codec,设置等;,3.,查询,path,路径状态,分为,local,(本地)和,dist,(远程)两种模式;,4.,根据参数构造一个新的,raid-policy,,等待,TiggerMonitor,线程下次处理该,policy,。,2.1 HDFS-RAID,工作原理(,4,),新,policy,处理流程:,RaidNode,上有一个守护线程,riggerMonitor,周期性地从,configManager,中获取,policy,列表,对每个,policy,进行如下处理:,1.,如未执行过,立即处理;如已处理,过滤其,path,中尚未处理的,file,;,2.,如果是,local,模式,对列表中的,file,执行,RaidNode.doRaid(),;,3.,如果是,dist,模式,构建一个,raid job,,就是一个待,raid,文件,path,构成的,sequence,文件,,RaidNode.doRaid(),对该文件中的,file path,进行,raid,。,2.1 HDFS-RAID,工作原理(,5,),RaidNode.doRaid(),的主要流程如下:,2.1 HDFS-RAID,工作原理(,6,),流程说明:,1.,获取文件,block,和,delay,信息,如果,block,数,2,时则进入步骤,3,;,3.,检查相应的,parity,文件是否存在,如存在,检查,parity,文件的更新时间是否与源文件一致,如是,则认为该源文件已经,raid,且是最新,不进行,raid,。,4.,如果,parity,文件不存在或不是最新,则生成,parity,文件,生成方法说明如后,并设置,parity,文件的更新时间与源文件一致。,5.,检查,policy,文件的最终状态,是否与源文件一致。通过则,raid,完成。,2.1 HDFS-RAID,工作原理(,7,),生成,parity,文件的,Encoder,过程:,2.1 HDFS-RAID,工作原理(,8,),Encoder,流程说明:,1.,由于编码过程会比较长,所以先生成,p,文件;,2.,构建,p,文件,path,;,3.,通过,Erasued Code,(主要有,XOR,算法和,RS,算法)来编码到,p,文件;,4.,删除原有的,parity,文件;,5.,将,p,文件重命名为,parity,文件;,6.,删除,p,文件。,2.1 HDFS-RAID,工作原理(,9,),发现错误时,Decoder,修复过程:,2.1 HDFS-RAID,工作原理(,10,),修复流程说明:,1.,根据文件中出错的位置,计算出错的,block,,该,block,所在的,stripe,,以及在,stripe,中的位置,计算,parity,文件相应,block,的位置,2.,读取源,block,数据和,parity,数据,读取方式与编码时类似;,3.,通过,Erasured Code,将源,block,和,parity,数据的进行解码,生成丢失的,block,数据。,2.2 HDFS,小结,集群存储系统中,采用纠删码可以提供比副本机制更高的可靠性,并且所需的存储空间开销更小。纠删码能提供很高的容错性和很低的空间复杂度,但编码方式较复杂,需要大量计算,性能稍差。,1,2,3,4,
展开阅读全文

开通  VIP会员、SVIP会员  优惠大
下载10份以上建议开通VIP会员
下载20份以上建议开通SVIP会员


开通VIP      成为共赢上传
相似文档                                   自信AI助手自信AI助手

当前位置:首页 > 包罗万象 > 大杂烩

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        抽奖活动

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4009-655-100  投诉/维权电话:18658249818

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :微信公众号    抖音    微博    LOFTER 

客服