收藏 分销(赏)

分布式存储技术及容灾方案.pdf

上传人:曲**** 文档编号:3141232 上传时间:2024-06-19 格式:PDF 页数:73 大小:4.54MB
下载 相关 举报
分布式存储技术及容灾方案.pdf_第1页
第1页 / 共73页
分布式存储技术及容灾方案.pdf_第2页
第2页 / 共73页
分布式存储技术及容灾方案.pdf_第3页
第3页 / 共73页
分布式存储技术及容灾方案.pdf_第4页
第4页 / 共73页
分布式存储技术及容灾方案.pdf_第5页
第5页 / 共73页
点击查看更多>>
资源描述

1、分布式存储技术及容灾方案课程大纲 分布式存储技术 Hadoop 概念 Hadoop发展历史 Hadoop 架构 HDFS架构 MapReduce 架构 Hadoop实验 Hadoop 灾备分布式存储分布式存储系统主要包括分布式文件系统与分布式数据库系 统。文件系统与数据库系统区别。文件系统用文件将数据长期保存在外存上,数据库系统用数据库统 存储数据;文件系统中的程序和数据有一定的联系,数据库系统中的程序和数据 分离;文件系统用操作系统中的存取方法对数据进行管理,数据库系统用 DBMS统一管理和控制数据;文件系统实现以文件为单位的数据共享,数据库系统实现以记录和字 段为单位的数据共享。分布式存储

2、早期分布式文件系统关系型数据库NES(Network File System)AFS(Andrew File System)Microsoft SQLServer Oracle Database 3分布式文件系统学分布式数据库Global File System(GFS)General Parallel File(GPFS)SUN 的qFS,XNFSMySQL Oracle RAC3主流分布式文件系统非关系型数据库GFS(Google File System)HDFS Moosefs Hbase MongoDB CouchDB 大规模数据处理的问题 1990年,普通的硬盘驱动器可存储1370M

3、B数据并拥有4.4 MB/s的传输速度,只需五分钟的时间就可以读取整个磁盘 的数据。目前,1TB级别的磁盘驱动器是很正常的,但是数据传输的 速度却在100 M B/s左右。所以它需要花两个半小时以上的时 间读取整个驱动器的数据,从个驱动器上读取所有的数据 需要很长的时间,写甚至更慢。如何解决?一个很简单的减少读取时间的办法是同时从多个 磁盘上读取数据。试想一下,我们拥有100个磁盘,每个存 储百分之一的数据。如果它们并行运行,那么不到两分钟我 们就可以读完所有的数据。Hadoop是什么?Hadoop是种针对大数据分析的开源分布式计算平台,是 由Apache软件基金会主席Doug Cutting

4、在雅虎时创建。个分布式文件系统和并行执行环境,让用户便捷地处理海 量数据。目前Yahoo是最主要的贡献者。Hadoop应用Yahoo Yahoo目前有超过38000台服务器,有超过4000个以上的服 务器集群,数据总量达到了 170PB,每日的数据增量在10TB 以上。Yahoo的Hadoop应用包含有搜索、日志处理(Analytics,Reporting,Buzz)、用户建模、内容优化,垃 圾邮件过滤器以及广告计算等。Hadoop应用Yahoo以网络分析为例,Yahoo目前有超过100亿个网页,1PB的网 页数据内容,2万亿条链接,每日面临这300TB的数据输出。在应用Hadoop前,实施这

5、过程我们大概需要1个月的时 间,但应用后仅需要1周时间。再以Yahoo搜索为例,我 们的服务器上保留有用户三年来的搜索记录,这个数据是由 超过10TB的自然语言文本库所组成,如果数据重整,我 们在应用Hadoop前需要1个月的时间进行处理,而在有了 Hadoop后仅仅需要30分钟。Hadoop应用Facebook随着Facebok网站的使用量增加,网站上需要处理和 存储的日志和维度数据激增。在这种环境下对任何种 数据处理平台的个关键性要求是它必须具有快速的支 持系统扩展的应变能力。止矽卜,由于工程资源有限,所 以系统必须是可信的,并且易于使用和维护。Facebook正在运行世界第二大Hadoo

6、p集群系统 Facebook在Hadoop上存放的数据超过了2PB;每天加载的数据超过10TB;Hadoop系统具有2400个内核,大约9TB的内存。Hadoop应用-淘宝淘宝是在国内最先使用Hadoop的公司之一。淘宝网目 前有会员2亿左右,日均UV高达4000万,日交易量高达 10亿元,每天产生大量的数据,所以部署了一系列不同 规模的Hadoop集群。淘宝生产所使用的Hadoop集群 为目前国内规模最大的Hadoop集群之一。Hadoop集群规模 总容量为14.1PB,利用率77.09%共有1300台机器 每天处理18000道Hadoop作业 用户数474人,用户组38个 扫描数据:约50

7、0TB/天Hadoop行业应用 1.在线旅访学:目前Cloudera的Hadoop架构正在为80%左右 的全球在线旅游预定服务。rbitz CEO Barney Harford表 示,受益于Hadoop架构,他们极为轻松地实现了诸多的数 据分析工作,并在其中得出MAC用户比Windows用户愿 意支付20美元的成本来预订酒店,可以帮助发现以前从来 没有发现的数据点,进而使分析和挖掘成为了可能。2移动数据:Cloudera为70%美国智能手机提供服务,通过无线方式存储和处理移动数据,以及有关市场份额的数 学可以帮助锁定客户。3.电子商务:Cloudera第三个市场是美国超过10,000,000家

8、 网上商店。Hadoop行业应用 4.能源发现:采用Hadoop来对数据进行排序和整理,而这些 数据全部来自从海洋深处地震时产生的数据,而其背后有可 能意味着石油储量。5.能源节省:使用Hadoop来提升电服务,尽量为用户节省 在资源方面的投入。某些特定功能,如精确并长期的费用预 测如果没有Hadoop几乎很难完成。power现在管理着 30TB的信息,其中包括来自5000万用户(横跨60个公共事 业部)能源数据,气象与人口方面的公共及私人数据,历史 信息,地理数据及其他。这些都是通过超过20个MySQL数据 库和一个Hadoop集群来存储和处理的。Hadoop行业应用 6.基础设施管理:随着

9、更多的公司从服务器、交换机及其他IT 设备商收集并分析数据,Hadoop更有市场。NetApp收集设 备日志(现在已经超过:LPB的容量了),并将它们存储在 Hadoop 中。7.图像处理:利用Hadoop来存储和处理高来自卫星捕捉的高 分辨率图像,并尝试将这些信息及图像与地理格局的变化相 对应。8.欺诈检测:在金融服务机构和情报机构中,欺诈检测一直 都是关注的重点。Zions BancorporationiJHadoopJ 储所有数据,并对客户交易和现货异常进行判断,对可能存 在欺诈行为提前预警的。Hadoop行业应用 9.IT安全:如基础设施管理一样,企业通过使用Hadoop来处 理机器产

10、生的数据,以识别恶意软件和网络攻击模式。ipTrust通过使用Hadoop来指定IP地址的名誉得分(在0-1之 间的得分,等于没有防线或未知的风险),从而使其他安 全产品可以判断是否接受来自这些来源的通信,IBM和HP都 使用i pTr u st的安全产品。10.医疗保健:Apixi利用Hadoop平台开发了语义分析服务,可以对病人的健康提供医生、护士、及其他相关人士的回答。Apixi试图通过对医疗记录进行先进的技术分析,与一个简 单的基于云计算的搜索引擎来帮助医生迅速了解病人。Hadoop特点扩容能力(Scalable):能可靠地(Reliably)存储和处理干 兆字节(PB)数据。成本低(

11、Economical):可以通过普通机器组成的服务器群 来分发以及处理数据。这些服务器群总计可达数千个节点。高效率(Efficient):通过分发数据,Hadoop可以在数据所 在的节点上并行地(Parallel)处理它们,这使得处理非常的 快速。可靠性(Reliable):Hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(Redeploy)计算任务。Hadoop生态系统Apache Hadoop Ecosystem(u o q E U 一pooo)-d *007-11-1ETL Tools;l Bl Reporting;;RDBMS!iMapReduce(Job Sc

12、heduling/Execution System)Pig(Data Flow)Hive(SQL)SqoopHBase(key-value store)(Streaming/Pipes APIs)HDFS(Hadoop Distributed File System)4Hadoop成员组成 Apache Hadoop是个用java语言实现的软件框架,在由 大量计算机组成的集群中运行海量数据的分布式计算,它可 以让应用程序支持上千个节点和PB级别的数据。ZooKeeperHadoop成员组成 Hadoop core:Hadoop的核子项目,提供了一个分布式 文件系统(HDFS)和支持MapRed

13、uce的分布式计算。Hbase:建立在Hadoop内核之上,提供可靠的,可扩展的 分布式数据库。ZooKeeper:个高效的,可扩展的协调系统。分布式应用 可以使用ZooKeeper来存储和协调关键共享状态。PIG:建立于Hadoop内核之上,是种支持并行计算运行框 架的高级数据流语言。HDFS系统架构HDFS ArchitectureMetadata(Name,replicas,.):/home/foo/data,3,.NamenodeRack 2ClientHDFS主要组件DataName Node Data NodesNameNode DataNode存储元数据 存储文件内容元数据保存在

14、内存中 文件内容保存在磁盘保存文件、Block、DataNode之间 维护了Block id到DataNode本地文的映射关系 件的映射关系NameNode NameNode是个中心服务器,单节点,负责管理文件系统的 名字空间(namespace)以及客户端对文件的访问。NameNode负责文件元数据的操作,DataNode负责处理文件内容 的读写请求,跟文件内容相关的数据流不经过NameNode,只会 询问它跟那个DataNode联系,否则NameNode会成为系统的瓶颈。畐本存放在明B些DataNode上由NameNode来控制,根据全局情况 做出块放置决定,读取文件时NameNode尽量

15、让用户先读取最近 的副本,降低带块消耗和读取时延。NameNode全权管理数据块的复制,它周期性地从集群中的每个 DataNode接收心跳信号和块状态报告(BlockReport)接收到 心跳信号意味着该DataNode节点工作正常。块状态报告包含了一 个该DataNode上所有数据块的列表。DataNode 一个数据块在DataNode以文件存储在磁盘上,包括两个文 件,一个是数据本身,个是元数据包括数据块的长度,块 数据的校验和,以及时间戳。DataNode启动后向NameNode注册,通过后周期性(1小 时)的向NameNode上报所有的块信息。心跳是每3秒次,心跳返回结果带有NameN

16、ode给该 DataNode的命令如复制块数据到另一台机器,或删除某个 数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。集群运行中可以安全加入和退出些机器。文件存储HDFS:Hadoop Distributed File SystemBlock Size=64MBReplication Factor=3I HDFs)2343)ost/GB is a few 0/month 4 vs$/month文件存储文件切分成块(默认大小64M),以块为单位,每个块有多 个副本存储在不同的机器上,副本数可在文件生成时指定(默认3)NameNode是主节点,存储文件的元数据如文

17、件名,文件目 录结构,文件属性(生成时间,副本数,文件权限),以及 每个文件的块列表以及块所在的DataNode等等。DataNode在本地文件系统存储文件块数据,以及块数据的 校验和。可以创建、删除、移动或重命名文件,当文件创建、写入和 关闭之后不能修改文件内容。实例:HDFS写文件实例:HDFS读文件Data NodeData NodeHDFS读文件流程 客户端联系NameNode,得到所有数据块信息,以及数据块 对应的所有数据服务器的位置信息。尝试从某个数据块对应的组数据服务器中选出个,进行 连接。数据被个包个包发送回客户端,等到整个数据块的数据 都被读取完了,就会断开此链接,尝试连接下

18、个数据块对 应的数据服务器,整个流程,依次如此反复,直到所有想读 的都读取完了为止。HDFS可靠性保障 个名字节点和多个数据节点 数据复制(冗余机制)存放的位置(机架感知策略)故障检测数据节点 心跳包(检测是否宕机)块报告(安全模式下检测)数据完整性检测(校验和比较)名字节点(日志文件,镜像文件)空间回收机制Hadoop实验实验环境三台PC机,Linux操作系统,各主机对应的ip地址:192.168.1.11 ubuntul 192.168.1.12 ubuntu2 192.168.1.13 ubuntu3 Hadoop安装包(http:/hadoop.apache.org/core/rele

19、ases.html)安装jdk 1.5以上版本Hadoop实验 Hadoop 安装在所有的机器上建立相同的用户,例如:grid SSH配置,实现在机器之间执行指令的时候不需要输入密码在ubuntul(准备设为NameNode)上生成密钥对,执行$ssh-keygen-t rsa,然后一路回车,就会按照默 认的选项将生成的密钥对保存在.ssh/id_rsa文件中。执 行:$cd/.ssh$cp id_rsa.pub authorized_keys$scp authorized_keys ubuntu2:/home/grid/.ssh$scp authorized_keys ubuntu3:/ho

20、me/grid/.sshHadoop实验在ubuntul上酉己置Hadoop 解压缩,执行:$tar-zxvf./hadoop-0.19.1.tar.gz 编辑 conf/hadoop-site.xml 编辑conf/master,修改为ma st er1的主机名(每个主机名一行)ubuntul编辑conf/slaves,加入所有slaves的主机名 ubuntu2 ubuntu3Hadoop实验在其它机器上配置把Hadoop安装文件复制到其他机器上$scp-r hadoop-0.19.1 ubuntu2:/home/grid$scp-r hadoop-0.19.1 ubuntu3:/home

21、/grid编辑所有机器的conf/hadoop-env.sh文件,将JAVA_HME变量设置 为各自JDK安装的根目录,不同机器可以使用不同的JAVA版本gridubuntul:/hadoop-0.19.1$bin/hadoop namenode-format 09/06/16 19:01:57 INFO namenode.NameNode:STARTUP.MSG:STARTUP.MSG:Starting NameNodeSTARTUP.MSG:host=ubuntul/192.168.1.11STARTUP.MSG:args=-formatSTARTUP.MSG:version=0.19.1

22、STARTUP_MSG:build=https:/svn.apache.org/repos/asf/hadoop/core/branches/branch-0.19-r 745977;compiled by*ndaley*on Fri Feb 20 00:16:34 UTC 2009 09/06/16 19:01:58 INFO namenode.FSNamesystem:fs0wner=grid,grid,adm,dialout,cdro m,floppy,audio,dip,video,plugdev,fuse,Ipadmin,admin09/06/1609/06/1609/06/1609

23、/06/1619:01:5819:01:5819:01:5819:01:59INFO namenode.FSNamesystem:supergroup=supergroupINFO namenode.FSNamesystem:isPermissionEnabled:trueINFO common.Storage:Image file of size 94 saved in 0 seconds.INFO common.Storage:Storage directory/home/grid/hadoop-O.19.1/tmp/dfs/name has been successfully forma

24、tted.09/06/16 19:01:59 INFO namenode.NameNode:SHUTDOWN-MSG:SHUTDOHN-MSG:Shutting down NameNode at ubuntul/192.168.1.11查看Hadoop运行状态 HDFS状态 http:/:50070/Map Reduce 状态 http:/:50030/查看文件系统情况 bin/Hadoop dfsadmin-report列出文件系统目录 bin/Hadoop fs-Is hdfs:/:9100/查看Hadoop运行状态tsitr Mtdoop 1/&t du Ktdoop MModt aut

25、ti X-Q1今 C N D 10.10.11.191:5C30master Hadoop Map/Reduce AdministrationQuick Links,State:RUNNING 一状态Started:Wed Nov 20 16:20:43 CST 2013Version:1.1.2,r1440782-Compiled:Thu Jan 31 02:03:24 UTC 2013 by hortonfoIdentifier:201311201620Safelode:OFF-集群情况Cluster Summary(Heap Size is 9 MB/966.69 MB)Running

26、lap TasksRunning Reduce TasksTotalSubmissionsNodesAOccupied lap SlotsOccupied Reduce SlotsReserved lap SlotsReserved Reduce Slotslap Task CapacityReduce Task CapacityAvg.Tasks/NodeBlacklistedNodesGraylisted NodesExcluded Nodes000 40000664.00Q0Scheduling InformationQueue NameState Scheduling Informat

27、iondefaultrunning N/AFilter(Jobid,Priority,User,Name)Exaaple:,user:$Bith 3200 vill filter by,saith,only in the user field and 3200 in all fieldsRunning JobsHadoop实验Hadoop laaelode RSI:9000-licrosoft Internet Explorer文件 脚s)査看戏)收霰 工具a)帮助。a,收群 C::。3地址1:;&J httf/.ri!5CO7U/dUht*1 th j 一心 NameNode 51:9000

28、1Started:Mon Nov0211 17 03 CST 2009Version:0191/745977Compiled:Fn Feb 20 00 16:34 UTC 2009 by ndaleyUpgrades:There are no upgrades in progressBrowse the filesystemNamenode LogsCluster Summary11 files and directories.8612 blocks-8623 total.Heap Size is 11.73 MB/992.31 MB(1%)Configured Capacity31087 G

29、BDFS Used199 GBNon DFS Used40 49 GBDFS Remaining268 38 GBDFS Used%0 64%DFS Remaining%86 33%Live Nodes3Dead Nodes0Live Datanodes:3NodeLast ContactAdmin StateConfigured Capacity(GB)Used(GB)Non DFS Used(GB)Remaining(GB)Used(%)Used(%)Remaining(%)Blocks七2jIn Service146 04038263119 3502681.736director2In

30、Service18 780873 3414574 6377 595740webserver1 JIn Service146 050.7410 85134 4605192.075733Dead Datanodes:0Hadoop实验Contents of directory user giilGoto:/user/grid SGo to parent directoryNameTypeSizeReplicationBlock SizeModification TimePennissionOwnerGroupf.zipfile680.24 MB264 MB2009-11-02 13:05nv-r-

31、r-gridsupergioupfile.zipfile30233 MB64 MB2009-11-02 12 44iw-r-rgiidsupergioupGo back to DFS homeLocal logsLog directoryHadoop,2009.Hadoop实验数据分布Total munbei of blocks:112617282358952135490:-6385342449886587846:3430038575208207496:8842298453715844887:7539885622032913320:-6586327045919524588:-417993392

32、57148092:203008181205405280:-1718989056386039798:5430724146928623776:-3991651371887577635:10235.550010 10235550010102 35.11:50010 10.23525001010.2 35.2:5001010.2 35 5 5001010.235550010 10.2.35.5:5001010.2 35.5:5001010.2 35.5:5001010.2.35.2:5001010.235.11:5001010 2 35 11:5001010.235.2:50010102 35 11:

33、5001010.2.35 11:5001010.235.11:5001010.235.11:5001010.235.11:50010102 35 11:500101023525001010,2 35 11:50010Hadoop实验关掉一个DataNdeLive Datanodes:2NodeLast ContactAdmin StateConfigured Capacity(GB)Used(GB)Non DFS Used(GB)Remaining(GB)Used(%)Used(%)Remaining(%)Blocks1 RS2 323In Service146 040.3626.33 i11

34、9.350.2481.736director1In Service 18.780.843 3714.574 4977.5914Dead Datanodes:1NodewebserverTotal innnber of blocks:112617282358952135490:-6385342449886587846:3430038575208207496:8842298453715844887:7539885622032913320:-6586327045919524588:-41799339257148092:203008181205405280:-1718989056386039798:5

35、430724146928623776:-3991651371887577635:10.2.35.11:5001010.2.35.11:5001010235.11:5001010235.11:5001010.2.35.11:5001010.2.35.11:5001010.2.35.11:5001010235.11:5001010235.11:5001010235.2:5001010.2.35.11:5001010.2.35.2:50010102352:5001010.2.35.2:5001010.2.35,2:50010Hadoop实验关掉两个DataNdeLive Dataiwdes:1Blo

36、cks14NodeLast ContactAdmin StateConfigured Capacity(GB)Used(GB)Non DFSUsed(GB)Remaining(GB)Used(%)Used(%)Remaining(%)direclurrIn Service18.780.843.3714.574.49-177.59Dead Datanodes!2Node3 HDFS:/user/grid/f.zip-licrosoft Internet ExplorerwQbSQrvor 文件任)編辑任)查看 收藏 工具复)帮助。后退图/P群点收藏夹氏砧国地址)崑http:/director:5

37、0075/browseDirectory.jsp?dir=%2Fuser%2Fgrid%2Ff.zip&namenodelnfoPort=50070Could not reach the block containing the data.Please try againLocal logsLog directoryHadoop,2009.HBase简介 HBase是个分布式的、多版本的、面向列的开源数据库 利用Hadoop HDFS作为其文件存储系统,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。利用Hadoop MapReduce来处理HBase中的海量数据 利用Zookee

38、per作为协同服务。HBase中表的特点 大:一个表可以有上亿行,上百万列(列多时,插入变慢)面向列:面向列(族)的存储和权限控制,列(族)独立检索。稀疏:对于为空的列,并不占用存储空间,表可以设计的非常稀疏。每个cell中的数据可以有多个版本,默认情况下版本号自动分配,是单 元格插入时的时间戳;HBase中的数据都是字符串,没有类型;HBase特点强一致性 同一行数据读写只在同一台Region Server上进行水平伸缩 Region的自动分裂以及Master的balance 只用增加Datanode机器即可增加容量 只用增加Region Server机器即可增加读写吞吐量行事务同一行的列的

39、写入是原子的 和Hadoop无缝集成Hadoop分析后的结果可直接写入HBase存放在HBase的数据可直接通过Hadoop来进行分析HBase对比甑:!:昆来开HBased右旦舛由RDBMS言!米!:昆开乂姑尖里数据操作冗日子付甲简单的增删改查十畐日乂姑尖里各种各样的函数,表连 接存储模式基列存储基表格结构和行存储数据保护更新后旧版本仍然会保 留替换轻易的进行增加节点,可伸缩性需要中间层,牺牲功能兼谷性咼HBase体系结构 DataNode 口N口s JZJO to sunJLnrnrDaFA BOD LTC DataNodeHBase体系结构 Client包含访问HBase的接口并维护ca

40、che来加快对HBase的访问 Zookeeper 保证任何时候,集群中只有一个master 存贮所有Region的寻址入口。实时监控Region server的上线和下线信息。并实时通知给Master 存诸HBase的schema和table元数据 Master 为Region server分酉己region 负责Regin server的负载均衡 发现失效的Region server并重新分配其上的reg ion 管理用户对table的增删改查操作 Region Server Region server维护reg ion,处理对这些region的I请求 Region server负责切分在

41、运行过程中变得过大的region逻辑视图和物理视图逻辑视图物理视图HBase以表的形式存储数据。表由行和列组成。列划分为若干个列族(row family)Row KeyTime StampCF contents:CF anchor:CF mime:tuan.360buyt6.text/htmlt5.t3.HBase每个列族存储为个StoreRow KeyTime StampColumn contents:t6.t5.t3.Row KeyTime StampColumn anchor:tuan.360buyRow KeyTime StampColumn mime:t6text/htmlHBase

42、数据库每个Column Family对应一张存储表,表格的Row Key、TimeStampnColum n确定每条记录的唯一索引。Row Time Column Column Anchor ColumnKey Stamp Contents my.look.ca mimeT9T8 n.www T5 j亡J .CNN CNN.COM“Text/htmlr/HBase数据库Row KeyTimeColumnColumn AnchorColumnStampC my.look.ca /n.www”T9T8T6T5 t3u.u.CNN.COMText/htmlHBase数据备份/容灾方案一、Distcp

43、可以使用distcp命令copy hdfs文件的方式实现备份时,备份 时需要禁用备份表确保copy时该表没有数据写入。对于在线服务的hbase集群,该方式不可用,通过distcp文件 恢复hbase表时需使用bin/hbase org.jruby.Main bin/add_table.rb/hbase/testable 命令从 hdfs 目录中恢复表 的元数据,然后重启hbase。HBase数据备份/容灾方案二、CopyTable执行命令前,需先创建表。支持时间区间、row区间,改变表名称,改变列簇名称,指定是否copy册除数据等功能,例如:hbase org.apache.hadoop.hb

44、ase.mapreduce.CopyTable-starttime=1265875194289-endtime=1265878794289 peer.adr=dstClusterZK:2181:/hbase families=myOldCf:myNewCf,cf2,cf3 TestTable 1、同一个集群不同表名称 hbase org.apache.hadoop.hbase.mapreduce.CopyTable new.name=tableCopy srcTable 2、跨集群copy表 Hbase org.apache.hadoop.hbase.mapreduce.CopyTable p

45、eer.adr=dstClusterZK:2181:/hbase srcTable该方式,原表、目标表的名称相同HBase数据备份/容灾方案三、Export/Import通过Export导出数据到目标集群的hdfs,再在目标集群执行 import导入数据,Export支持指定开始时间和结束时间,因 此可以做增量备份,在导出时可以指定version,starttime,endtime等参数,并 且可以指定是否压缩,比如:hbase org.apache.hadoop.hbase.mapreduce.Export test4 hdfs:/t2-namenode:9000/test4_90 1 14

46、15693812520 1415694912520 Export导出工具与CopyTable一样是依赖hbase的scan读取 数据。HBase数据备份/容灾方案四、Snapshot开启快照功能,需要在hbase-site.xml文件中添加如下配置项:hbase.snapshot.enabled true 在hbase shell中使用clone_snapshot,delete_snapshot,list_snapshotsz restore_snapshotz sn叩shot命令可对快照进行操 作,需要注意的是:如東该表开启了replication功能实现主从同步 则在使用restore_s

47、napshot功能对主表进行恢复时,必须先停止 replication功能并且redo the bootstr叩,因为replication是基于 WAL日志实现的,而sn叩shot是直接在hdfs层面是基于hbase 的put、delete等API进行的,不会写WAL日志。HBase数据备份/容灾方案在创建sn叩shot后,可以通过Export Snapshot工具把快照导出到另外一个集群,实现数据备 份或者数据迁移,Export Snapshot工具的用法如下:hadoopSnaster*$hbase ORpachehadoophbase.snapshotkxpo匕SnapshotPAli

48、 PTfiYld:sage:|bin/hbase org,apache*hadoope hbasesnapshot a Exportsnapshot options where optionsare:-hl-help-snapshot NAMEShow this help and exit.Snapshot to restore.-copy-to NAME-no-checksun-verify-overwrite-chuser USERNAME-chgroup GROUP-chaod MODE-sappersRemote destination hdfs:/Do not verify chec

49、ksum.Rewrite the snapshot manifest if already existsChange the owner of the files to the specified one.Change the group of the files to the specified one.Change the permission of the files to the specified one.Nunber of mappers to use during the copy(mapreduce.)ob.maps)Xasples:hbase org.apache.hadoo

50、p.hbase.snapshot.BxportSnapshot -snapshot MySnapshot-copy-to hdfs:/srv2:8082/hbase -chuser MyUaer-chgroup MyGroup-chaod 700-sdppera 16执行该命令后,hdfs会把test4_snapshot_201411111422文件夹copy至/hbase/.hbase-sn叩shot文件下,进入t2-namende这个hbase集群,执行list_snapshots会看到有一个快照:test4_snapshot_201411111422,通过命令clonjsnapshot可

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 应用文书 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服