资源描述
反复数据删除对备份技术影响
摘要: 反复数据删除是一个非常高级数据缩减方法, 能够极大降低备份数据数量。这种技术经过降低存放数据量, 改变数据保护方法, 卓越提升了磁盘备份方法经济性。反复数据删除被业界公认为备份技术下一代发展步骤, 是今日数据中心“必备”技术。
标签: 反复数据删除 存放 冗余数据
·
今日, IT 经理及管理员们不仅要面对日益爆炸数据增加难题, 还要担负由此引发不停上升备份及容灾所需主存放成本压力。然而, 每完成一次全备份, 都会备份大量与之前全备份相同文件和数据, 相同数据多个备份, 占据了大量昂贵磁盘空间。伴随时间推移, 一次备份中反复数据会充斥于全部服务器、 全部备份工作(全备份及增量备份)。
反复数据删除是一个非常高级数据缩减方法, 能够极大降低备份数据数量。这种技术经过降低存放数据量, 改变数据保护方法, 卓越提升了磁盘备份方法经济性。反复数据删除被业界公认为备份技术下一代发展步骤, 是今日数据中心“必备”技术。
反复数据删除应运而生
反复数据删除是一项非常新技术, 专门用于在降低需要备份数据量、 最大化存放利用率同时, 使更多备份数据在线保留更长时间。通常来讲, 反复数据删除技术会将最新备份数据与已经有之前备份数据进行比对, 从而消除冗余数据。这项技术优势在于数据降低不仅使存放效率更高、 成本更节省, 带宽利用也降到最低, 使更经济、 愈加快速实现备份数据远程复制成为可能。然而, 现在市场中反复数据删除处理方案还有很大差异, 有些处理方案会使备份处理速度变很慢, 甚至引发无法估计且不可恢复数据丢失。
块级反复数据删除
多年以前反复数据删除技术, 能够看作是文件级技术, 当初称之为“单一实例存放(Single Instance Store, SIS)”, 经过SIS技术, 整个文件系统或电子邮件系统反复文件能够被降低为单一拷贝, 当再出现这一文件时, 会被指向到这一单一拷贝, 从而降低容量需求。这一技术通常被用于电子邮件管理及归档系统。
今天反复数据删除技术利用了与SIS类似数据缩减概念, 但却使之向前前进了一大步 – 实现了块级(子文件)反复数据删除。当读取数据时, 系统利用Hash算法识别唯一数据块, 系统将保留Hash索引, 每个Hash编码指向一个不一样数据块。当新备份发生时, 会自动与现有块进行比对, 假如索引中已经有相同块, 数据将会被删除或被指向块指针所替换;反之, 则会被保留并在索引中为其创建一个新Hash编码。这里提到唯一数据块大小, 会依据用户选择不一样反复数据删除处理方案而不一样, 平均大小在4KB-24KB之间。
与文件级SIS技术相比, 块级反复数据删除技术能够说更具优势。它能够在不一样文件或应用中消除冗余数据块。比如, 假如一个文件只做了想当小一点修改并保留, 块级反复数据删除技术则将只保留发生改变数据块。按这种方法, 块级反复数据删除能够提供愈加好压缩比率, 尤其是应用于巨大数据量情况下, 如数据库或全备份以后。
下面例子深入说明了SIS和块级两种反复数据删除技术结果比较。
一个企业向1000个邮件地址发出一封带有注册内容活动邀请函, 传统备份应用将会把文件备份1000次。SIS处理方案能够识别出文件是相同, 将只会保留一份备份, 然后生成999个指针指向那个唯一备份, 所以, 大约节省了99.9%空间。不过, 以后这1000个参会人可能会将注册内容填好后回复给发件人, 因为她们名字不一样, SIS处理方案就会备份1000份回执。
块级处理方案在发出邀请函时候实施了相同反复数据删除处理, 也实现了99.9%存放空间节省。不过, 当收到1000份参会人回执时, 块级处理方案会发觉每个回执大部分内容与第一封收到是相同并已经备份过, 所以, 它只会对其它999封回执相异数据块(块级)进行备份。这种方法与SIS技术相比, 则还能够节省额外99.9%存放空间。
绿色存放与反复数据删除
因为块级反复数据删除技术只保留发生改变数据, 极大降低了所需备份容量, 使用户不用再像以前一样购置大量磁盘, 从而将用户备份系统总成本降到最低。更少磁盘致使存放系统更少, 电力及制冷需求更小, 同时还降低了整体系统复杂性。
与传统磁带备份处理方案相比, 反复数据删除技术完全改变了磁盘备份经济性。经过这一技术, 更多用户能够负担得起用磁盘备份替换整个或是部分磁带备份处理方案。磁盘备份相对于磁带备份来说, 提供了愈加好备份及恢复性能。经过利用磁盘备份方法, 用户能够深入改善她们服务品质协议(Service-Level Agreements, SLAs)。
当经过数据复制实现灾备时, 反复数据删除技术也能够带来卓越利益。因为降低了备份数据量, 反复数据删除技术将主站点与远程数据中心之间带宽需求、 数据传输成本、 复制时间都降到最低。企业利用相对经济WAN网络即可在任意地理空间范围内实施复制, 实现了额外成本节省。
反复数据删除最适适用于哪里?
理论上讲, 反复数据删除技术能够用于任意地点存在数据。它能够与在线或是离线数据一起工作, 能够在文件系统或是数据库, 也能够在其它应用。总来说, 哪里有大量反复数据, 它就能在哪展现出最大利益回报。
而最好应用示例是在企业级备份。企业大都是天天做一次全备份, 两日全备份中通常只有很小部分---不会超出5%---数据是不一样, 大部分备份扇区都是相同。这种情况下, 反复删除为备份系统带来了最好利益回报。所以, 大多数反复数据删除处理方案都是专为备份系统而设计。
反复数据删除比率不是唯一评定标准
反复数据删除比率是现在企业最为关心问题, 可说直接触及到了用户底线。不一样厂商向外界声称比率不一样, 从20: 1到50: 1, 甚至高达300: 1或400: 1。因为反复数据删除与具体备份数据和备份策略直接相关, 从一个环境到另一个环境所产生反复数据删除比率也会有很大改变, 即使它们是基于同一个反复数据删除运算法则。所以, 厂商公布反复数据删除比率不能作为选择这一产品唯一标准。
反复数据删除比率与所用处理颗粒精细程度相关。理论上讲, 更细致颗粒会带来更高反复数据删除比率。然而, 更细致颗粒意味着大量Hash表, 会造成更糟糕反复数据删除性能和更高CPU消耗。
通常来说, 10: 1反复数据删除比率是很现实角度评定起点, 足以满足通常性业务应用计划需求。
集群式反复数据删除是新技术发展方向
从性能角度看, 只能提供单台反复数据删除服务器/设备处理方案根本无法满足天天需要备份成百TB数据或天天需要数次备份大型企业需求。在这种情况下, 反复数据删除反而会造成瓶颈。部分企业考虑用两台或多台设备完成这一工作, 但因为每台设备都保留了它自己Hash索引, 设备根本不能判别出反复数据是否已经由另一台设备备份。这种方法不仅会影响到反复数据删除比率, 还会增加维护工作量。
单台反复数据删除服务器/设备也会成为单点故障。假如反复数据删除服务器/设备发生故障, 全部备份工作则都将失败, 更糟情况是造成恢复过程中失败。尽管单台反复数据删除服务器/设备在实际应用过程中出现故障情况非常罕见, 但这对企业来说还是一个潜在、 无法接收风险。
其实, 针对这个难题有一个处理措施, 就是反复数据删除集群, 即利用双工故障切换架构。在集群反复数据删除架构中, 2或4台反复数据删除设备被虚拟化为一台, 为用户提供了双倍或四倍吞吐及处理能力。假如她们中任意一台出现故障, 另外设备就会自动接管它工作负荷, 以确保处理连续性。因为集群仍然保留是单个Hash表, 所以它不会影响到反复数据删除比率。
以行业著名美国飞康软件企业SIR技术为例, 飞康SIR是应用于业界领先飞康VTL处理方案反复数据删除技术。飞康SIR可在一个性能集群中支持4个节点并可应用于全部飞康VTL节点, 从而优化了管理能力和扩展能力。这个集群架构经过统一性添加节点, 使企业能够扩展到最大容量(最多4个节点, 每个节点64TB, 累计256TB)和速度(每个节点反复数据删除约为300MB/秒, 累计最大1.2GB/秒)。内置N+1故障切换功效, SIR反复数据删除引擎是后处理方法, 在不影响恢复或备份窗口情况下降低了存放成本。另外, 因为SIR处理方案基于飞康历经验证IPStor® 技术平台, 包含了它虚拟化和供给容量功效, 所以, 用户能够在任意时间添加存放而不用中止处理。
依据需求选择反复数据删除方法
现在市场中反复数据删除处理方案提供了多个删除反复数据方法, 假如想找出最适适用户需求方法, 需要考虑两个关键性原因: 在哪里进行反复数据删除(源数据端还是目标端);在备份处理哪个阶段删除反复数据删除(在备份过程还是备份以后)。
源数据端
部分反复数据删除产品在源数据端工作, 这意味着它们是位于主机或应用服务器上。这种方法要求为每一台需要进行备份机器安装反复数据删除系统。当数据传送到备份软件之前即识别反复数据并删除。这种反复数据删除方法含有以下优点:
● 数据在网络传输前就降低了, 改善了传输性能, 节省了网络带宽。
● 从扩展性角度讲, 整体性能与用户端数量无关, 所以, 在进行扩展时不会影响到备份性能。
● 因为是反复数据删除处理同时传输数据, 所以在处理过程中不再需要额外存放设备。
然而, 这种处理方法也有它缺点:
● 必需在每一台备份服务器上安装反复数据删除系统。在大型企业环境中, 尤其是含有分布于各地分支机构大型企业, 软件安装和维护工作极为复杂
● 反复数据删除处理运行于应用服务器上, 会消耗服务器运算能力, 影响到应用性能。这对于大多数企业来说是不可接收。
● 有些反复数据删除处理方案在设计之初并没有考虑到与用户已经安装备份软件相集成, 所以, 用户必需为了使用它而更换备份软件, 这便增加了布署处理方案时工作量及风险, 对于那些含有大量归档数据企业用户来说, 这种方案并不可行。
目标端
目标端反复数据删除处理通常是运行于一台独立于主机或应用服务器之外设备(服务器或工具)之上。下面是多个经典目标端反复数据删除方法:
● 含有反复数据删除功效虚拟磁带库(VTL)
● 含有反复数据删除功效磁盘设备
● 含有反复数据删除功效备份软件
值得一提是, 目标端反复数据删除处理方案能够与现有备份软件相整合, 运行于备份服务器上。备份数据先发送到反复数据删除设备, 反复数据删除在后端完成。相对于源数据端方法, 它优势在于:
● 企业无需改变其目前备份系统。
● 这种架构无需更换应用服务器。因为它不会消耗应用服务器运算能力, 应用性能不会受到任何影响。
● 反复数据删除服务器/设备能够从不一样备份用户端删除全部冗余数据。这对于含有大量应用或数据库服务器企业来说, 是非常经济高效处理方案。
对于那些不想改变现有备份系统, 也不想牺牲应用性能企业用户来说, 目标端反复数据删除无疑是最好方法。
在线处理
在线处理反复数据删除, 是指反复数据删除服务器/设备从备份软件开始传输数据, 数据还没有写入磁盘之前, 即实施反复数据删除。它关键优势是经济高效, 能够降低存放容量需求。它不需要用于保留还未进行反复数据删除数据集临时磁盘空间。
尽管在线处理反复数据删除降低了备份数据数量, 但处理本身会减慢备份速度。因为反复数据删除是在写入到磁盘之前进行, 反复数据删除处理本身就是一个单点故障。所以, 假如企业需要保留她们备份数据冗余时候, 是不能选择在线处理方法。
后处理
后处理反复数据删除, 也被称为离线反复数据删除, 是指在备份处理完成后再实施反复数据删除。备份数据先被写入到临时磁盘空间, 以后再开始反复数据删除, 最终, 将经过反复数据删除数据拷贝到末端磁盘。
后处理方法有一个很小问题在于它需要额外磁盘空间来保留全部还未删除反复数据数据集。不过, 低成本SATA磁盘能够用作这部分, 所以, 对于大多数企业来说, 这根本算不上什么问题。
后处理反复数据删除方法带了很多优势:
● 因为反复数据删除是备份完成后在单独存放设备上实施, 所以完全不会对备份处理造成影响。管理员能够随意制订反复数据删除进程, 不管是怎样频率都能够, 性能愈加可靠、 可控。
● 先将备份数据保留在磁盘上进行反复数据删除, 企业在需要时则能够愈加紧速恢复最近备份文件和数据。
某种角度上讲, 在线处理方法可能更适适用于小型企业需求, 以后处理方法对于中型及大型企业来说, 是更佳处理方案。
选择反复数据删除五大关键点
一、 能够与目前环境相整合
一个高效反复数据删除处理方案应该对目前IT环境影响/中止越小越好。很多企业都选择利用VTL备份来避免影响/中止, 以在不改变企业目前备份策略、 处理或软件情况下提升备份质量。所以, 基于VTL反复数据删除技术在布署时对环境影响也应该是最小。它将更多注意力集中在了备份这个巨大反复数据存放池上。
基于VTLt反复数据删除处理方案通常要求使用专用设备, 但这并不影响布署灵活性。一个充足灵活反复数据删除处理方案应该即能够以软件包形式提供给用户, 也能够提供给用户整体处理方案(Turnkey Appliance), 从而最大程度使用户现有资源得以利用。
二、 含有可扩展能力
因为反复数据删除处理方案是用于长久数据储存, 在容量和性能方面可扩展能力也是非常关键考虑原因, 而且最少要考虑未来五年甚至更长时间增加计划。那么, 在确保快速访问前提下, 你期望有多少数据保留在磁带上? 你需要怎样数据索引系统呢?
优异反复数据删除处理方案提供架构, 不管是在初始布署时, 还是面对未来系统长久增加, 都应该能确保最优化(Right-sizing)、 最经济架构规模。集群能够帮助用户满足不停增加容量需求---即使是N多Petabyte数据增加环境---而且不会降低反复数据删除效率或系统性能。
这个架构还为存放库保护部分提供了故障切换(Failover)功效。
三、 支持分布式应用
反复数据删除技术, 不只是能为单个数据中心带来利益, 对于含有多个分支机构或多个站点大型企业来说, 它能够让整个企业分布式应用受益无穷。一个包含复制和多级反复数据删除处理方案能够将这一技术优势发挥到极致。
举例来说, 一个企业由1个总部和3个区域代表机构组成, 能够在区域代表机构布署一台含有反复数据删除功效容灾设备, 使当地存放及向远程中央站点复制更为高效。这种处理方案使数据复制到中央站点带宽需求降到最低, 它只不过是用来确定远程数据是否已经包含在中央存放库中。全部站点中, 只有唯一数据会被复制到中央站点或是容灾站点, 不然所需带宽就会增大。
四、 能够对存放库提供实时保护
确保对删除反复数据存放库访问是非常关键, 所以它不能许可有单点故障发生。一个优异反复数据删除处理方案应该包含能够在当地存放故障发生时提供保护镜像功效, 同时也应该含有复制功效以在灾难发生时从提供保护。这种处理方案还应该在出现节点故障时含有故障切换能力, 即使是一个集群中多个节点出现故障, 企业也必需能够立刻恢复数据同时还要确保业务连续运行。
五、 满足绿色环境保护要求
近期Gartner 汇报显示, , 将有50%数据中心出现电力及制冷不足以运行她们高密度设备情况。IDC研究汇报也显示, IT部门正在将硬件1/4成本花在电力上。 而MAID这项创新存放技术, 能够利用大型磁盘驱动器组, 而这些磁盘驱动器只在任意设定时间才工作。这便降低了电力消耗。当关掉部分磁盘驱动器时, MAID能够提供卓越电力节省能力, 能够为企业电力成本节省高达1/3。现在市场中有些处理方案充足结合了MAID技术, 帮助数据中心降低最少20-30%电力成本。
找到最适合整体处理方案
因为业务应用需要和法律法规要求, 存放数据量还在不停增加, 反复数据删除也快速上升到至关关键地位。在大幅消除数据量、 削减存放需求、 最小化数据保护成本和风险方面, 反复数据删除可说是唯一应对措施。
尽管反复数据删除技术所带来利益多多, 企业还是应该抵御住不时出现针对这一技术大肆抄作。不管是哪种方法, 反复数据删除删除比率都能够依据数据本身格式和保护策略不一样而发生改变。
为了使反复数据删除技术利益最大化, 企业应该从上面提到多个标准出发, 充足考虑, 仔细评定, 找到真正适合自己反复数据删除处理方案, 而不应该简单听信于宣传反复数据删除比率理论数值。
展开阅读全文