数据容灾备份解决方案.doc

资源描述

中国移动公司 IP网管系统性数据容灾备份解决方案 VERITAS公司北京办事处 2025年1月14日第 49 页目录 1 系统需求分析 2 1.1 系统建设目标 2 1.2 需求简析 5 2 高可用容灾方案设计 8 2.1 设计原则 8 2.2 方案概述 9 2.1.1 IPNET流量管理服务器及NetCool汇总管理服务器“N+1” 冗余备份方式 10 2.1.2 “N+1” 冗余备份方式 11 2.1.3 N节点循环备份方式 11 2.1.4 软件安装 12 2.1.5 NetCool网管服务器/PM服务器、业务网管服务器、Precision服务器容灾 12 2.1.6 功能配置说明 14 2.1.7 Visionary应用服务器、NetCool报表服务器、IPNET报表服务器容灾 15 3 高可用容灾方案实现 15 3.1 软件功能解释 16 3.2 安装、配置过程 21 3.3 工作过程 22 3.4方案分析 26 3.1.1 3.4.1 有关数据的量化分析及结果 26 3.1.2 方案小结 27 4 附录 29 一、 VERITAS公司简介 29 二、VERITAS Foundation Suite™ 31 三、 VERITAS Cluster Server ™ 38 1 系统需求分析 1.1 系统建设目标建设本系统的目的是为中国移动公司IP网管系统建立一个全面的、整体的容灾方案，最大限度地保证业务系统工作的连续性、可靠性。常言道，“知己知彼，百战不殆”。要实现容灾，首先要了解我们的“敌人”－灾难。那么，哪些事件可以定义为灾难呢？典型的灾难事件是自然灾难，如火灾、洪水、地震、飓风、龙卷风、台风等，还有其它如原先提供给业务运营所需的服务中断，如设备故障、软件错误、电信网络中断和电力故障等等。此外，人为的因素往往也会酿成大祸，如操作员错误、破坏、植入有害代码和恐怖袭击。现阶段，由于我国很多行业正处在高速发展的阶段，很多生产流程和制度仍不完善，加之缺乏经验，这方面的损失屡见不鲜。事实上，我国2003 年遭遇的“非典”，某种意义上也是灾难。对此，我们认为需要做到两点：一是建立切实可行的应急机制，这主要包含一套基于充分且清楚地将风险予以分类定义的业务持续计划，二是在危机突然降临时，此计划能被有效执行。对于IT 系统，除了上述的灾难之外，与系统相关的计划外宕机也可视作灾难。对于IT 系统而言，在技术层面上，容灾需要考虑： * 数据版本保护－建立容灾的多版本保护底线（Bottom Line） * 实时数据保护－数据复制，近乎0 的数据丢失，数据一致性 * 应用系统恢复－恢复时间（包括数据库恢复）、应用版本的一致性（PTF）等 * 网络系统恢复－数据访问点变化、建立新网络路径、动态路由（收敛时间/稳定性） * 容灾切换决策－及时发现灾难（容灾系统管理）、容灾切换的损失和补救办法 * 容灾切换过程－变更管理同时，无论任何时候，备份都是非常重要的，并要定期测试备份的可靠性。一种技术只能减少或防止某些类型的灾难的影响。除了简单或一成不变的应用，在没有特别要求的情况下，尽量不要采用操作系统层面以上的数据复制技术。而没有文档化的流程就相当于没有流程，没有流程的系统能够在要求时间内恢复完全靠运气（通常不能）。另外，在通常情况下，IT 系统相关的灾难备份方案设计都必须考虑以下五大因素， 1，灾难类型需要考虑哪些灾难？怎样的灾难？会使业务中断多久？ 2，恢复速度灾难发生后需要多久来启动及运行系统？能否承受数天或数分钟的等待？ 3，恢复程度需要恢复每条记录和交易吗？可以使用上星期或昨天的数据吗？需要恢复一切吗？有不相关的文件吗？什么是合法隐含的要求？有少数的一组人输入交易吗？他们可以重新输入灾难期间丢失的交易吗？这些交易十分重要而不容许丢失吗？ 4，可用的技术必须结合考虑所选技术在本地区的适用性、实现条件以及在实施时是否受某些现有条件的制约？ 5，方案总体成本实现灾难备份需要多少投资？不实现灾难备份会损失多少钱？据国际标准SHARE78 的定义，灾难恢复解决方案可根据以下主要方面所达到的程度分为七级，即从低到高有七种不同层次的灾难恢复解决方案。可以根据企业数据的重要性以及需要恢复的速度和程度，来设计选择并实现灾难恢复计划。这取决于下列要求：备份/恢复的范围灾难恢复计划的状态在应用中心与备份中心之间的距离应用中心与备份中心之间是如何相互连接的数据是怎样在两个中心之间传送的有多少数据被丢失怎样保证更新的数据在备份中心被更新备份中心可以开始备份工作的能力现已证明，为实现有效的灾难恢复，无需人工介入的自动站点故障切换功能是一个必须被纳入考虑范围的重要事项。目前通用的异地远程恢复标准采用的是1992 年Anaheim 的SHARE78，M028 会议的报告中所阐述的七个层次： 0 层- 没有异地数据(No off-site Data) Tier0 即没有任何异地备份或应急计划。数据仅在本地进行备份恢复，没有数据送往异地。事实上这一层并不具备真正灾难恢复的能力。 1 层- PTAM 卡车运送访问方式 (Pickup Truck Access Method) Tier1 的灾难恢复方案必须设计一个应急方案，能够备份所需要的信息并将它存储在异地。PTAM 指将本地备份的数据用交通工具送到远方。这种方案相对来说成本较低，但难于管理。 2 层- PTAM 卡车运送访问方式+热备份中心 (PTAM + Hot Center) Tier2 相当于Tier1 再加上热备份中心能力的进一步的灾难恢复。热备份中心拥有足够的硬件和网络设备去支持关键应用。相比于Tier1，明显降低了灾难恢复时间。 3 层- 电子链接 (Electronic Vaulting) Tier3 是在Tier2 的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。由于热备份中心要保持持续运行，增加了成本，但提高了灾难恢复速度。 4 层- 活动状态的备份中心 (Active Secondary Center) Tier4 指两个中心同时处于活动状态并同时互相备份，在这种情况下，工作负载可能在两个中心之间分享。在灾难发生时，关键应用的恢复也可降低到小时级或分钟级。 5 层– 两个活动的数据中心，确保数据一致性的两阶段传输承诺（Two-Site Two-PhaseCommit）Tier5 则提供了更好的数据完整性和一致性。也就是说，Tier5 需要两中心与中心的数据都被同时更新。在灾难发生时，仅是传送中的数据被丢失，恢复时间被降低到分钟级。 6 层- 0 数据丢失 (Zero Data Loss)，自动系统故障切换 Tier6 可以实现0 数据丢失率，被认为是灾难恢复的最高级别，在本地和远程的所有数据被更新的同时，利用了双重在线存储和完全的网络切换能力，当发生灾难时，能够提供跨站点动态负载平衡和自动系统故障切换功能。 1.2 需求简析对于IT 系统的容灾指标，我们可以通过下列参数表示： * 以恢复点为目标(RPO -- Recovery Point Object） – – 数据的完整性(无数据丢失) – – 数据的一致性(数据正确且可用）以恢复时间为目标(RTO --- Recovery Time Object）中国移动公司的网管系统结构图如下：可以看到在移动IP网管系统中，包含着众多的功能子系统，根据每个子系统数据变化的频度以及在整个网管系统中所起到的作用，我们为每个子系统制定了符合各自特色的RPO和RTO。在移动公司现有的业务系统中，仅考虑本地高可用性,即通过集群的双机系统(Cluster或HA)对业务应用提供保护，在一台服务器的软硬件发生故障时，将整个业务切换到后备服务器上。该方法很大程度上避免了服务器的单点故障，提高了整个业务系统的可用性。但是，随着业务系统的发展，随着竞争的不断加剧，在一些重要的系统中，客户已经不满足于简单的本地保护。越来越多的客户提出了要求更高的系统可用性，要求实现真正的异地容灾保护。因为一旦出现异常情况，如火灾、爆炸、地震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难，导致业务正常无法进行和重要数据的丢失、破坏，造成的损失将不可估量。因此，要求业务系统可以在发生上述灾难时快速恢复，将损失降到最低点。全面的异地容灾保护方案，意味着除了要实现本地的切换保护外，更要实现数据的实时异地复制和业务系统（包括数据库和应用软件）的实时远程切换。 2 高可用容灾方案设计 2.1 设计原则我们为移动公司综合结算提供的高可用容灾方案的设计原则如下： l 方案当前即可实施 l 在满足要求的前提下尽量简单 l 除特别必要，不需要增加另外超出本方案的软硬件 l 如果一个软件产品可以实现需要的功能，我们不会再使用另外的产品实现重复的功能 l 同一方案适合多种平台环境，降低安装、管理和维护的难度。 VERITAS的容灾方案是一个完整的方案，该方案包括5个功能：主节点主机系统在异地的备份和恢复（即IT系统重构和业务接管）、主节点业务数据在异地的备份及恢复（即生产数据的备份和恢复）、主节点到灾备节点的数据远程实时复制、本地应用服务和数据复制服务的切换保护、应用远程容灾切换。涉及的产品包括Netbackup Enterprise Server、Bare Metal Restore 、Volume Manager+Volume Replicator, VERITAS Cluster Server和Global Cluster Manager。该方案涵盖了容灾恢复的7个层次，为整个业务系统提供全面的保护，其对应需求分析的系统和各子系统的RPO/RTO如下：在该整体方案中中，上层依赖于它的下层，每一层的产品实现相应的功能。图中涉及的软件产品将在下面论述。 2.2 方案概述针对IP网管系统及各子系统实际分析得出的RPO/RTO，我们分别采用不同的技术手段对其实现高可用保护。 1． IPNET流量管理服务器及NetCool汇总管理服务器该系统属于核心业务系统，数据更新率极高，且要求在灾害发生时必须立即投入备份节点以维持业务的连续性，因此，我们在数据层采用Volume Replicator进行实时的远程数据复制；在应用层采用Cluster Server和Global Cluster Server进行实时业务级切换。同时，为保证不可预见的意外事件不对业务系统造成不可恢复的影响，我们还建议利用Netbackup Enterprise Server和Bare Metal Restore技术，利用磁带和磁盘介质在容灾节点保留一份生产系统每天的原始数据。 2． NetCool网管服务器/PM服务器、业务网管服务器、Precision服务器该系统属于业务管理系统，直接关系到管理人员能否顺利地进行网络日常的管理和维护，并关系到IP业务的正常运行，因此需要及时在容灾节点实现接管，但该业务子系统的数据更新率并不高，而且周期性比较强，因此没有必要花费高昂的代价进行实时的数据复制，可以采用主节点数据备份，容灾节点异地数据恢复的手段保证数据的完整性和一致性。我们建议在应用层面上，本地节点利用Cluster Server实施主机高可用性，防止主机故障，容灾节点利用Global Cluster Server实施远程应用切换。在数据层面上，利用Netbackup Enterprise Server和Bare Metal Restore技术，在本地先形成一套主机系统和业务数据的磁盘备份，并每隔8小时在后台将本地备份数据复制到远程容灾节点（周期复制），异地节点恢复主节点数据，以实现主备节点的数据同步。 3． Visionary应用服务器、NetCool报表服务器、IPNET报表服务器该系统属于整个网管系统的报表系统，数据变化量的频率相对较低，保留每天的数据即可，因此可以考虑底层数据备份，业务层手工或脚本切换的方式实现系统可用性，我们建议利用Netbackup Enterprise Server和Bare Metal Restore技术，利用磁带和磁盘介质在容灾节点保留一份生产系统每天的原始数据。 4．整个网管系统的历史数据为了保证在任何不可预见的情况下都能正常维护整个IP业务网络，我们还建议在主节点和灾备节点利用Netbackup Enterprise Server在磁带上至少保持6个月内的系统历史数据。 2.1.1 IPNET流量管理服务器及NetCool汇总管理服务器“N+1” 冗余备份方式对于该子系统，VERITAS解决方案能够按照现业务系统的要求实现多种容灾模型。即: l “1+1”冗余备份方式 l “N+1”备份方式 l N节点循环备份方式(如果只要求N=2,即双地点互为备份) 第一种方式实际是第二种方式N=1时的特殊情况，以下不单独讨论。 2.1.2 “N+1” 冗余备份方式为N个正在运行的移动公司IP业务系统建立一套远程容灾备份系统，称为“N+1”备份方式。这种方式下，N个正在运行的业务系统中的任何数据的更改，包括静态数据更改与动态数据更改，都必须同步到备用系统中。备用系统中存储着所有的N套正在运行的业务系统的数据总和。正在运行的其中一个系统发生故障，则备用系统使用对应当前故障系统的用户数据和相应应用，来接管故障系统的业务。若正在运行的N个业务系统中所有系统同时发生故障，则备用系统使用的所有对应故障系统的备份数据和相应应用，接管所有业务系统。 “N+1”备份方式的优点是建设成本比较低，可以使用一套备份系统为多个系统提供容灾备份的功能，平时设备利用率比较高。“N+1”备份方式的缺点是当多个系统同时发生故障，如果只有一套备份系统为所有用户提供服务，可能导致服务质量的下降。该方式建议备份系统使用较高的硬件配置。 “N+1”系统简单示意图如下图（图二）：数据传输方向图二多对一备份 Site 1 Site n Site n+1 Site 2 ... 2.1.3 N节点循环备份方式由于只要求N=2，实为一对一互为备份。 Site A运行本身业务系统的同时，还作为Site B业务系统的备份系统；同理，Site B运行本身业务系统的同时，还作为Site A的备份系统。正常情况下，Site B拥有本身业务的应用、数据库进程和相关的数据，同时，Site B系统中有相应的数据区存储从Site A实时复制来的数据。而且Site B实时将数据复制到Site A。当Site A 发生灾难时，Site B除了提供本身业务外，还要提供Site A的相应服务。反之同理。 N节点（N=2）循环备份系统简单示意图如下图（图三）：数据传输方向图三相互备份 Site A Site B 2.1.4 软件安装在两种情况下，每个地点的每台服务器上安装的软件相同，只是不同情况下配置方法不同，每台服务器的具体配置方法后面讨论。每台服务器安装软件如下： 1) 安装VERITAS Volume Manager(VxVM) 2) 安装VERITAS File System(VxFS) 3) 安装VERITAS Volume Replicator(VVR) 4) 安装VERITAS Cluster Server(VCS)、相应的数据库代理(Agent)和应用软件代理 5) 安装VERITAS Global Cluster Manager(GCM) 2.1.5 NetCool网管服务器/PM服务器、业务网管服务器、Precision服务器容灾该系统在远程的应用切换层面上和前述方案一样，不同的是在数据复制的方法上，我们利用了Netbackup实现数据的周期性复制 NetBackup是VERITAS公司的备份管理软件, 它致力于解决网络上大、中、小型服务器和工作站系统上的数据备份、归档及灾难恢复问题，Veritas 备份产品国际市场份额2000年为39.1%，2001年为40.8%, 2002年为40.6%, 下图为Garner Group 统计的VERITAS 备份产品2002年国际市场份额：它的突出特点主要有：管理简单采用统一的Java或 GUI图形界面，管理轻而易举，使用先进的人工管理界面工具，制定备份策略、介质管理策略，对各项备份作业进行监控。 Netbackup 提供了远程分发式安装工具，当用户拥有众多的客户机，无需占用大量人力进行分散的安装，只需通过server进行远程分发软件安装。裸金属恢复BMR(Bare Metal Restore) 对于系统中的HP-UX, IBM AIX, Microsoft Windows NT/2000 和 Sun Solaris等不同操作系统环境，我们通过VERITAS Bare Metal Restore（裸机恢复）功能，来简化服务器的恢复过程，以完成系统的快速灾难恢复。这样，当系统数据完全丢失时，系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复，不必进行通过光盘进行操作系统重新安装，硬盘重新分区，IP地址重新设置，以及备份软件重新安装等复杂的步骤。数据恢复重定向在数据恢复的过程中，我们可以通过授权，进一步让系统管理员选择数据恢复的目标客户机。这样，我们可以灾备系统上恢复所需要的数据，保证数据的可操作性。并行处理 NetBackup可以实现多磁带机并行操作,因此可以有效地增加带宽。如果数据被并行定位（co-located）到多盘磁带上,执行选择性恢复的过程将会很快。 NetBackup可以通过策略共享实现多作业复用(Multiplex)磁带，从而大大加快了备份进度，减少了磁带操作过程的开销。这一提高是显而易见的。真正映象恢复(True Image Recovery）使用全备份和增量备份后,恢复时根据映象(image)恢复,真正做到已删除文件无需恢复,大大减少恢复数据量.传统方式先恢复全备份文件,再进行增量恢复和文件删除。磁带多重拷贝 (Inline Tape Copy, Duplicate) 磁带在线复制Inline Tape Copy允许用户在执行备份期间，创建备份数据的多份拷贝。复制允许备份完成后复制多份备份数据。Netbackup可以一次备份或复制2-4份拷贝，管理多达同一备份的10份拷贝，并且每份拷贝有自己的保护周期提供灾难恢复能力-VAULT 在多个地点保存备份或复制介质，保证当发生灾难时或多个的地点快速恢复关键的数据。 2.1.6 功能配置说明 NetBackup Server：备份系统的核心，该服务器既是主备份服务器可以对整个备份系统进行监控和管理，备份环境的核心数据应用库、备份策略和设备配置均存放在这台服务器上，又是介质服务器，可以直接连接并执行自动化管理磁带库及其介质。由于生产和测试网在物理上是隔开的，所以需要分别安装两套备份服务器。这样可以使生产和容灾的备份完全独立，但生产数据可以通过两台磁带库实现异地保留。 • NBU Client: SNA服务器和测试网的服务器的备份方式采用网络备份的方式。 • Bare Metal Restore：所有服务器实现裸机恢复。具备“一键”恢复系统的功能，减少数据恢复的复杂度和时间。 • 可以采用Netbackup复制方式或者采用制定两个策略对应不同的磁带库进行备份实现本地、异地双备份。Netbackup支持不同磁带库之间的数据复制，可以设置策略定时进行，相对于Client系统数据同时备份到两个磁带库的方法，该方法只复制备份后产生的Image文件，该作业由Master Sever调度，执行在磁带库之间的数据复制，节约原Client系统资源。 • 利用光纤线路和远程磁带库实现了异地的数据备份保护，但在灾备点如果没有备份恢复服务器，即只保留了数据。如果生产点的备份服务器损坏，则影响了正常的备份。同时如果没有灾备点的备份恢复服务器，如果生产点出现场地问题，不能立刻在灾备点进行恢复。此时可以利用测试网中的备份服务器重新导入生产网备份的CATALOG，近而恢复数据。以上是为我们为业务系统提供的数据备份复方案，设计的目的是采用业界最先进的备份技术完成对系统数据在线、快速、有效的磁带备份保护。同时本方案还提供裸机快速恢复和异地磁带级容灾技术，从技术上保证了数据中心的可靠性和快速恢复能力。 2.1.7 利用磁盘缓冲实现周期数据复制磁盘缓冲（DISK STAGING）为NetBackup管理员提供了一种备份方法，首先在磁盘上创建备份镜像，然后将镜像转移到另一种介质上。NetBackup软件的磁盘缓冲分三个步骤完成：首先在磁盘上创建NetBackup备份镜像，然后在可以配置的稍后时间，将镜像转移到另外一个介质上。此外，磁盘缓冲可以方便备份和恢复，NetBackup用户可以利用磁盘缓冲，为将数据传输到磁带提供便利，避免多路复用镜像的弊端。磁盘缓冲的工作原理，磁盘缓冲的工作原理示例如下：假定NetBackup客户生成的备份数据的容量如下：星期一：200MB 星期二：300MB 星期三：300MB 星期四：200MB 星期五：500MB 假定NetBackup客户每天都将数据备份到磁盘缓冲存储设备上，然后再将数据从磁盘缓冲存储设备转移到最后的存储设备上。客户使用的磁盘缓冲存储设备的容量至少达到500MB，这样才能以容纳一天生成的最大数据容量。如果NetBackup管理员只要在磁盘缓冲存储设备上保存一天的数据，那么500MB的磁盘缓冲存储设备就已经足够了，前提条件是能够成功完成重新定位，每天将数据转移到磁带上。如果管理员想在磁盘上保存超过一天的数据，则应对磁盘空间进行调整。磁盘缓冲分三个阶段完成： l 第一阶段：在磁盘缓冲存储设备上创建备份镜像； l 第二阶段：重新定位日程决定了将磁盘缓冲存储设备上的备份镜像重新定位到目的存储设备上的时间； l 第三阶段：磁盘上的备份镜像复制到目的存储设备上后，自动取消备份镜像。NetBackup的磁盘缓冲（DISK STAGING）流程示例客户端策略：第一阶段日程第一阶段：NetBackup策略根据第一阶段策略日程，将客户端数据备份到磁盘缓冲存储设备上。第一阶段磁盘缓冲存储设备策略：第二阶段性重新定位日程第二阶段：磁盘缓冲存储设备（DSSU）日程根据重新定位日程，将数据重新定向到最后的存储设备上目的存储设备第二阶段第三阶段：NetBackup软件将备份镜像复制到目的存储设备上，然后自动将它从磁盘上删除。为进行此操作，NetBackup软件要使磁盘镜像失效，将目的存储设备上的备份镜像成为主副本。在备份的第一阶段，按策略对客户端进行备份，该策略将磁盘缓冲存储设备作为目的存储设备。应为每个专用磁盘分区/文件系统提供一个磁盘缓冲存储设备。第一阶段日程的配置方法与其他备份相似。在磁盘缓冲的第二阶段，将镜像从磁盘缓冲存储设备重新定向到目的存储设备。在磁盘缓冲存储设备的设置过程中，根据配置的重新定位日程来重新定位镜像。这是通过点击磁盘缓冲日程按钮来完成的。只有选择磁盘缓冲存储设备作为存储设备类型时，才能使用该按钮。第三阶段是自动使磁盘镜像失效，使目的存储设备上的镜像成为数据的主副本。这样用户就能释放磁盘空间，以备将来使用。 2.1.8 Visionary应用服务器、NetCool报表服务器、IPNET报表服务器容灾在开放系统中，许多产品都能执行备份和恢复功能。然而，能处理现今数据中心的海量数据的产品则凤毛麟角。以往数据中心曾是大型机一统天下，现在则是以大型UNIX、Windows服务器以及集群为基础，企业在此之上构建并运行和管理关键业务应用。VERITAS NetBackup独有的核心三层架构，结合先进的介质管理功能，以及卓越的高性能，可以满足最大规模数据中心的需求。 NetBackup主备份服务器(Master Server)是架构的第一层。主备份服务器是所有数据保护活动(包括作业日程安排和追踪客户端备份、管理磁带介质和文件编录)的“智能中心”。主备份服务器拥有一个或多个附带的存储设备，可为多台客户端服务器提供数据备份，主备份服务器也可以构成集群以实现高可用性。如果企业在几个地点都有数据或数据密集型应用，比如数据仓库，则可安装介质服务器（Media Server）-- 即架构的第二层。这样，企业就可以在各个地点，通过部署介质服务器直接在本地备份大型应用，同时还可以通过网络备份其它客户端系统。介质服务器既可与主备份服务器或另一台介质服务器共享磁带库，也可使用自己的磁带设备。如果某台介质服务器因故障或其他问题不能正常工作，可将这一台介质服务器的备份任务转移到另一台介质服务器上进行。架构第三层是备份网络中诸多服务器和工作站的客户端代理（Client Agent）。这一层中，要保护的数据量不一定最多，但是需要安装的机器数量通常都是最多的。主备份服务器（第一层）可以对介质服务器（第二层）和客户端（第三层）进行集中管理。 2.1.9 系统灾难恢复——VERITAS Bare Metal Restore 对于系统中可能存在的IBM AIX, Sun Solaris，HP-UX,等不同操作系统环境，我们通过VERITAS Bare Metal Restore（裸机恢复）功能，来简化服务器的恢复过程，以完成系统的快速灾难恢复。这样，当系统数据完全丢失时，系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复，不必进行通过光盘进行操作系统重新安装，硬盘重新分区，IP地址重新设置，以及备份软件重新安装等复杂的步骤。 BMR的工作简要流程如下（Main Server, File Server和Boot Server可合并在备份服务器上）： 1、 BMR服务器（Main Server）在客户机日常备份的过程中分析客户机的环境并生成恢复策略。 2、 BMR服务器分配启动服务器（ Boot Server）和文件服务器（File Server）. 3、当客户机数据丢失时，系统管理员通过网络启动命令启动客户机。 4、 BMR服务器驱动启动服务器和文件服务器，使客户机自动获得启动镜像和恢复计划。 5、客户机进一步划分硬盘分区并恢复所有数据。 3 核心系统高可用容灾方案实现本章将就该方案的每个细节进行讨论。包括方案的详细讲解，软件的实际配置方法等。通过阅读和理解本章，您将了解VERITAS解决方案的实现方法，并清楚地知道VERITAS解决方案是切实可行的，并且有相关的实施案例和实施经验。我们假设原来就已经按照双机系统设计，那么本方案仅需要增加不同地点间的广域连接，不需要增加其它硬件。软件方面要用VERITAS高可用软件替换原有的HA/Cluster软件，新增Volume Manager、VERITAS File System、VERITAS Volume Replicator和Global Cluster Manager。在介绍功能前，需要强调的的是：VERITAS提供的是完整的容灾解决方案。各个软件的功能完全集成在一起，建立一个容远程数据复制、本地容灾、远程应用切换于一体的方案。 3.1 软件功能解释在这里，每个软件只解释与本方案相关的那部分功能，至于软件的全部功能，请见附录。一、 VERITAS Volume Manager(简称VxVM) 将在物理磁盘上建立多个或一个逻辑卷(Volume)。以裸设备的方式使用卷，或在卷上建立文件系统。将数据（特别是需要进行远程复制的相关文件系统、数据库）存放在卷上。由于数据复制是基于卷的，所以，Volume 是进行复制的基础。二、 VERITAS Volume Replicator(简称VVR)负责远程数据复制。VVR复制基于Volume进行。复制的数据可以是数据库中的数据（文件方式或裸设备方式）和文件。复制的示意图见图四。图四 1) VVR与VxVM完全集成在一起。用VxVM管理界面和命令统一配置管理；由于VVR仅仅将Volume上每次I/O的实际数据实时复制到远程节点，所以在网络线路上传输的数据量很少，对带宽的需求也很小。； 2) 将各个业务系统中需要进行远程复制的多个或一个卷定义为一个Replicated Volume Group(简称RVG)； 3) 在Site A定义一条RLINK，指向Site B；在Site B也定义一条指向Site A的RLINK。RLINK是单向的；需要进行复制的两个系统各定义一个指向对方的RLINK；每个RVG定义一个RLINK。例如有Site A和Site B两套系统同时用Site C的系统作为备份。在Site A定义一个RVGa，包含需要进行数据复制的卷；在Site B定义一个RVGb，包含需要进行数据复制的卷；在Site C定义两个RVG，名为RVGa’和RVGb’，分别作为Site A RVGa和Site B RVGb的备份。然后，在Site A定义RLINK to_c1，指向Site C；在Site B定义RLINK to_c2，指向Site C；在Site C定义两个RLINK，一个to_a,指向Site A,另一个to_b,指向Site B。 4）Storage Replicator Log(简称SRL)是VVR中的重要部件。将数据复制各方的某个卷定义为一个SRL。需要复制的数据首先要写入SRL，然后传到异地。VVR通过SRL保证数据复制严格按照写顺序进行，这在异步工作方式下非常重要。当网络中断或异地系统出现故障时，本地数据将记录在SRL中，等系统恢复正常时再将SRL中的数据按照先进先出的顺序传送到异地。当SRL满后，VVR将通过Data Chang Map（简称DCM）记录变化过的数据块的块号。 VVR数据流程见图五：图五 5）Data Change Map（简称DCM）与主节点的RVG相关，它其中的内容是位图信息，记录某一时间点后修改过的数据块位置。DCM在正常情况下不使用，在SRL满后记录变化的数据块的块号，当恢复正常复制后，等SRL中的数据传送完后，将DCM中记录的块传送到异地。灾难恢复后的反向复制也用到DCM。 6）数据复制的工作模式缺省为同步/异步自适应，即在网络延时情况较好、数据能够及时复制时，工作在同步方式，完全保证两边数据的一致性；当网络延时情况较差、数据不能及时复制时，工作在异步方式下，保证主节点的I/O性能。数据复制根据实际情况，自行在两种工作模式之间切换。如果数据复制的线路带宽有限，出于保证本地服务器读写性能的考虑，可以将复制工作模式定义为异步。由于VVR的数据复制严格按照I/O的修改顺序进行，所以，无论在同步还是异步工作方式下，都能保证数据的完整性。对于数据库系统，该复制机制能够保证灾备节点的数据库在灾难发生时正常启动并提供服务。 7）后备节点的完全同步，即所谓的”建立基线”。在主节点往后备节点正常复制数据前，必须逐块逐块地将主节点中需要复制的数据拷贝到后备节点，也就是说，将双方的RVG进行同步。后备节点的完全同步分为两种情况，一是复制时主节点应用不进行数据更改，二是复制时主节点应用进行数据更改。两种情况下，都可以采用自动同步方式或采用备份和检查点(Check Point)结合的方法。自动同步是指通过网络将数据从主节点(Primary)复制到备份节点(Secondary)。方法很简单，只要进行一步操作即可完成。自动同步对带宽要求较高，否则，将无法完成完全同步。自动同步要求RVG中的每个卷都有DCM。对于网络带宽较小，或者需要完全同步的数据量太大时，使用备份与检查点结合的方法。在备份开始前，在主节点设置检查点，该检查点记录在SRL中，然后将数据备份到活动硬盘、光盘、磁带或其它介质上。备份完成后，将检查点取消。将备份的数据恢复到后备节点上。然后将RLINK连接挂上，主节点SRL中记录的的数据传送到后备节点，完成后，两边数据一致，进入正常数据复制状态。用该方法进行数据完全同步，要求SRL卷大些，等完成后，再将SRL卷通过Volume Manager在线缩小。 8）当某些严重意外情况发生后，后备节点会变成新的主节点，称为角色转换。在灾难期间，不进行数据复制，新的主节点用DCM记录变化数据位置。 9）当原来的主节点在灾难后恢复正常，需要进行数据反向同步和角色转换。反向同步有两种情况，一种是在灾难发生时刻，原主节点与灾备节点的数据是同步的（即无未复制的数据）；第二种是在灾难发生时刻，原主节点与灾备节点的数据不是完全同步的（即主节点有数据尚未复制到灾备节点）。第二种情况在反向同步开始时第一步首先要进行重置，指将原主节点SRL和DCM中数据（这些数据在灾难发生时尚未来得及传送）的位置信息修改当前主节点（即原后备节点）的DCM。然后，将DCM中指向的数据全部传送到原主节点。而第一种情况的话，直接进行第二步工作。传送完成后，将当前主节点的数据库和应用停止，将双方角色复原，并在原主节点提供正常服务。 10）脱机处理。通过使用VVR的In-Band Control(IBC)消息、Snapshot、以及Volume Manager(VxVM)的FastResync(简称FR，即快速同步)功能，可以实现数据的脱机处理。脱机处理主要指对后备节点种的数据进行处理，例如进行备份、打印报表、数据仓库处理等。脱机处理由打破后备节点的镜像卷、对镜像数据进行处理、重镜像等几个过程组成。 11）双收条（双重确认）机制。指后备节点对复制数据的接收确认有两个阶段。第一个确认当后备节点收到数据后发出；第二个确认当后备节点数据成功写入硬盘后发出。当主节点收到第二个确认后，将SRL中的相应数据清空。三、 VERITAS Cluster Server（简称VCS）是用于本地容灾的集群软件，支持多达32个节点的应用级切换，保证本地业务系统的软硬件高可用性。VCS以其出色的可靠性和易管理性闻名。VCS的功能特点请见附录。在本方案中，VCS主要负责以下功能： 1） VCS负责监控和管理硬件系统和操作系统，当出现故障时进行切换。 2）通过数据库代理(Agent）监控和管理数据库系统，当出现故障时进行切换。 3）通过API或脚本编写针对性客户化应用代理，监控和管理

展开阅读全文