1、中国移动公司IP网管系统数据容灾备份解决方案VERITAS公司北京办事处2022年2月9日在该整体方案中中,上层依赖于它的下层,每一层的产品实现相应的功能。/Global Cluster Manager/Cluster Server/Volume Replicator/Volume ManagerFigure 1图中涉及的软件产品将在下面论述。2.2方案概述针对IP网管系统及各子系统实际分析得出的RPO/RTO,我们分别采用不同的 技术手段对其实现高可用保护。1. IPNET流量管理服务器及NetCool汇总管理服务器该系统属于核心业务系统,数据更新率极高,且要求在灾害发生时必须立即 投入备份
2、节点以维持业务的连续性,因此,我们在数据层采用Volume Replicator进行实时的远程数据复制;在应用层采用Cluster Server和 Global Cluster Server进行实时业务级切换。同时,为保证不可预见的意外事件不对业务系统造成不可恢复的影响,我们 还建议利用 Netbackup Enterprise Server 和 Bare Metal Restore 技术,利用磁带和磁盘介质在容灾节点保存一份生产系统每天的原始数据。2. NetCool网管服务器/PM服务器、业务网管服务器、Precision服务器 该系统属于业务管理系统,直接关系到管理人员能否顺利地进行网络
3、日常的 管理和维护,并关系到IP业务的正常运行,因此需要及时在容灾节点实现接 管,但该业务子系统的数据更新率并不高,而且周期性比拟强,因此没有必 要花费高昂的代价进行实时的数据复制,可以采用主节点数据备份,容灾节 点异地数据恢复的手段保证数据的完整性和一致性。我们建议在应用层面上,本地节点利用Cluster Server实施主机高可用性, 防止主机故障,容灾节点利用Global Cluster Server实施远程应用切换。 在数据层面上,利用 Netbackup Enterprise Server 和 Bare Metal Restore 技 术,在本地先形成一套主机系统和业务数据的磁盘备份
4、,并每隔8小时在后 台将本地备份数据复制到远程容灾节点(周期复制),异地节点恢复主节点 数据,以实现主备节点的数据同步。3. Visionary应用服务器、NetCool报表服务器、IPNET报表服务器该系统属于整个网管系统的报表系统,数据变化量的频率相对较低,保存每 天的数据即可,因此可以考虑底层数据备份,业务层手工或脚本切换的方式 实现系统可用性,我们建议利用Netbackup Enterprise Server和Bare MetalRestore技术,利用磁带和磁盘介质在容灾节点保存一份生产系统每天的原始yUZ . I4t 数据。4. 整个网管系统的历史数据为了保证在任何不可预见的情况下
5、都能正常维护整个IP业务网络,我们还建 议在主节点和灾备节点利用Netbackup Enterprise Server在磁带上至少保 持6个月内的系统历史数据。2. 1. 1 IPNET流量管理服务器及NetCool汇总管理服务器“N+1”冗余备份方式对于该子系统,VERITAS解决方案能够按照现业务系统的要求实现多种容灾模 型。即: “1+1”冗余备份方式“N+1”备份方式 N节点循环备份方式(如果只要求N=2,即双地点互为备份)第一种方式实际是第二种方式N二1时的特殊情况,以下不单独讨论。“N+1”冗余备份方式为N个正在运行的移动公司IP业务系统建立一套远程容灾备份系统,称为“N+1”备份
6、方式。这种方式下,N个正在运行的业务系统中的任何数据的更改, 包括静态数据更改与动态数据更改,都必须同步到备用系统中。备用系统中存储着 所有的N套正在运行的业务系统的数据总和。正在运行的其中一个系统发生故障, 那么备用系统使用对应当前故障系统的用户数据和相应应用,来接管故障系统的业 务。假设正在运行的N个业务系统中所有系统同时发生故障,那么备用系统使用的所有 对应故障系统的备份数据和相应应用,接管所有业务系统。“N+1”备份方式的优点是建设本钱比拟低,可以使用一套备份系统为多个系 统提供容灾备份的功能,平时设备利用率比拟高。“N+1 ”备份方式的缺点是当多 个系统同时发生故障,如果只有一套备份
7、系统为所有用户提供服务,可能导致服务 质量的下降。该方式建议备份系统使用较高的硬件配置。“N+1”系统简单示意图如以下图(图二):.数据传输方向图二多对一备份2.1.3 N节点循环备份方式由于只要求N=2,实为一对一互为备份。Site A运行本身业务系统的同时,还作为Site B业务系统的备份系统;同理, SiteB运行本身业务系统的同时,还作为Site A的备份系统。正常情况下,Site B拥 有本身业务的应用、数据库进程和相关的数据,同时,Site B系统中有相应的数据 区存储从Site A实时复制来的数据。而且Site B实时将数据复制到Site A。当Site A 发生灾难时,Site
8、 B除了提供本身业务外,还要提供Site A的相应服务。反之同 理。N节点(N=2)循环备份系统简单示意图如以下图(图三):Site ASite BI数据传输方向 图三相互备份2. 1.4软件安装在两种情况下,每个地点的每台服务器上安装的软件相同,只是不同情况下配 置方法不同,每台服务器的具体配置方法后面讨论。每台服务器安装软件如下:1) 安装 VERITAS Volume Manager(VxVM)安装 VERITAS File System(VxFS)2) 安装 VERITAS Volume Replicator(VVR)安装VERITAS Cluster Server(VCS)、相应的数
9、据库代理(Agent)和应用软件代 理3) 安装 VERITAS Global Cluster Manager(GCM)2.1.5 NetCool网管服务器/PM服务器、业务网管服务器、Precision服务器容灾该系统在远程的应用切换层面上和前述方案一样,不同的是在数据复制的方法 上,我们利用了 Netback叩实现数据的周期性复制NetBack叩是VERITAS公司的备份管理软件,它致力于解决网络上大、中、小型 服务器和工作站系统上的数据备份、归档及灾难恢复问题,Veritas备份产品国际市 场份额2000年为39.1%, 2001年为40.8%, 2002年为40.6%,以下图为Game
10、r Gro叩 统计的VERITAS备份产品2002年国际市场份额:它的突出特点主要有:管理简单采用统一的Java或GUI图形界面,管理轻而易举,使用先进的人工管理界面工 具,制定备份策略、介质管理策略,对各项备份作业进行监控。Netbackup提供了远程分发式安装工具,当用户拥有众多的客户机,无需占用大 量人力进行分散的安装,只需通过server进行远程分发软件安装。裸金属恢复 BMR(Bare Metal Restore)对于系统中的 HP-UX, IBM AIX, Microsoft Windows NT/2000 和 Sun Solaris 等不 同操作系统环境,我们通过VERITAS
11、Bare Metal Restore (裸机恢复)功能,来简 化服务器的恢复过程,以完成系统的快速灾难恢复。这样,当系统数据完全丧失 时,系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复,不必 进行通过光盘进行操作系统重新安装,硬盘重新分区,IP地址重新设置,以及备份 软件重新安装等复杂的步骤。数据恢复重定向在数据恢复的过程中,我们可以通过授权,进一步让系统管理员选择数据恢复 的目标客户机。这样,我们可以灾备系统上恢复所需要的数据,保证数据的可操作 性。并行处理NetBackup可以实现多磁带机并行操作,因此可以有效地增加带宽。如果数据被 并行定位(co-located)到多盘磁
12、带上,执行选择性恢复的过程将会很快。NetBackup可以通过策略共享实现多作业复用(Multiplex)磁带,从而大大加快了 备份进度,减少了磁带操作过程的开销。这一提高是显而易见的。真正映象恢复(True Image Recovery)使用全备份和增量备份后,恢复时根据映象(image)恢复,真正做到己删除文件无需 恢复,大大减少恢复数据量.传统方式先恢复全备份文件,再进行增量恢复和文件删 除。磁带多重拷贝(Inline Tape Copy, Duplicate)磁带在线复制Inline Tape Copy允许用户在执行备份期间,创立备份数据的多份 拷贝。复制允许备份完成后复制多份备份数据
13、。Netback叩可以一次备份或复制2-4 份拷贝,管理多达同一备份的10份拷贝,并且每份拷贝有自己的保护周期提供灾难恢复能力-VAULT在多个地点保存备份或复制介质,保证当发生灾难时或多个的地点快速恢复关 键的数据。I一IE12. 1. 6功能配置说明NetBackup Server:备份系统的核心,该服务器既是主备份服务器可以对整个备份系统进行监控和 管理,备份环境的核心数据应用库、备份策略和设备配置均存放在这台服务器上, 又是介质服务器,可以直接连接并执行自动化管理磁带库及其介质。由于生产和测试网在物理上是隔开的,所以需要分别安装两套备份服务器。这 样可以使生产和容灾的备份完全独立,但生
14、产数据可以通过两台磁带库实现异地保 留。 NBU Client:SNA服务器和测试网的服务器的备份方式采用网络备份的方式。 Bare Metal Restore:所有服务器实现裸机恢复。具备“一键”恢复系统的功能,减少数据恢复的复 杂度和时间。-可以采用Netbackup复制方式或者采用制定两个策略对应不同的磁带库进行 备份实现本地、异地双备份。Netbackup支持不同磁带库之间的数据复制,可以设 置策略定时进行,相对于Client系统数据同时备份到两个磁带库的方法,该方法只 复制备份后产生的Image文件,该作业由Master Sever调度,执行在磁带库之间的 数据复制,节约原Clien
15、t系统资源。-利用光纤线路和远程磁带库实现了异地的数据备份保护,但在灾备点如果没 有备份恢复服务器,即只保存了数据。如果生产点的备份服务器损坏,那么影响了正 常的备份。同时如果没有灾备点的备份恢复服务器,如果生产点出现场地问题,不 能立刻在灾备点进行恢复。此时可以利用测试网中的备份服务器重新导入生产网备 份的CATALOG,近而恢复数据。以上是为我们为业务系统提供的数据备份复方案,设计的目的是采用业界最先 进的备份技术完成对系统数据在线、快速、有效的磁带备份保护。同时本方案还提 供裸机快速恢复和异地磁带级容灾技术,从技术上保证了数据中心的可靠性和快速 恢复能力。2. 1.7利用磁盘缓冲实现周期
16、数据复制磁盘缓冲(DISK STAGING)为NetBackup管理员提供了一种备份方法,首 先在磁盘上创立备份镜像,然后将镜像转移到另一种介质上。NetBackup软件的磁 盘缓冲分三个步骤完成:首先在磁盘上创立NetBackup备份镜像,然后在可以配置 的稍后时间,将镜像转移到另外一个介质上。此外,磁盘缓冲可以方便备份和恢 复,NetBackup用户可以利用磁盘缓冲,为将数据传输到磁带提供便利,防止多路 复用镜像的弊端。磁盘缓冲的工作原理,磁盘缓冲的工作原理例如如下:假定NetBack叩客户生成的备份数据的容量如下:星期一:200MB星期二:300MB星期三:300MB星期四:200MB星
17、期五:500MB假定NetBackup客户每天都将数据备份到磁盘缓冲存储设备上,然后再将数 据从磁盘缓冲存储设备转移到最后的存储设备上。客户使用的磁盘缓冲存储设备的容量至少到达500MB,这样才能以容纳一天 生成的最大数据容量。如果NetBackup管理员只要在磁盘缓冲存储设备上保存一天 的数据,那么500MB的磁盘缓冲存储设备就已经足够了,前提条件是能够成功完 成重新定位,每天将数据转移到磁带上。如果管理员想在磁盘上保存超过一天的数 据,那么应对磁盘空间进行调整。磁盘缓冲分三个阶段完成:第一阶段:在磁盘缓冲存储设备上创立备份镜像;第二阶段:重新定位日程决定了将磁盘缓冲存储设备上的备份镜像重新
18、定位 到目的存储设备上的时间;第三阶段:磁盘上的备份镜像复制到目的存储设备上后,自动取消备份镜 像。NetBack叩的磁盘缓冲(DISK STAGING)流程例如Policy: Stage 1 SchedulePolicy: Stage 1 ScheduleClientStage 1: NetBackup policy backs up the client data to a disk staging storage unit according to the Stage 1 policy schedule.Disk Staging Storage UnitPolicy: Stage 2 R
19、elocation ScheduleStage 2: The Disk Staging Storage Unit (DSSU) schedule relocates data to Final Storage Unit according to the relocation schedule.Destination Storage UnitStage 1Stage 2Stage 3: NetBackup software automatically removes the backup image from disk after it has been copied to a destinat
20、ion storage unit. To accomplish this, the NetBackup software expires the disk image and makes the backup image on the Destination Storage Unit the primary copy.客户端策略:第一阶段日程第一阶段:NetBackup策略根据第一阶段策略日程,将客户端数据备份到磁盘缓冲 存储设备上。第一阶段磁盘缓冲存储设备策略:第二阶段性重新定位日程第二阶段:磁盘缓冲存储设备(DSSU)日程根据重新定位日程,将数据重新定向 到最后的存储设备上目的存储设备第二
21、阶段第三阶段:NetBackup软件将备份镜像复制到目的存储设备上,然后自动将它从磁 盘上删除。为进行此操作,NetBack叩软件要使磁盘镜像失效,将目的存储设备上 的备份镜像成为主副本。在备份的第一阶段,按策略对客户端进行备份,该策略将磁盘缓冲存储设备作为目 的存储设备。应为每个专用磁盘分区/文件系统提供一个磁盘缓冲存储设备。第一阶 段日程的配置方法与其他备份相似。在磁盘缓冲的第二阶段,将镜像从磁盘缓冲存储设备重新定向到目的存储设备。在磁盘缓冲存储设备的设置过程中,根据配置的重新定位日程来重新定位镜像。这 是通过点击磁盘缓冲日程按钮来完成的。只有选择磁盘缓冲存储设备作为存储设备 类型时,才能
22、使用该按钮。第三阶段是自动使磁盘镜像失效,使目的存储设备上的镜像成为数据的主副本。这 样用户就能释放磁盘空间,以备将来使用。2.1.8 Visionary应用服务器、NetCool报表服务器、IPNET报表服务器容灾在开放系统中,许多产品都能执行备份和恢复功能。然而,能处理现今数据中 心的海量数据的产品那么凤毛麟角。以往数据中心曾是大型机一统天下,现在那么 是以大型UNIX、Windows服务器以及集群为基础,企业在此之上构建并运行 和管理关键业务应用。VERITAS NetBack叩独有的核心三层架构,结合先进的 介质管理功能,以及卓越的高性能,可以满足最大规模数据中心的需求。NetBack
23、up主备份服务器(Master Server)是架构的第一层。主备份服务器是所有 数据保护活动(包括作业日程安排和追踪客户端备份、管理磁带介质和文件编录) 的“智能中心”。主备份服务器拥有一个或多个附带的存储设备,可为多台客 户端服务器提供数据备份,主备份服务器也可以构成集群以实现高可用性。如果企业在几个地点都有数据或数据密集型应用,比方数据仓库,那么可安装介 质服务器(Media Server)-即架构的第二层。这样,企业就可以在各个地点, 通过部署介质服务器直接在本地备份大型应用,同时还可以通过网络备份其它 客户端系统。介质服务器既可与主备份服务器或另一台介质服务器共享磁带 库,也可使用自
24、己的磁带设备。如果某台介质服务器因故障或其他问题不能正 常工作,可将这一台介质服务器的备份任务转移到另一台介质服务器上进行。架构第三层是备份网络中诸多服务器和工作站的客户端代理(Client Agent)。 这一层中,要保护的数据量不一定最多,但是需要安装的机器数量通常都是最 多的。主备份服务器(第一层)可以对介质服务器(第二层)和客户端(第三 层)进行集中管理。2. 1. 9 系统灾难恢复VERITAS Bare Metal Restore对于系统中可能存在的IBM AIX, Sun Solaris, HP-UX,等不同操作系统环境,我 们通过VERITAS Bare Metal Resto
25、re (裸机恢复)功能,来简化服务器的恢复过 程,以完成系统的快速灾难恢复。这样,当系统数据完全丧失时,系统管理员 可以仅仅通过一个启动命令就可以进行系统数据的完整恢复,不必进行通过光 盘进行操作系统重新安装,硬盘重新分区,IP地址重新设置,以及备份软件重 新安装等复杂的步骤。BMR的工作简要流程如下(Main Server, File Server和Boot Server可合并在备 份服务器上):1、BMR服务器(Main Server)在客户机日常备份的过程中分析客户机的 环境并生成恢复策略。2、BMR服务器分配启动服务器(Boot Server)和文件服务器(File Server).3
26、、当客户机数据丧失时,系统管理员通过网络启动命令启动客户机。4、BMR服务器驱动启动服务器和文件服务器,使客户机自动获得启动 镜像和恢复计划。5、客户机进一步划分硬盘分区并恢复所有数据。1 系统需求分析21.1 系统建设目标21.2 需求简析5高可用容灾方案设计82.1设计原那么82.2方案概述92.1.1 IPNET流量管理服务器及NetCool汇总管理服务器“N+1”冗余备份方式102.1.2 “N+1”冗余备份方式112.1.3 N节点循环备份方式112.1.4 软件安装122.1.5 NetCool网管服务器/PM服务器、业务网管服务器、Precision服务器容灾122.1.6 功能
27、配置说明142.1.7 Visionary应用服务器、NetCool报表服务器、IPNET报表服务器容灾17高可用容灾方案实现193.1软件功能解释193.2安装、配置过程243.3工作过程263.4方案分析293.1.1 有关数据的量化分析及结果293.1.2 方案小结30附录36一、VERITAS公司简介36二、VERITAS Foundation Suite38三、VERITAS Cluster Server 453核心系统高可用容灾方案实现本章将就该方案的每个细节进行讨论。包括方案的详细讲解,软件的实际配 置方法等。通过阅读和理解本章,您将了解VERITAS解决方案的实现方法,并清 楚
28、地知道VERITAS解决方案是切实可行的,并且有相关的实施案例和实施经验。我们假设原来就己经按照双机系统设计,那么本方案仅需要增加不同地点间的 广域连接,不需要增加其它硬件。软件方面要用VERITAS高可用软件替换原有的 HA/Cluster 软件,新增 Volume Manager、VERITAS File System、VERITAS Volume Replicator 和 Global Cluster Managero在介绍功能前,需要强调的的是:VERITAS提供的是完整的容灾解决方案。各 个软件的功能完全集成在一起,建立一个容远程数据复制、本地容灾、远程应用切 换于一体的方案。3.
29、1软件功能解释在这里,每个软件只解释与本方案相关的那局部功能,至于软件的全部功能, 请见附录。一、VERITAS Volume Manager(简称VxVM)将在物理磁盘上建立多 个或一个逻辑卷(Volume)o以裸设备的方式使用卷,或在卷上建立文件系 统。将数据(特别是需要进行远程复制的相关文件系统、数据库)存放在卷 上。由于数据复制是基于卷的,所以,Volume是进行复制的基础。二、VERITAS Volume Replicator(简称 VVR)负责远程数据复制。 VVR复制基于Vblume进行。复制的数据可以是数据库中的数据(文件方式 或裸设备方式)和文件。复制的示意图见图四。SITE
30、 11)VVR与VxVM完全集成在一起。用VxVM管理界面和命令统 一配置管理;由于VVR仅仅将Volume上每次I/O的实际数据实时复制 到远程节点,所以在网络线路上传输的数据量很少,对带宽的需求也很 小。;2)将各个业务系统中需要进行远程复制的多个或一个卷定义为一 个 Replicated Volume Group(简称 RVG);3)在Site A定义一条RLINK,指向Site B;在Site B也定义一条 指向Site A的RLINKo RLINK是单向的;需要进行复制的两个系统各 定义一个指向对方的RLINK;每个RVG定义一个RLINKo例如有Site A和Site B两套系统同
31、时用Site C的系统作为备份。在 Site A定义一个RVGa,包含需要进行数据复制的卷;在Site B定义一个 RVGb,包含需要进行数据复制的卷;在Site C定义两个RVG,名为 RVGa,和RVGb分别作为Site A RVGa和Site B RVGb的备份。然后,在 Site A 定义 RLINK to_cl,指向 Site C;在 Site B 定义 RLINK to_c2,指向 Site C;在Site C定义两个RLINK, 一个to_a,指向Site A,另一个to_b,指向 Site Bo4)Storage Replicator Log(简称SRL)是VVR中的重要部件。
32、将数据复制各方的 某个卷定义为一个SRL。需要复制的数据首先要写入SRL,然后传到异 地。VVR通过SRL保证数据复制严格按照写顺序进行,这在异步工作方 式下非常重要。当网络中断或异地系统出现故障时,本地数据将记录在 SRL中,等系统恢复正常时再将SRL中的数据按照先进先出的顺序传送 到异地。当SRL满后,VVR将通过Data Chang Map (简称DCM)记录 变化过的数据块的块号。VVR数据流程见图五:Syixiiroixius RLINKVdumcVolumePhase 1Phase 2Kernel Butler i Remote)Kenwl BufTerAsynchronous a
33、anpocentSytKluutxius cu!npetitAs)*nclKuK)as kI.INKIJnta VoJumcKertMl Bufler (Remote图五5)Data Change Map (简称DCM)与主节点的RVG相关,它其中的内容是位 图信息,记录某一时间点后修改过的数据块位置。DCM在正常情况下不 使用,在SRL满后记录变化的数据块的块号,当恢复正常复制后,等 SRL中的数据传送完后,将DCM中记录的块传送到异地。灾难恢复后的 反向复制也用到DCMo6)数据复制的工作模式缺省为同步/异步自适应,即在网络延时情况较好、数 据能够及时复制时,工作在同步方式,完全保证两边数
34、据的一致性;当 网络延时情况较差、数据不能及时复制时,工作在异步方式下,保证主 节点的I/O性能。数据复制根据实际情况,自行在两种工作模式之间切 换。如果数据复制的线路带宽有限,出于保证本地服务器读写性能的考虑,可以将 复制工作模式定义为异步。由于VVR的数据复制严格按照I/O的修改顺 序进行,所以,无论在同步还是异步工作方式下,都能保证数据的完整 性。对于数据库系统,该复制机制能够保证灾备节点的数据库在灾难发 生时正常启动并提供服务。7) 后备节点的完全同步,即所谓的”建立基线”。在主节点往后备节点正常复 制数据前,必须逐块逐块地将主节点中需要复制的数据拷贝到后备节 点,也就是说,将双方的R
35、VG进行同步。后备节点的完全同步分为两种情况,一是复制时主节点应用不进行数据更 改,二是复制时主节点应用进行数据更改。两种情况下,都可以采用自 动同步方式或采用备份和检查点(Check Point)结合的方法。自动同步是指通过网络将数据从主节点(Primary)复制到备份节点 (Secondary)o方法很简单,只要进行一步操作即可完成。自动同步对带宽 要求较高,否那么,将无法完成完全同步。自动同步要求RVG中的每个卷 都有DCM。对于网络带宽较小,或者需要完全同步的数据量太大时,使用备份与检查 点结合的方法。在备份开始前,在主节点设置检查点,该检查点记录在 SRL中,然后将数据备份到活动硬盘
36、、光盘、磁带或其它介质上。备份 完成后,将检查点取消。将备份的数据恢复到后备节点上。然后将 RLINK连接挂上,主节点SRL中记录的的数据传送到后备节点,完成 后,两边数据一致,进入正常数据复制状态。用该方法进行数据完全同 步,要求SRL卷大些,等完成后,再将SRL卷通过Volume Manager在线 缩小。8)当某些严重意外情况发生后,后备节点会变成新的主节点,称为角色转 换。在灾难期间,不进行数据复制,新的主节点用DCM记录变化数据位 置。9)当原来的主节点在灾难后恢复正常,需要进行数据反向同步和角色转换。反向同步有两种情况,一种是在灾难发生时刻,原主节点与灾备节点的 数据是同步的(即无
37、未复制的数据);第二种是在灾难发生时刻,原主 节点与灾备节点的数据不是完全同步的(即主节点有数据尚未复制到灾 备节点)。第二种情况在反向同步开始时第一步首先要进行重置,指将 原主节点SRL和DCM中数据(这些数据在灾难发生时尚未来得及传 送)的位置信息修改当前主节点(即原后备节点)的DCM。然后,将 DCM中指向的数据全部传送到原主节点。而第一种情况的话,直接进行 第二步工作。传送完成后,将当前主节点的数据库和应用停止,将双方 角色复原,并在原主节点提供正常服务。10)脱机处理。通过使用VVR的In-Band Control(IBC)消息、Snapshot、以及 Volume Manager(
38、VxVM)的FastResync(简称FR,即快速同步)功能,可以 实现数据的脱机处理。脱机处理主要指对后备节点种的数据进行处理,例如进行备份、打印 报表、数据仓库处理等。脱机处理由打破后备节点的镜像卷、对镜像数据 进行处理、重镜像等几个过程组成。11)双收条(双重确认)机制。指后备节点对复制数据的接收确认有两个阶 段。第一个确认当后备节点收到数据后发出;第二个确认当后备节点数 据成功写入硬盘后发出。当主节点收到第二个确认后,将SRL中的相应 数据清空。三、VERITAS Cluster Server (简称VCS)是用于本地容灾的集群软 件,支持多达32个节点的应用级切换,保证本地业务系统的
39、软硬件高可用 性。VCS以其出色的可靠性和易管理性闻名。VCS的功能特点请见附录。在 本方案中,VCS主要负责以下功能:1)VCS负责监控和管理硬件系统和操作系统,当出现故障时进行 切换。2)通过数据库代理(Agent)监控和管理数据库系统,当出现故障 时进行切换。3)通过API或脚本编写针对性客户化应用代理,监控和管理应用 系统,当出现故障时进行切换。4)通过Replicator代理监控和管理数据复制过程,当主服务器数 据复制发生故障时,自动将数据复制工作切换到后备服务器,保证数据 复制过程的连续性。这点对于容灾系统非常重要。该代理充分说明 VERITAS提供的是完整的容灾解决方案。5)主节
40、点和备份节点的VCS集群系统都在Global Cluster Manager 的统一监控和管理下,从而实现集群系统间的远程应用切换。GCM在 VCS中以两个服务组(指GCM Master和GCM Slave)的形式存在。四、Global Cluster Server (简称 GCM)可以称为 Clusters Cluster (集群的集 群)。它负责对多个不同地点的多达32个集群系统进行监控和管理,在发 生严重灾难时,进行site的切换(即应用的远程切换)。GCM Console为Web界面,通过浏览器管理各个Cluster系统,并在管理界面 中主动控制或响应远程切换。3.2安装、配置过程在硬
41、件和操作系统环境准备好后,整个方案的实际安装、配置及工作过程如下。详细的配置命令和配置文件见附录。一、安装 VERITAS Volume Manager(VxVM)和 File System(VxFS)。将服务器本地 硬盘的其中一个分区(或整个硬盘)作为rootdg。将磁盘阵列中所有磁盘用 Volume Manager管理。创立一个disk group,包括涉及的磁盘,并在这些磁 盘上划分出需要的卷,包括用于SRL的卷。如果卷上需要文件系统,使用 VxFSo将数据库和应用系统都安装在共享的磁盘阵列卷中。二、由于VVR与VxVM集成在一起,所以无需另外安装。1)为需要复制的卷增加DCMo2)创立
42、SRL。3)定义RLINK,指向备份节点。4)定义RVG,将需要进行远程复制的卷(包括SRL卷)都定义到一个RVG中, 并与RLINK联合绑定。5)进行数据复制。三、安装VCS、Oracle或Sybase代理、客户化应用代理和VVR代理。安装完成 后,配置心跳线,然后对各个服务组(Service Group)中涉及的资源进行定 义。进行本地切换测试,优化有关参数。四、安装GCMo安装完成后,在VCS的服务组(Service Group)中增加了 GCM Master和GCM Slave0对其进行配置。定义GCM响应的事件和相应的处理 动作。用手工模式进行异地容灾切换测试,并调优化有关参数。五、
43、进行全系统联调,测试各种情况下的系统工作情况,并进一步优化有关参 数。3.3工作过程为方便论述,本节模拟地点A和B,两地各有一套建立在VCS双节点集群上的业务系统,以B地点的系统作为A地点的备份。切换示意图见图六。VIAVeritas Cluster ServerVIA VERITAS VOUIJME REZPUICATORRCPuaCATCDVOLUMK图六一、正常情况下:1) 业务系统运行在地点A,包括数据库实例、有关的文件、数据库数据、应 用软件。A节点对外提供服务。2) A节点所有的有关的数据通过VVR实时复制到B节点。3) 两地的VCS对的各自节点内的两台服务器的主机情况、数据库服务
44、、应 用软件进行实时监控和管理,其中,VCS还对VVR数据复制服务进行监 控。4) GCM监控两地Cluster系统的运行。二、当A地点的主服务器发生硬件或软件故障,导致主服务器无法提供正常服 务:1) VCS进行本地切换,将主服务器的数据库服务、应用软件、VVR数据复 制服务切换到本地后备节点。2) 整个系统运行在本地后备节点,包括VVR数据复制服务,由后备服务器 提供对外服务和数据复制服务。3)GCM将监控到该切换事件的发生。4)如果仅仅是主服务器数据复制服务发生故障,可以不进行切换,只需将复 制服务修复并正常运行。三、如果A地点的主服务器恢复正常,整个系统将重新运行在正常情况下。四、如果
45、在情况二的状态下,A地点的后备服务器也发生硬件或软件故障,整个A 地点无法正常提供服务:1)GCM将监控到该严重灾难的发生,将对接收到的Site A down事件进行处 理:发出严重告警,并在管理界面上弹出服务灾难性切换(及服务切换到 远程地点)等待确认画面。2)在有关人员确认后,在GCM切换等待确认画面上按确认按钮,将进行地 点间的容灾切换。3)A地点的业务将在B地点正常提供服务。4)数据复制暂停。5)Site B的VVR将从Secondary变成New Primary,使用DCM记录所有变化 的数据块。五、如果A、B地点间网络发生故障:1)VVR心跳检测将发现该故障,A地点VVR将根据事先
46、的配置进行处理。 我们的建议是VVR将网络故障期间所有数据的更改记录在SRL。2)如果在一段较长时间内,网络故障无法恢复。当VVR的SRL卷接近满 时,VVR将使用DCM,记录变化的数据块位图。3)在网络故障发生后,GCM将探测到,并对Network Down事件进行处理: 向有关管理员发出告警。六、如果A、B地点间网络在短时间内恢复正常。1) VVR将把A的SRL中积累的数据传送到B。2) VVR处于正常工作状态。3) GCM处于正常工作状态。七、如果A、B地点间网络在很长时间内仍无法恢复正常:1) VVR停止远程数据复制。2) GCM无法对两地间的Cluster运行进行监控。八、灾难复原。
47、当A地点的系统恢复正常后,需要进行整个系统的回迁。数据反向 复制时只复制灾难期间变化的数据而不是所有的数据,这是本方案优势之一。1) 在灾难期间,B地点是VVR的New Primary, B的DCM记录所有变化的 数据块。2) A系统正常后,VVR重新建立与B节点的RLINK连接,并自动变成Pseudo Secondary (伪后备节点)。3) GCM发现A、B地点Cluster恢复正常,对它们进行正常管理。以下过程 将在脚本中自动完成。4) 进行反向同步的第一步是将A节点的Pseudo Secondary状态转成 Secondary 状态。5) 第二步将进行A的SRL和DCM的重置(Repl
48、ay),修改B的DCM。因为在A节点发生灾难时,有可能A的SRL中有没来得及进行传送 得数据,甚至DCM中标记的数据块没来得及进行传送。也就是说,A中有 一些本地已经修改,而B还未修改的数据。所以,要保持A、B数据的一 致性,一定要首先对这些数据进行处理。处理方法成为重置(Replay)o重置将把A节点SRL中数据或DCM中 标记的数据位图信息传送到B节点。B节点将进行判断,根据数据块是否 有新的修改,对DCM进行置位。6) 重置完成后,将进行数据的反向同步,将灾难期间B节点变化的数据(和 需要A节点重置的数据)传送到A。7) 以上的过程中,B的数据库和应用都处于正常运行状态。1系统需求分析1.1系统建设目标建设本系统的目的是为中国移动公司IP网管系统建立一个全面的、整体的容