HP9000小型机系统-异地容灾解决方案.pdf

资源描述

1、HP9000小型机系统灾难备份设计方案神州数码Digital China中国惠普有限公司目录第一章灾难备份背景及优势.31.1 什么是计算机业务系统的灾难.31.2 国外计算机业务系统灾难备份应用情况.31.3 国内计算机系统的灾难备份计划的应用情况.41.4 建设灾难备份中心的重要意义.4第二章灾难分析.7第三章灾难备份设计目标.83.1 灾难备份的设计目标.8第四章灾难备份设计思路及模型.94.1 容灾项目开始.94.2 灾难风险分析.94.3 制定恢复计划.94.4 方案实施.94.5 支持与维护.9第五章 HP9000小型机业务系统灾难备份/恢复体系设计.125.1 灾难备份/

2、恢复体系总体设计.125.2 应用层方式容灾结构简介.135.3 数据库方式容灾结构简介.155.4 镜像软件容灾方式结构简介.195.5 XP磁盘阵列容灾方式结构简介.215.5.1灾难恢复系统硬件,软件配置说明.235.5.2XPCA软件容灾原理.245.5.3切换步骤.265.5.5 XP容灾方案性能分析.32第六章灾难备份恢复流程.33第七章培训测试及维护.357.1 培训.357.2 测试灾难备份计划.357.3 维护.36第八章成功案例介绍.378.!国外成功案例.378.2 国内成功案例.37第一章灾难备份背景及优势1.I 什么是计算机业务系统的灾难今天,HP9000小型机

3、比以往任何时候都更加依赖于计算机系统,计算机系统在为HP9000小型机迅猛发展提供技术基础架构的同时,由于用户业务处理的高度集中,以及不可预见的故障和灾难,导致整个系统存在很多灾难性破坏的隐患,有可能成为整体系统中的单故障点。因此,业务的拓展与灾难的防范是所有用户都必须同步重视的问题。那么,什么是计算机业务系统的灾难呢?通常的定义是指采用计算机系统处理的重要电子数据丢失至不可恢复或由此导致业务中断以至于延长到不可接受的时间。1.2 国外计算机业务系统灾难备份应用情况灾难备份计划在发达国家电信行业和金融行业得到了较早的实施,现已较为普遍。例如在美国,因九八五年纽约银行计算机故障,联邦管

4、理部门更加强了在这方面的监管度。现美国计算机业务系统一般出于以下三方面来考虑灾难备份计划:重要数据保护与业务连续运行的需要:在美国,各行业内部竞争激烈;在计算机管理制度上较为完善;一旦因突发灾难而造成数据丢失或业务中断,将会造成重大乃至致命的打击。审计的要求:美国较大型的企业一般会由第三家独立审计公司来提供其资信业务、管理等方面咨询服务,而世界著名的六大审计公司在对企业的评估项目中均包含灾难备份计划项；评估企业数据在灾难等威胁破坏下数据的完整性,一致性与安全性,及业务的可恢复性等,有些咨询审计公司还会参与验证所制订的容灾计划的具体过程和其可行性。缺少灾难备份计划及其危害性会在评估报告中

5、被显示出来。法律的要求:美国政府及州政府通过多项法律强制性要求电信、金融业等大型企业备有计算机安全及灾难备份计划。对于没有遵守这项灾难备份计划的企业,会遭受曝光及罚款等严重处理,同时亦可能对相关责任人采取罚款甚至监禁等处罚。已知的灾难例子有：日本神户大地震、美国佛罗里达州飓风（数百家企业实施了灾难备份计划）、台湾大地震等。1.3 国内计算机系统的灾难备份计划的应用情况随着我国入“世”的脚步越来越近,传统产业在进入新市场新方式的竞争中,企业的电子信息架构的搭建,成为最具有战略意义的资源投资。作为信息架构核心的数据,其安全备份和灾难恢复随着世纪交替Y2K 问题的引发,逐渐引起人们的思考和重

6、视。现代企业必须直面一个迫在眉睫的问题:如何对数据进行持续不断地存储,并通过有效地应用这些信息,提高企业的利润率和竞争力。所以,在当今企业运营电子化的进程中,存储将与网络、软件应用和系统CPU处于同等重要的地位,成为决定系统成熟与否的关键。由于存在着各种数据丢失的可能,随着人们对网络系统的依赖日益增加,从硬件到软件对数据的保护和备份确实是不容忽视的环节。企业的IT专家们逐渐认识到,可能造成数据丢失的因素主要有三种:自然灾害的灾难性破坏造成数据永久丢失,最佳的解决方案就是异地数据备份;计算机和网络系统的硬件和软件故障,这种损失也只有通过完整的数据备份来弥补;另外,自然免不了黑客的破坏以

7、及人员的操作失误。这些事故的发生都是防不胜防的,唯一能把损失降到最低的办法就只有依赖具有数据备份和灾难恢复功能的存储设备。近年来国内用户在计算机应用方面的飞速发展,计算机系统基础架构的建设、特别是计算机容灾系统的设计与建设正逐渐被用户所重视。不言而喻,如果用户的业务系统有一套完备的灾难备份/恢复体系,当突发性灾难发生后,业务系统关键业务数据的损失将减至最小。特别是随着中国加入WTO的日益临近和行业竞争越来越激烈,完善的灾难备份/恢复体系在不远的将来将是国内企业发展的可靠保障。在国内,随着Internet的逐渐普及和电子商务热潮的兴起,企业需要整合越来越多的数据,而数据的合并、管理、分

8、享、保护都需要一个强大的、高可靠性的数据中心;同时,随着国内企业经营者对企业数据信息的价值和数据安全备份的认识的提高,存储设备的投资也正在企业信息化建设的投入中占据着越来越高的比重。IT行业权威人士认为,在将来的一至两年中,数据存储系统要花费所有企业计算系统投资的70%。1.4 建设灾难备份中心的重要意义随着计算机管理技术和网络技术的发展,为了提高企业业务管理水平、增强企业市场竞争能力,越来越多的企业开始使用计算机来处理内部日常事务和外部业务往来,从而使得这些企业越来越依赖于系统管理数据和业务信息。尤其是在企业业务不断增加、数据量成倍增长乃至出现数据膨胀现象时,由此引发的企业从数据膨

9、胀、到计算机性能提高、再导致新一轮数据膨胀的循环不断加剧,进而在企业中引起新的数据安全恐慌,数据失效问题时有发生。建设灾难备份中心的目的就是在于防止些灾难性的小概率事件可能对集中式信息系统造成的不可恢复的原始数据的丢失,这些灾难性事件可能包括为火灾,地震,电源故障及一些人为的操作失误等,如下图所示。计算机系统故障原因分析火灾、水灾、雷电、爆炸、地震等灾害人为原因17%其他原因4%18%硬件、软件网络等故障 11%电源故障50%-Gartner Group现代企业管理非常重视总体拥有成本(TCO)所谓TCO,实际上是由实际成本、使用成本和风险成本三项组成。实际成本和使用成本在企业的建设

10、与生产中往往容易引起人们重视,因而考虑得非常周到。而风险成本不仅是企业看不见、摸不着的东西,也是企业运作时很难预料和把握的内容。在使用计算机系统的企业中,风险成本包含用于管理关系到企业生命的各项数据与信息的安全、正常、可靠的高速运行的所需费用。所以,为将风险成本降至最低,同时使企业长期处于最佳状态,对企业业务和计算机管理与控制系统数据进行全面存储备份是项绝对值得的、也是必要的投资。我们知道,随着企业计算机系统建设计划的逐步实施,HP9000小型机的日常业务同计算机系统的联系越来越紧密。因此,业务主机系统的运行出现故障所带来的业务影响范围会被迅速扩大,而客户对企业计算机业务系统的连续运

11、行,业务系统、用户数据的高可用性以及业务计算机系统抵御突发性灾难的能力的要求也必然急剧提高。HP9000小型机建设灾难备份/恢复中心有如下的意义:重要业务数据在灾难发生后得以有效保护重要业务在灾难发生后可以在设定的时间内恢复,从而实现业务的连续运行业务计算机系统抵御突发性灾难的能力和级别提高进步提高HP9000小型机声誉,增强客户及潜在客户的信心扩大对同行业竞争对手的优势第二章灾难分析可能发生的灾难因各城市/地域的地理、气候、社会治安、城市管理,如供水、供电、通讯条件等差异而有所不同。仔细地分析各种突发性灾害发生的可能性以及由此所造成的后果,对于制定和构建完整的和有很强针对性的灾难备份体

12、系是有很大帮助的。下表是一张分析表样本,可使我们对于可能发生的突发性灾难评估有较为清晰的概念。可能的灾难可能性:12345工作场所火灾数据中心火灾电源故障气候灾难（台风,洪水等）工业破坏城市事件（罢,动乱等）硬件故障软件故障设备问题（如管道漏水等）供水故障通讯系统故障计算机故意破坏（如病毒等）爆炸威胁工作场所的环境紧急事件（化学污染等）第三章灾难备份设计目标3.I 灾难备份的设计目标采用何种容灾方式（逻辑数据复制/物理数据复制）实现灾难备份系统的设计目标主要应从以下四个方面来考虑:具体数据类型与目标的灾难保护:从用户业务系统正常运作的角度分析各种关键业务数据,作出重要性与可恢复性要求的评估

13、,并由此制定系统的数据灾难保护政策。灾难发生后的可恢复业务分析:对用户各种业务与管理流程进行分析评估,并据此制定出用户核心业务系统的灾难备份/恢复策略。灾难发生后的可恢复分析:对于突发性灾难这样的重大事件,有时受灾地区并不苟求所有业务系统都能够可持续运营,故可按实际需求和比例进行分析,并由此配置相应的容灾设备。灾难发生后的业务可恢复时间指标：可以将灾难的发生分为两类,类是可以预计具体时间的灾难,如损害性极大的台风等;另类是不可预计具体时间的突发性的灾难,如地震、主机系统的非计划性Down 机等。针对两种不同的灾难类型,要设定不同的业务恢复时间指标。一般来说,对第一类灾难的业务恢复时间要大

14、大短于对第二类突发性灾难的业务恢复时间.根据用户对系统容灾能力的不同要求以及投资方面的因素,HP公司提供多种容灾解决方案,各有侧重不同,我们会从不同的角度介绍容灾系统的实现方法,以及系统的典型配置。第四章灾难备份设计思路及模型为了设计与实施HP9000小型机的灾难备份系统,按照大型项目的管理方法和HP公司在项目管理方面所积累的丰富经验,在这里将整体项目的设计与实施分为五个阶段:4.!容灾项目开始明确HP9000小型机灾难备份/恢复计划的必要性明确灾难备份计划的负责人和实施队伍制定项目实施时间表。4.2灾难风险分析确定对HP9000小型机业务至关重要的系统、网络和用户确定由于自然或人为灾难对

15、这些造成的威胁和损失,并尽可能准确为具体的损失收集各种业务和用户对系统中断时间等的要求4.3制定恢复计划制定当灾难发生,原业务主机系统或网络系统不可用时,提供第二主机（灾备主机）或网络（灾备网络）的选择策略。4.4方案实施开始实施灾难备份计划,如数据实时在线备份、应用系统切换、记录本地数据备份的磁带管理等。4.5支持与维护由指定的人员、部门或公司提供容灾系统的日常支持与维护服务,保证灾难备份/恢复系统的可持续,高可用运行。对于其中的核心部分第三项“制定恢复计划”,根据HP9000小型机的业务特点,这里分为以下几个步骤:1、制定业务主机系统集群系统热备份计划:包括对服务器、操作系统、应用系统

16、、数据库系统、重要数据等的热备份计划。2、制定位于生产地的、与业务主机系统相关的前置服务器数据热备份计划:包括对其他机型的操作系统、数据库系统、应用系统、重要数据和通讯配置等的热备份计划。3、制定网络通讯备份计划：对网络设备、网络协议、网络参数设定、故障切换的逻辑过程、通讯线路的备份计划等。4、制定客户端备份计划：包括终端设备,终端用户的注册与权限管理的备份。5、制定磁带备份计划:包括系统备份、非系统数据文件备份、业务数据库数据备份,及与备份系统相关的其他全量备份、增量备份等,以构成完整的系统保护措施。6、制定灾难备份指示系统：此系统用来提供清晰全面的灾难备份指南,可以在灾难发生时在最

17、短时间内找到灾难备份流程,与相关负责人和供应商的联系方式,以及应当采取的应急措施等。如下为流程框图:第五章 HP9000小型机业务系统灾难备份/恢复体系设计5.I 灾难备份/恢复体系总体设计惠普公司为HP9000小型机业务系统提供的灾难备份/恢复方案可以满足用户对于计算机系统、数据的最高保护要求,保证即使发生断电,火灾等严重灾难时,用户业务也可以7x24小时的连续运行,同时确保业务数据在主中心和备份中心得到及时的更新,保证用户数据最大的完整性。根据惠普公司多年来所积累的实施高可靠性灾难备份/恢复解决方案的成功经验,我们可以承诺用户在最小的投资范围内,按照惠普公司的项目实施流程,在最短

18、的时间周期内达到整个项目的设计目标,并且通过惠普公司完善周全的售后服务体系,确保HP9000小型机核心业务计算机系统的全天候、安全、稳定的运行。由于用户数据中心的核心业务系统相对集中,因此在数据中心实现关键业务数据的规范化的本地数据备份是灾备系统建设的前提基础;同时通过进行重要业务数据的远程同步实现用户重要业务数据的远程异地存储,为实现业务系统的远程正常运作奠定坚实的基础;容灾系统的关键就是远程生产数据的自动复制,由于用户的应用均为基于数据库的联机事务处理（LTP）业务系统,所以业务数据远程复制的关键就是确保数据库数据的完整性、连续性,实时性和可恢复性。而现在惠普公司基于用户不同的容灾

19、需求所提供的灾难备份/恢复方案主要有以下四大类型:1）通过应用程序来进行远程数据复制（应用层次）;其主要原理就是通过修改应用程序或者使用BEA等公司的中间件产品,使得前端平台在向数据库服务器发送生产数据时,同时向主数据中心和备份数据中心均发送交易数据,主数据中心处理交易数据并返回处理结果,备份中心在正常情况下,只处理交易数据,当主数据中心无法正常工作时,备份中心服务器接替主中心服务器向前端平台返回处理结果。2）利用数据库厂家的软件产品完成远程数据备份（数据库层次）;现有的一些数据库厂家例如Oracle数据库可以提供STANDBY数据库功能,通过通信网络将实际数据库日志文件传至备份中

20、心存储系统,备份中心的STANDBY数据库按照主数据库结构从日志文件中重新恢复数据库;又例如Informix数据库可以提供HADR(High-Availability Data Replication)功能,在初始化时将主数据中心的数据库中的所有dbspace进行一次零级备份,并恢复到备份数据中心的数据库中,之后主数据中心的数据库服务器可以通过通信网络将生产数据库的逻辑日志文件传送至备份中心的数据库服务器,备份中心的secondary数据库将这些逻辑日志恢复到相应的dbspace上.3）利用主机上安装的操作系统级镜像软件进行远程数据镜像（系统软件,如HP-UXMirrorDisk/UX,

21、Veritas Volume Replicator等）;主中心存储设备与备份中心存储设备进行逻辑卷镜像,主机同时将数据分别写到本地和远程的磁盘设备上,实现业务数据的远程复制。4）通过惠普最新存储产品XP系列磁盘阵列（磁盘阵列硬件层次）,可以实现主数据中心和备份中心的操作系统、文件系统、数据库、应用程序的实时远程拷贝复制。主、备中心XP 磁盘阵列本身就可以通过阵列上的微处理器完成数据的实时同步功能,将灾难发生时关键数据的损失降至最低,而且不需要主机干涉或占用主机资源,可以做到灾难发生的同时实现应用处理过程的恢复。远程备份系统的重新启动可以做到象一般输入电源故障后的重新启动那么简单。以下是

22、对各种容灾实现方案的总体比较:数据量应用复杂度数据实时性对主机性能影响带宽投资成本交易数据备份交易数据高（可能修改应用）低10%几十万数据库日志备份2-4倍交易数据数据库工具可能至少丢失1个LOG较高(10-20%)几十万镜像软件4-8倍交易数据应用透明高（I/O级）,网络/镜像软件故障影响主机业务高(10-30%)几百万磁盘阵列4-8倍交易数据应用透明高(I/O级)无几百万5.2 应用层方式容灾结构简介利用应用层容灾方式建立针对用户业务的灾难备份系统,其主要原理是通过应用程序或者中间件产品同时向主中心和备份中心传输未经处理的生产数据,主中心服务器和备份中心服务器同时处理数据。

23、在正常情况下,只用主中心和业务系统联系,备份中心只在后台处理数据;当主中心瘫痪时,由于备份中心也存有生产数据库,也存有生产数据,所以可以迅速接管业务。由于是利用应用软件来实现数据同步及保证一致性的,因而对于硬件方面的影响较小。如图所示:这种方案的主要优点就是:a)由于通过网络传输交易数据时未经数据库处理,所以传输数据量小,对传输数据的网络带宽要求不高;b)传输数据过程中,主中心和备份中心异步进行,由传输距离产生的延迟和通信带宽瓶颈不会对应用产生较大影响.缺点是:a)对应用程序修改较大,增加应用软件商二次开发负担;b)由于主,备数据中心的业务处理过程为异步进行,如何保障数据的一致性非常困难,

24、需要在应用中对数据的同步进行周密的设计;这种容灾方式适合于传输距离极长(几千公里),且网络传输带宽和通信质量无法得到有效保证的用户环境.而对于存储设备则没有严格的限制,用户可以灵活的选择满足容量和速度要求的存储设备。5.3 数据库方式容灾结构简介5.3.1原理数据库方式由于只是传送数据库日志,与应用没有直接关系,因此无须对应用程序作大量修改。以下介绍主要以Oracle和Informix数据库为主。数据库方式容灾通过数据复制把数据定期、在线地复制到目的地的机器上去,以保持分布在不同地方的两个或多个数据库系统内容的一致性,来实现数据保护。但它将消耗大量的主机资源（至少要占用监控和复制两个进

25、程）。复制的对象是数据库的处理单位,如事务日志（逻辑日志）,实现方式也有同步与异步两种,严格来讲,这种方法很难有真正的同步方案。因为同步数据复制要求做任何笔交易,都要实时地将结果发送到远程的站点中,等远程操作结束后,再执行下笔交易;而在实际操作中,很难做到这一点,只能做异步的数据复制。所以个实时应用系统中,一般采用异步方式。注:若主数据中心和备份数据中心距离在3公里内,也可使用LAN连接两中心备份数据中心通过网络连接到中央数据中心。在正常情况下,Oracle数据库运行在主数据中心的服务器上,数据存储于主数据中心的磁盘阵列中。利用Oracle数据库提供的STANDBY数据库功能,可以通过

26、通信网络将实际数据库日志文件传至备份中心存储系统,备份中心的STANDBY数据库按照主数据库结构从日志文件中重新恢复数据库,以保持数据的一致性。一旦中央数据中心出现问题,用户可以立即启动备份数据中心的备份数据库以及相关应用Achive log的备份方式这实现方式的关键在于通过个专用程序将主数据中心的数据库中的AchiveLog定时通过通信网络传输到备份中心的数据库中。一旦主数据中心不能提供服务,备份中心首先通过RedoLog恢复数据,然后再代替主数据中心恢复应用。基于数据库方式的容灾能够把变化了的数据定期、在线地复制到目的地的机器上去。对用户来说,这种复制方式的优点是能够较好地保证

27、数据的一致性,但它将消耗大量的主机资源（至少要占用监控和复制两个进程）。此方案可以做到在有限的投资范围内,充分利用现有机器设备,实现应用系统和重要数据的灾难恢复功能。作为惠普公司成熟的灾难恢复技术,此方案已经在国内许多用户中成功实施过。其中包括:上海浦东国际机场灾难恢复系统等。建立远程容灾环境:利用中央数据库的全备份（零级备份）建立灾难备份数据库由专门进程负责传输中央数据库生成的日志文件到远地,这里可以通过定义日志文件大小及传输时机来控制灾难发生时的数据损失尽量降低,并可加快容灾应用切换速度,尽快恢复业务在备份数据中心系统上运行。灾难备份数据库使用传输来的日志文件（Archive

28、log或Logical log）不断更新备份数据库,这时数据库一直处于恢复状态（Informix数据库为quiescent状态）,其数据不可被访问（对于Informix数据库,备份数据库中的数据可被用来进行读操作,但无法进行写操作）。灾难备份数据库更新出错且无法解决时,应重新建立备份数据库。灾难备份数据库应定期做激活测试,以确保其在关键时刻的可用性。应用系统需考虑发生灾难时如何将联接切换到灾难备份数据库。容灾切换:将中央数据库的可取得的日志文件传至灾难数据库后,将灾难备份数据库更新到最近点,并开启数据库供应用系统使用;立即对灾难数据库做数据库全备份;对损失的数据进行修补;以建立灾难数据库的同样

29、方式建立中央数据库,并将运行系统切换回中央数据库,该次切换可做到数据无损失;立即对中央数据库做数据库全备份；重新建立灾难备份环境,恢复容灾系统.5.3.2容灾环境维护（中央数据库结构发生变化）日常管理中,需对中央数据库的归档日志（逻辑日志）目录定期进行备份和清理,亦需清除灾难备份数据库的归档日志（逻辑日志）目录中使用过的归档日志（逻辑日志）。在系统运行过程中,可能发生改变中央数据库结构的情况,这时需要进行适当的操作使灾难备份数据库跟上更新变化,保持数据库结构的一致和同步:1增加数据文件在中央数据库上增加数据文件将产生相应的日志,当被施用到灾难备份数据库时控制文件中会加入此数据文件名,此时

30、如灾难备份数据库能在相应目录找到此数据文件,恢复操作继续;否则会停止,在继续恢复操作之前,需选择以下操作:一将此新数据文件拷贝到灾难备份节点的相应目录下;-在灾难备份数据库上执行命令Alter Database Create Datafile filename.2数据文件更名对中央数据库的数据文件进行更名,需要刷新灾难备份数据库控制文件,或在对中央数据库作该操作时亦对灾难备份数据库作类似操作,即可确保中央与灾难备份数据库的同步。3修改联机日志文件设置在对中央数据库的联机日志文件进行增加、删除等操作后,都不会影响灾难备份数据库。但在中央数据库上执行命令Alter Database Clea

31、r Unarchived Logfile,或以Resetlogs选项打开数据库,则会使容灾备份数据库失效,因为容灾备份数据库无法得到进行恢复操作所需的归档日志文件,这时需要重新建立容灾环境。4修改控制文件若在中央数据库上使用Create Controlfile命令执行以下操作,将使容灾数据库的控制文件失效:-改变联机日志组或文件的最大数目参数-改变数据文件的最大数目参数-改变并发打开数据库的实例的最大数目参数此时需要刷新灾难备份数据库控制文件。在中央数据库上使用带Resetlogs选项的Create Controlfile命令将在下一次打开中央数据库时重置联机日志,日志序列回到1,从而导

32、致容灾备份数据库失效。5 数据库启动参数建议使中央数据库与灾难备份数据库的参数配置相同,以免因参数不同影响容灾数据库的性能甚至恢复操作的实现。6 刷新灾难备份数据库控制文件当中央数据库控制文件发生改变时,依照以下步骤刷新灾难备份数据库的控制文件:停止灾难备份数据库的恢复操作-关闭灾难备份数据库-在中央数据库上执行命令 Alter Database Create Standby Database Controlfile As filename，创建供灾难备份数据库使用的控制文件-在中央数据库上执行命令Alter System Archive Log Current归档出当前日志一将上两步产生的

33、控制文件及归档日志文件传送至容灾节点-启动灾难备份数据库在Nomount状态,执行Alter Database Mount Standby Database使数据库处于Mount状态-进行灾难备份数据库的正常恢复操作7关于Unrecoverable操作产生的数据中央数据库上用Unrecoverable选项操作（如Create Table,unrecoverable）产生的数据更新不生产日志,因此无法传送到灾难备份数据库,此时只能采用以下三种方法之一:在灾难备份数据库中,使受该操作影响的数据文件处于Offline状态。灾难切换后,删除灾难备份数据库中相应的表空间。该方法在允许损失此整个表空间

34、数据时才能使用。-重建容灾环境在中央数据库上备份该操作影响的表空间,归档当前的日志,传送到容灾节点后,开启灾难备份数据库的恢复操作。注意:如在中央数据库做了 Unrecoverable操作,而未采用以上方法进行操作,仍在灾难备份数据库上进行正常恢复,将不会有错误信息提示,该错误信息将出现在数据库日记中（$ORACLE_BASE/admin/bdump/alert_.log）因此管理员必须定期检查数据库日记。5.3.3优缺点比较用数据库功能实现远程数据复制的优点为:a）支持广域网协议,备份中心地点不受传输距离影响;b）硬件/软件投资较少;缺点王要为:a）传输归档日志或逻辑日志需占用主机资源（

35、CPU,内存,网络等,具体指标未确定）；b）当灾难发生时,业务无法在备份中心得到迅速恢复;c）备份中心的数据无法快速恢复回主数据中心,从而应用无法快速切换回主中心运行；d）无法实现非数据库数据的远程复制;此种容灾方式适合于只远程备份数据库数据,传输距离较长（几百公里以上）,且网络传输带宽不大的用户环境.5.4 镜像软件容灾方式结构简介利用操作系统层的镜像软件,如HP-UX MirrorDisk/UX,实现本地主数据中心的逻辑卷和远端备份数据中心的逻辑卷之间的实时同步数据复制.当主数据中心发生突发性灾难时,用户可以通过在备份中心服务器上激活相应的卷组和逻辑卷,进而启动备份中心服务器上的数据

36、库和应用系统,从而实现业务系统灾难恢复的目标.正常情况下,业务系统运行在主中心服务器上,数据存储在主中心磁盘阵列中,同时在备份中心配置相同容量的磁盘阵列。主中心和备份中心的距离通常限制在10公里左右,主中心的服务器使用光纤通道卡通过光纤交换机和光缆分别连接两个中心的磁盘阵列,利用服务器端的镜像软件对数据镜像存储。在发生灾难时最严重的损失就是数据本身的丢失,而磁盘镜像要求向磁盘进行的每个物理写操作都被复制到另个地点的另个磁盘。因为复制是向磁盘进行的物理写操作,所以它与应用程序无关。在主中心因故出现存储阵列损坏、瘫痪时,备份中心的数据仍然完好。主中心的服务器仍能正常的访问备份中心的数据。

37、一旦主中心的磁盘阵列恢复后,可以在系统上使用磁盘重新镜像的命令将数据进行同步,从而备份中心的阵列中的数据会拷贝到主中心的存储阵列中。镜像软件容灾方式优缺点比较.优点:可完全确保数据复制的完整性,一致性;容灾结构相对简单;对磁盘子系统透明,主/备数据中心可采用不同的磁盘阵列设备.缺点:远程数据复制操作占用主机较多资源（10 30%）；主中心应用系统写操作性能受主/备中心传输距离影响较大;网络连接和镜像软件故障将导致主中心业务系统的中止;备份中心更新数据无法快速恢复回主数据中心;这种容灾方式适用于对主机写操作性能要求不高,而且业务系统可以忍受因光纤传输线路的临时故障而导致业务中止的用户环境.5

38、.5 XP磁盘阵列容灾方式结构简介惠普公司XP阵列由Continuous Access XP/XP Extension软件提供完全的灾难备份/恢复功能。Primary SiteSecondary Site主数据中心和备份数据中心的结构基本一致:采用HPXP系列磁盘阵列作为中心存储,所有主机通过光纤与磁盘阵列相连。磁盘阵列上运行Continue Access XP容灾软件。主中心与备份中心之间的XP磁盘阵列物理上通过两条光纤通道直联,采用XP磁盘阵列上的容灾软件Continue Access做到两地数据实时同步。两套磁盘阵列之间数据一致性依靠磁盘阵列本身的专用软件（直接运行在磁盘阵列上）来完

39、成,完全不依赖主机系统,也不影响本地应用的响应速度。当配置了 Continuous Access XP/XP Extension软件的两台XP阵列分别处于两数据中心时,通过光纤线路进行连接,主数据中心的XP存储磁盘阵列可以随时自动将更新后的数据传送至异地的备份XP存储设备,以保持两台XP阵列数据的完全一致性。整个工作由XP阵列本身完成,对主机系统完全透明,不需占用任何主机资源。当主数据中心由于地震,火灾等各种意外原因导致整个主中心核心业务系统崩溃时,异地备份系统将完全接管全部工作,在极短时间内,恢复业务系统的运行。客户端也是灾难备份恢复系统防护的对象,需要通过网络连接到灾难备份中心运

40、行系统。灾难备份中心运行系统具有重构运行环境的能力,在灾难发生后替代生产中心行使运行系统职能,接受客户端注册和访问,其运行环境和业务数据由备份服务器和备份数据系统提供。特点:传统的灾难备份系统主备机切换的过程为1)主机发生故障2)系统切换到备机3)修复主机4)关闭全套系统包括主机及备机5)将系统从新切换回主机其中在第4个步骤中,用户将不得不承受停机所带来的损失。而惠普公司SureStore E Continuous Access XP/XP Extension软件将使用户避免这损失,因为当系统从主机切换到备机后,备机将成为主机,修复后的“主机”成为备机使用。此方案最大的优势就是对主机应用

41、完全透明,所有数据复制工作由磁盘阵列硬件层完成,不需修改应用,而且可以保证大量数据复制的性能。由于磁盘阵列数据复制原理是利用磁盘远程镜像功能,所以可以保证主数据中心关键业务数据和备份中心关键业务数据的完全一致,而且容灾系统实现起来非常简便。还可以充分利用现有服务器设备,实现应用系统和重要数据的灾难恢复功能。作为惠普公司成熟的灾难备份/恢复技术,此方案已经在国内外许多用户环境中成功实施过。其中包括上海热线,大连电信,云南建行,湖南建行等灾难备份恢复系统。由于HP9000小型机的容灾距离,用户环境和业务需求也十分适合于使用X P磁盘阵列实现存储硬件层的灾难备份恢复方案,因此H P公司也向HP

42、9000小型机推荐这种容灾方式.而这种容灾方案的主要限制就是由于在磁盘级进行数据复制,对应用系统完全透明,所以相比应用层和数据库层的容灾方式,复制的数据量较大,对光纤数据链路传输质量和传输带宽要求较高.优点:1、目前而言是所有异地容灾方式中最为可靠和成熟的技术;2、有磁盘阵列自身来完成,完全不影响主机的性能,也不依赖于操作系统的平台,因此形式所有实现方式中性能最好,使用范围最广泛的种;3、通过磁盘阵列之间的专用互连完成通信,因此不占用局域网资源。缺点:投资较大5.5.1灾难恢复系统硬件,软件配置说明我们推荐数据中心的中心磁盘阵列采用HP的高性能全光纤通道交换式结构的磁盘阵列XP512O为了

43、适应当前数据中心越来越明显的存储中心化趋势（即:存储作为整套系统的关键,各种平台的服务器作为存储的外设），XP512与传统的磁盘阵列相比已经不是单纯的硬盘堆叠,而是新一代的存储+服务器结构。无论从它的硬件结构还是直接运行在XP512上的多种多样的软件都可以明显的感觉到这一点。系统的数据存储在主中心存储磁盘阵列XP512中。同时在异地备份中心配置相同结构的存储磁盘阵列XPO由于HP9000小型机的容灾环境距离为!0公里左右,从数据复制的性能以及数据复制的完整性和一致性方面考虑,建议用户在主中心和备份中心之间构建单模光纤线路用于传输备份数据,并选用DWDM（密集波分复用）设备实现数据复制链

44、路的多路复用,从而提高数据复制的传输带宽,并改善远程数据传输性能。通过HP公司提供的灾难备份恢复软件（HP Continuous Access XP）可以自动实现主中心存储数据与备份中心数据的实时完整备份。在主数据中心,按照用户要求,还可以配置磁带备份服务器,用来安装HP备份软件Omniback II,以及Sure Store E磁带库。备份服务器直接连接到存储阵列和磁带库,控制业务系统的日常数据的磁带备份。为确保用户主数据中心的主机系统的负载分担,容错能力等功能,惠普公司提供了先进的,具有高度可靠性的群集结构。该结构可由两台或多台HP 9000/800系列高档服务器组成,并通过LAN

45、和共用硬盘构成协调、高效的群集结构。当Cluster中的某个节点出现异常（服务器硬件,系统软件,应用程序和局域网故障等）时,MC/ServiceGuard可以及时发现故障节点,自动将故障节点的当前应用系统迁移到其它正常节点中,使之继续进行正常的业务处理,并可自动隔离故障节点以便于技术人员的故障排除工作,从而消除核心业务系统中的单故障点。主数据中心的配置为:部件名称数量说明XP512 1 台:高速数据缓存44 块 X 4GB（每块）=8GB磁盘柜173GB光纤磁盘8822 组 X 4（每组）X 73GB=6424GBHOT SPARE 磁盘222 组 X 4（每组）X 73GB=6424

46、GB指令内存2主机接口卡2Command View XP1不依赖于平台的基于Web的控制管理软件LUN Configuration XP1LUN配置、管理软件存储光纤交换机2台:光纤端口24备份数据中心的配置为:部件名称数量说明XP512 1 台:高速数据缓存44 块 X 4GB（每块）=8GB磁盘柜173GB光纤磁盘8822 组 X 4（每组）X 73GB=6424GBHOT SPARE 磁盘222 组 X 4（每组）X 73GB=6424GB指令内存2主机接口卡2Command View XP1不依赖于平台的基于Web的控制管理软件LUN Configuration XP1LUN配置、管

47、理软件存储光纤交换机2台:光纤端口245.5.2 XP CA软件容灾原理(1)CA磁盘卷组CA的磁盘卷组由不同的XP磁盘阵列装置内或不同CLUSTER内命名为MVOL和R-VOL的2个逻辑磁盘卷构成。在具有CA磁盘卷组关系后,MVOL被称为主磁盘卷。MVOL可被读/写。RVOL(远程磁盘卷)被称为副磁盘卷。在XP磁盘阵列内部的控制装置的作用下,MVOL的内容和服务器来的写数据被拷贝到RVOL。CA卷组建立后,RVOL为只读磁盘卷。在个XP设备内部,既可有MVOL,也可有RVOL。这样可以实现双向的数据境像。MCU和RCUMCU(主磁盘控制器)和RCU(远程磁盘控制器)分别和MVOL,RVO

48、L相连,MCU控制由服务器来的写向MVOL的数据的写操作,还控制MVOL和RVOL之间数据拷贝的操作。并且提供CA磁盘卷组的状态和构成的管理。RCU执行由MCU发出的写命令操作。写操作的执行方法和执行服务器来的写操作过程相同。除此之外,RCU还具有管理一部分CA磁盘卷组的状态和构成信息的能力。对于任何个磁盘卷组,都需要定义MCU/RCU。个XP设备的磁盘控制装置在控制MVOL时,可作为MCU使用,当控制RVOL的时侯,又可作为RCU使用。(3)远程备份的连接MCU和RCU之间由专用光纤(ESCON)来连结。当光纤直联,不增加任何设备时,两台XP512之间最远可相隔3KMo在两台XP51

49、2之间加入ESCON的延长装置(ESCONDIRECTOR或REPATER)可使磁盘阵列间的距离最大延长至43KMO如果使用E3或ATM远程电信协议,在两台XP512之间将不会有距离的限制。加入ESCON延长装置的连接图如下图所示:I MCUTRCUi 0多模光纤最长3Km単模光纤可延长致20Km 9032AP033ESCON director 9036 ESCON lepeatex通过ESCON光纤通道,MCU和RCU可相互进行数据传送和控制命的传送。在构筑CA时,考虑到消除单点故障的引患,两台XP512之间的ESCON光纤最低需要2根。这样当根光纤出现意外不能使用时,利用剩下的根可完成

50、MCU和RCU间的通信。不至引起系统数据传输的中断。(4)Remote controlRemote Contro!可完成CA的构成设定,卷组的状态变更和表示。5.5.3高可靠性方案与高可用性方案的选择当主运用端发生不可恢复的数据损失后,远地备份中心的镜象磁盘卷RVOL里的数据与数据损失发生前的主中心磁盘卷M-VOL的一致性往往会决定系统损失大小以及把主应用恢复到正常状态所需时间。镜象卷组间数据完全一致时,只要将远地备份中心的数据拷回到主运用端起动修复程序便可恢复到正常业务处理。但是由于数据传输是通过ESCON及CNT进行,并且路径较远,链路的中断等原因都有可能造成镜象卷组间数据不完全一致

展开阅读全文