1、数据中心处理方案之灾备方案设计1.数据中心容灾备份处理方案伴随社会发展和科技进步,政府日常工作越来越依靠于数据处理来进行,政务系统连续性依靠于数据中心系统稳定运行。然而,灾难就像灰尘一样伏击在运行环境周围,政务系统数据中心可能正在一个充满风险和威胁环境下运行。假如不能对这些风险采取有效治理,一旦数据因为某种原因丢失,就很有可能对政府日常工作造成严重影响。假如关键数据丢失,将会使得一些关键功效陷入瘫痪,造成不可估量损失。所以,确保政务连续性和数据高可靠性和可用性,已经成为政府部门在数据中心建设中,必需要考虑问题。1.1灾备处理方案标准首先,在制订容灾系统方案过程中要考虑就是容灾系统建设对原有业务
2、系统带来影响。比如,采取数据复制技术对系统I/O带来延迟,应用数据同时对日常业务处理系统带来压力等。所以,企业要经过周密测试和分析来规避容灾系统建设时带来这些风险,以确保业务系统不会因容灾系统建设而出现在处理性能上下降问题。第二,数据状态要保持同时。为确保在灾难发生时,业务能够成功地切换到备份中心,就必需确保容灾系统数据同时机制可靠性。所以,建立可靠数据同时校验机制是必需; 同时,还要考虑建立定时、自动数据同时核查对比机制,以检验两个中心数据一致性,这是数据容灾工作中很关键一部分。第三,容灾系统日常维护工作要尽可能轻,并能负担部分业务处理和测试工作。容灾系统维护和管理是容灾切换成功关键确保,在
3、系统建设中,就必需要考虑系统维护管理步骤。生产中心任何业务处理过程改变全部必需完整地复制到备份中心; 全部新业务系统上线时,必需通知备份中心,并在备份中心配置好数据同时机制; 对原程序改动也必需确保两个中心同时上线。第四,系统恢复时间要尽可能短。容灾系统关键是为了实现在主中心系统发生灾难时,能够在要求时间切换到备份中心,确保数据不会丢失,而且继续向用户提供服务。但往往在灾难发生时,关键技术人员不能立即抵达现场,为了顺利实现系统间切换,应该让系统切换操作尽可能地简单; 并建立固定化、标准化切换步骤,要求维护人员在切换演练时严格根据步骤指导步骤进行操作。第五,可实现部分业务子系统切换和回切。当人事
4、变动、业务改变、IT设施改变和其它可能引发恢复计划文档失效改变发生时,应立即更新各恢复计划文档,并在必需时开启模拟测试或演练,确保业务连续性系统工作能力。第六,技术方案选择要遵照成熟稳定、高可靠性、可扩展性、透明性标准。现在,国际上比较成熟容灾技术包含: SAN/NAS技术、远程镜像技术、虚拟存放、基于IPSAN互连技术和快照技术等。其中基于IPSAN远程数据容灾备份技术应用比较广泛,其是利用基于IPSAN互连协议,将主数据中心SAN中信息经过现有TCP/IP网络,远程复制到备份中心SAN中。当备份中心存放数据量过大时,可利用快照技术将其备份到磁带库或光盘库。这种基于IPSAN远程容灾备份,能
5、够跨越LAN、MAN和WAN,成本低、可扩展性好。基于IP互连协议关键包含FCIP、iFCP、InfiniBand、iSCSI等。第七,构建系统方案能够选择多个技术组合方法。现在,业内应用较多容灾方案是基于智能存放系统远程数据复制技术,它是由智能存放系统本身实现数据远程复制和同时,即智能存放系统将对该系统中存放器I/O操作请求复制到远端存放系统中并实施。因为在这种方法下,数据复制软件运行在存放系统内,所以较轻易实现主中心和容灾备份中心操作系统、数据库、系统库和目录实时拷贝及维护能力,且不会影响主中心主机系统性能。假如在系统恢复场含有了实时数据,那么就能够做到在灾难发生时,立即开始应用处理过程恢
6、复。但这种方案也有开放性差(不一样厂家存放设备系统通常不能配合使用)、对于主、备中心之间网络条件(稳定性、带宽、链路空间距离)要求较苛刻等缺点。1.2灾备处理方案设计需要考虑原因1.2.1 RTO和RPORTO(RecoveryTime Object):是指灾难发生后,从IT系统宕机造成业务停顿之刻开始,到IT系统恢复至能够支持各部门运作,业务恢复运行之时,此两点之间时间段成为RTO。RTO是反应业务恢复立即性指标,表示业务从中止到回复正常所需要时间。RTO值越小,代表容灾系统数据恢复能力越强。多种容灾处理方案RTO有较大差异,基于光通道技术同时数据复制,配合异地备用业务系统和跨业务中心和备份
7、中心高可用管理,这种容灾处理方案含有最小RTO。RPO(Recovery Point Objective),是指从系统和应用数据而言,要实现能够恢复至能够支持各部门业务运作,系统及生产数据应恢复到怎样更新程度。RPO是反应恢复数据完整性指标,在同时数据复制方法下,RPO等于数据传输延迟时间;在异步数据复制下,RPO基础为异步传输数据排队时间。在实际应用中,考虑导数据传输原因,业务数据库和容灾备份数据库一致性(SCN)是不一样,RPO表示业务数据库和容灾备份数据库SCN时间差。发生灾难后,开启容灾系统完成数据恢复,RPO就是新恢复业务系统数据损失量。设计容灾系统不能只看RTO和RPO,对于不一样
8、业务系统和用户特殊要求,其它部分指标有可能成为选择容灾处理方案关键原因。比如,一些地域为了防范部分特定自然灾难风险,要求容灾备份中心和业务中心保持足够距离,在这种情况下,容灾备份中心和业务中心距离要求就是容灾系统关键指标。1.2.2数据安全数据完整性,一致性是确保业务连续关键。在当地,数据安全需要使用RAID技术来确保。在灾备方案设计中,数据复制方案设计是整个设计基础。现在业界主流数据复制技术有:基于数据库本身复制技术,基于操作系统数据复制,基于虚拟存放复制技术和基于存放复制技术。在方案所用技术选择时,应该依据用户预算,现场条件,综合来进行考量。后续在1.6.1数据同时章节,将会有这4类数据复
9、制技术综合对比,能够作为选择参考。1.2.3网络安全通信网络是容灾系统组成部分,通信线路质量也是容灾系统性能指标之一,其中包含网络数据传输带宽、网络传输通道冗余和网络服务商服务水平(网络年中止率)。假如容灾系统使用通信网络是确定,为了比较不一样容灾处理方案,能够用单位存放容量数据库在同一通信网络上数据完全恢复时间作为一项设计指标。1.2.4业务连续性业务连续性是灾备方案最终目标,是方案价值所在。为了确保业务连续,首先需要数据连续,之前我们讨论了数据安全相关内容。其次,在数据连续基础上,出现灾难时,系统需要能够满足(1)网络切换(2)应用切换。以此,来确保系统能够顺利切换到灾备地,继续安全运行,
10、最大化确保用户利益。1.3国家标准系统灾备等级划分及应对方法国家信息系统灾难恢复规范(GB/T 20988-)要求了六个等级容灾,下表分别针对每个等级给出了对应应对方法。等级内容方法Level6数据零丢失和远程集群支持实现远程数据实时备份,实现零丢失;应用软件能够实现实时无缝切换;远程集群系统实时监控和自动切换能力;Level5实时数据传输及完整设备支持实现远程数据复制技术;备用网络也含有字哦那个或集中切换能力;Level4电子传输及完整设备支持配置所需要全部数据和通讯线路及网络设备,并处于就绪状态;7*24运行;更高技术支持和运维管理;Level3电子传输和部分设备支持配置部分数据,通信线路
11、和网络设备;天天实现数次数据电子传输;备用场地配置专制运行管理人员;Level2备用场地支持预定时间调配数据,通信线路和网络设备;备用场地管理制度;设备及网络紧急供货协议;Level1基础支持每七天最少做一次完全数据备份;制订介质存取验证和转储管理制度;完整测试和演练灾难恢复计划;1.4容灾技术分析1.4.1备份方法(1)冷备份备份系统未安装或未配置成和目前使用系统相同或相同运行环境, 应用系统数据没有立即装入备份系统。一旦发生灾难,需安装配置所需运行环境,用数据备份介质(磁带或光盘)恢复应用数据,手工逐笔或自动批量追补孤立数据,将终端用户经过通讯线路切换到备份系统,恢复业务运行。优点:设备投
12、资较少,节省通信费用,通信环境要求不高。缺点:恢复时间较长,通常要数天至1周,数据完整性和一致性较差。(2)温备份将备份系统已安装配置成和目前使用系统相同或相同系统和网络运行环境,安装了应用系统业务定时备份数据。一旦发生灾难,直接使用定时备份数据,手工逐笔或自动批量追补孤立数据或将终端用户经过通讯线路切换到备份系统,恢复业务运行。优点:设备投资较少,通信环境要求不高。缺点:恢复时间长,通常要十多个小时至数天,数据完整性和一致性较差。(3)热备份备份处于联机状态,目前应用系统经过高速通信线路将数据实时传送到备份系统,保持备份系统和目前应用系统数据同时;也可定时在备份系统上恢复应用系统数据。一旦发
13、生灾难,不用追补或只需追补极少孤立数据,备份系统可快速接替生产系统运行,恢复营业。优点:恢复时间短,通常几十分钟到数小时,数据完整性和一致性最好,数据丢失可能性最小。缺点:设备投资大,通信费用高,通信环境要求高,平时运行管理较复杂。在计算机服务器备份和恢复中,冷备份服务器(cold server)是在主服务器丢失情况下才使用备份服务器。冷备份服务器基础上只在软件安装和配置情况下打开,然后关闭直到需要时再打开。温备份服务器(warm server)通常全部是周期性开机,依据主服务器内容进行更新,然后关机。常常见温备份服务器来进行复制和镜像操作。热备份服务器(hot server)时刻处于开机状态
14、,同主机保持同时。当主机失灵时,能够随时启用热备份服务器来替换。对于关键业务,Primeton提议采取同城热备异地热备方法进行布署,对于通常性业务,提议采取同城热备异地温备(应用不开启,数据保持异步复制)方法进行布署。1.4.2数据复制技术现在数据复制技术关键有以下表所列4种,基于红色字体部分要求,结适用户需要,Primeton推荐采取基于存放或基于应用程序数据复制技术来进行数据同时。存放系统数据复制操作系统层数据复制应用程序层数据复制基于存放数据复制虚拟存放技术基础原理数据复制过程经过当地存放系统和远端存放系统之间通信完成。复制技术是伴伴随存放局域网出现引入,经过构建虚拟存放上实现数据复制。
15、经过操作系统或数据卷管理器来实现对数据远程复制。数据库异地复制技术,通常采取日志复制功效,依靠当地和远程主机间日志归档和传输来实现两端数据一致。平台要求同构存放和平台无关,需要增加专有复制服务器或带有复制功效SAN交换机同构主机、异构存放和平台无关复制性能高高高较高资源占用对生产系统存放性能有影响对网络要求高对生产系统主机性能有影响占用部分生产系统数据库资源技术成熟度成熟成熟度有待提升,非主流复制技术。成熟成熟投入成本高,需要同构存放较高,需要专有设备较高,需要同构主机通常部分软件无偿,如DataGuard复制软件IBM PPRCEMC SRDFHP CA(Continues Access)H
16、DS TrueCopyBrocade Tapestry DMMUIT SVMEMC VSM原厂技术:IBM AIX LVMHP-UINX MirrorDiskSun Solaris SVM专业复制软件:Symantec SF/VVROracle DataGuardOracle GoldenGateDNT IDRDSG RealSyncQuest SharePlex1.4.3反复数据删除技术反复数据删除技术是指将存放系统中存在大量内容相同数据删除,只保留其中一份,从而缩减存放空间技术。在云灾备中,该技术既能大幅降低灾备中心存放数据量,降低灾备中心建设和运维成本,又能大幅降低数据备份和恢复过程中用
17、户和灾备提供商间数据传输量,提升备份和恢复性能,是一项十分关键技术。伴随灾备中心规模不停增大,存放数据量和访问量不停增加,单一节点上反复数据删除方法已不能满足性能和容量需求。除上述基础反复数据删除技术外,部分优化和改善技术对云灾备是至关关键,包含高性能、可扩展、分布式反复数据删除技术,和为提升灾备中心数据可靠性高可靠反复数据删除技术。1.4.4操作系统虚拟化技术 除了数据级灾备,还应提供系统级灾备。即在将数据复制到云端同时,也将受保护应用程序状态复制到云端,当灾难发生时能够立即切换到云端应用程序运行,确保业务连续性。系统级灾备是经过操作系统虚拟化和检验点实现。检验点用来捕捉进程某一时刻运行状态
18、,从而实现进程迁移。进程迁移既能够是用户应用程序进程到云灾备中心迁移,也能够是云灾备中心内部虚拟机池间进程迁移,以实现依据前端用户需求自动地调整灾备服务提供商有限硬件和软件资源,动态地、弹性反应前端业务对灾备需求。当程序因故障中止,假如不能保留其中间运行状态,恢复后从头运行将会带来极大消耗。检验点技术能够处理这个问题。经过保留各个进程运行状态,恢复时能够复原到最近一次保留数据映像。传统检验员机制是基于库检验点机制。比如以静态库形式实现,或经过加载动态链接库来追踪程序运行过程中数据改变。也有部分检验点机制实现于内核等级甚至硬件等级。比如经过在文件系统层之上引入一个中间层来实现保留文件系统状态检验
19、点机制;或借助Fuse内核模块实现支持检验点机制文件系统,经过Fuse侦测、拦截内核等级文件系统操作并将控制权传输给用户,从而能够在用户空间对文件系统状态进行保留。伴随操作系统虚拟化技术发展,基于虚拟容器检验点技术也得到了很好应用。虚拟容器是经过系统虚拟化技术构建出来一个进程运行较独立上下文环境。虚拟容器检验点技术能够有效保护容器内运行应用程序和服务而不需要对应用进行修改。1.5总体架构设计1.5.1Primeton“两地三中心”容灾处理方案架构设计结合多年中国出现大范围自然灾难,以同城双中心加异地灾备中心“两地三中心”灾备模式也随之出现,这一方案兼具高可用性和灾难备份能力。1.5.1.1“两
20、地三中心”当地高可用和容灾保护策略(1)当地保护策略: 当地高可用 当地clone 连续数据保护 B2DBVTL 磁带备份 Archive Log备份(2)容灾保护策略 应用级或数据级容灾 同级容灾、降级容灾 同时数据保护异步数据保护 容灾数据复制技术 主备中心运行方法双主中心运行方法多中心运行方法 短、中、远期容灾策略1.5.1.2“两地三中心”功效定位生产中心同城备份中心异地灾备中心生产生产(双活或热备)生产备份备份备份灾备灾备灾备开发监控测试测试监控监控管理管理同城双中心是指在同城或邻近城市建立两个可独立负担关键系统运行数据中心,双中心含有基础等同业务处理能力并经过高速链路实时同时数据,
21、日常情况下可同时分担业务及管理系统运行,并可切换运行;灾难情况下可在基础不丢失数据情况下进行灾备应急切换,保持业务连续运行。和异地灾备模式相比较,同城双中心含有投资成本低、建设速度快、运维管理相对简单、可靠性更高等优点。异地灾备中心是指在异地城市建立一个备份灾备中心,用于双中心数据备份,当双中心出现自然灾难等原所以发生故障时,异地灾备中心能够用备份数据进行业务恢复。1.5.1.3“两地三中心”容灾架构设计逻辑架构模型设计:物理架构设计:方案特点: 同城范围有效确保了数据安全性和业务连续性; 异地复制数据依据灾难情形,尽可能降低数据丢失机率; 同城双中心为同时复制,数据实时同时,RPO=0; 异
22、地无距离限制,确保数据一致性,确保了数据有效保护; 异地容灾带宽要求低,优异复制机制提升带宽利用率。对于当地本级备份,应建立在线、近线、离线等多级存放备份系统,充足利用优异备份手段和备份策略,形成完整当地备份管了处理方案;备份数据包含操作系统、数据文件和应用服务环境等多个方面;日常访问关键数据采取磁盘或虚拟带库方法备份,归档数据和非关键数据采取磁带库方法备份;关键数据应最少确保每七天做一个全量备份,平时做增量备份。对于数据级异地灾备中心,选址上,应进行风险分析,避免异地备份中心和主中心同时遭受同类风险;网络备用系统上,必需在关键网络层面实现热备,确保灾备中心区域内通信可靠性;数据备份系统上,主
23、中心和备份中心备份链路应有冗余,并确保2小时内将主中心增量数据复制或备份到灾备中心;数据处理备用系统上,配置灾难恢复所需全部数据处理设备,并处于就绪状态或运行状态,和主中心共同负担部分关键应用查询服务功效。对于同城应用级灾备中心,选址上,主中心和同城灾备中心距离应小于100KM;网络备用系统上,在关键网络层面实现热备,主中心和应用级灾备中心间经过裸光纤互联或VPLS互联,布署TRILL构建大二层网络,满足虚拟化需求;网络负载均衡上,主中心网络和灾备中心网络负载均衡,提升灾备网络利用率和灾备网络可用性,正常情况下数据流同时使用两个中心网络,主中心网络出现故障时,则全部数据流向灾备网络;应用集群切
24、换上,关键业务系统集群实现手动切换,主中心和同城灾备中心之间建立高可用性监控技术,实现灾备中心应用服务器集群和主中心生产服务器集群之间高可用性切换;云计算技术采取上,采取虚拟化技术对同城灾备中心进行计划建设,同时,依据业务关键程度、对性能要求,系统平台选择不一样档次和不一样平台主机资源池、存放资源池。1.5.2基于不一样服务需求选择不一样可靠性“两地三中心”架构1.5.2.1服务等级划分可靠性服务等级tier1tier2tier3tier4服务内容关键任务服务,需要最高等级可靠性。高端技术和工具将会被用来满足最高等级可靠性。假如丢失一个组件,如服务器,一块存放,或一个通信链接,全部将会造成服务
25、不可靠。每个应用和基础服务全部会制订性能指标。这些指标全部将会被监控,并会经过业务支持步骤以特定格式输出。这个site不仅仅包含基础架构组件。关键业务服务运维和tier1一样,不过一些限制非可靠等级服务能够容忍短时间不可恢复影响。高端技术和工具将会尽可能(略低于tier1)被用来满足最高等级可靠性。系统设计和指导里面必需包含没有单点故障。高端技术和工具将会尽可能(略低于tier1和tier2)被用来满足最高等级可靠性。许可有多个单点故障。仅仅在计划上有部分伸缩性。没相关键服务运行,运维和支撑只要能够在一个能够接收范围内即可。关键指标99.99%可靠性,数据中性能够切换,厂家支持(小于2小时响应
26、时间),硬件容错性,没有单点故障,N+1,数据中心切换选择,硬件冗余99.5%可靠性,数据中性能够切换,厂家支持(小于4小时响应时间),硬件含有容错性,没有单点故障,N+195%可靠性,数据中性能够切换,厂家支持(小于二十四小时响应时间)没有可靠性确保,最低等级支持分钟宕机/月4.32216.002160.001.5.2.2 Primeton通用基于服务“两地三中心”架构1.5.2.3 Primeton基于不一样服务质量,达成不一样等级整体可靠性(tier)(1)场景1主环境图中A所表示,包含了数据库,应用,Web三层服务结构,当地高可用环境P作为同城备份站点,复制100%A中Web服务,10
27、0%A中应用在线服务,100%A中OLTP事务,异地在数据库/应用Web层均复制75%A中服务。那么这套方案整体可靠性将会达成99.999%。(2)场景2主环境图中A所表示,当地高可用环境P复制100%A中Web服务,100%A中应用在线服务,异地在数据库/应用Web层均复制75%A。那么这套方案整体可靠性将会达成99.99%。(3)场景3主环境图中A所表示,当地高可用环境没有即没有同城备份站点,异地在数据库/应用Web层全部有一个能够接收备份(非和A环境100%相同)。那么这套方案整体可靠性将会达成99.70%。(4)场景4主环境图中A所表示,当地高可用环境没有即没有同城备份站点,异地采取冷备方法,仅仅在发生灾难时候采取方法 。那么这套方案整体可靠性只有99.00%。