资源描述
云平台存储中的应急演练与管理
信息系统的应急演练是实现企业验证业务连续性能力、组织、预案、团队能否满足既定目标的最佳方式。随着云计算技术的推广,云平台存储逐渐成为一种有效解决企业海量数据存储和管理问题的方式,但相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。因此本议题将重点从云平台存储架构与传统IT架构应急演练的区别入手,列举云平台存储常见的故障场景,并分析如何针对各类场景更有针对性地制定应急演练计划。
云平台存储中的应急演练与管理如何开展?
社区专家主张邓毓 江西农信运维技术经理:本议题主要由某金融科技公司资深集成工程师孙伟光、某国有银行系统架构师珺祎两位专家针对议题下的关键点进行主张,两位专家的主张在经过我本人、某金融科技公司高级技术主管张鹏、某股份制银行运维工程师陈宇的复议后,最终形成了一定共识供同行参考。
孙伟光 某金融科技公司资深集成工程师:
灾备系统的核心就在于使用各种技术和管理手段将灾难化解,在实践中主要表现为两个方面:一是保证企业数据的安全;二是定期开展业务连续性应急演练。
越来越多的人已经习惯于工作、生活在基于IT系统的支持环境中,任何关键信息系统运转的中断或者数据的丢失都将导致不可估量的损失。如何才能保证尽量减少企业数据的丢失、将危险与灾难的损失降低到最小程度呢?这就需要建立应急灾备系统。灾备系统的核心就在于使用各种技术和管理手段将灾难化解,在实践中主要表现为两个方面:一是保证企业数据的安全;二是定期开展业务连续性应急演练,对于IT运营者如何应对在突发事件下开展应急演练是摆在决策者面前的一项新的挑战。
存储系统常见灾备恢复策略(如图 1)
图1:生产业务灾备保护策略
生产环境选择存储数据保护策略往往与选择的灾备技术路线息息相关,通用的存储灾备技术路线基本原则:采用技术成熟可靠的产品;采用技术能满足具体业务RTO、RPO要求,并能适应传输网络带宽要求(带宽估算公式为:传输数据量/数据收集时间*RPO*高峰调整因子*压缩比*8 /有效传输带宽比)。采用的技术简单实用,避免管理的复杂化,最好是采用平台级的技术,能够适应各种不同应用类型。
生产中心业务系统应用程序备份策略:生产业务系统主备中心部署的系统应用程序配置同步部署,灾备中心应用程序同步通过手工操作与变更管理方式控制,保持生产和灾备中心核心业务系统应用程序的同步管理。
生产中心核心应用系统本地数据备份策略:生产中心通过集中备份软件将业务系统数据备份至本地带库设备(每日备份频率:6-12个小时/次)
灾备中心生产业务系统数据恢复策略:当生产业务系统发生灾难性中断,且进行生产业务系统主备数据中心切换,由灾备中心生产系统灾备端恢复正常的业务应用,当主生产中心生产业务系统恢复正常后,由灾备端灾备存储设备向生产中心生产业务系统存储设备,启动反向存储数据镜像数据备份传送,实现生产和灾备中心重要生产业务系统的数据一致性,实现生产业务系统的数据恢复目标,对生产业务系统进行应急切换,恢复主生产中心生产业务系统对外业务正常运行。
应急演练目的和总体原则
通过应急演练不仅要检验灾备恢复流程的有效性,而且要验证灾备系统是否能够实现正常的切换和回切,确保灾备系统的可用性,培训相关操作人员。
启动灾备中心接管业务时,验证灾备系统是否可达到预定的目标。
总体原则是首先确保不能对生产系统的安全稳定运行造成影响,对此需要遵循风险可控的原则,对于实战切换演练,由于需要业务系统切换到灾备系统上运行,因此在整个实战演练过程中,始终坚持风险可控、影响最小、确保安全的原则。
应急演练三种方式介绍(如图 2)
图2:应急演练的三种方式
桌面演练是最基础的灾备演练方式,桌面演练工作量小,易于实施,可以根据实际需求灵活开展,并可以模拟多个场景,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配和等方面的综合能力。模拟演练以桌面演练结果为基础,模拟演练是一种对现有生产环境没有影响的演练方式,由于需要虚拟出较为真实的使用场景,因此在技术上的要求较高。实际演练是在具体设定的灾难场景下,将业务切换到灾备中心及业务恢复环境,并在完成数据、应用及业务恢复后由灾备系统提供对内对外的业务服务。
应急演练总体流程介绍
下图(图3)为应急演练总体步骤及流程,主要分为演练准备阶段、演练切换阶段、演练回切阶段各操作步骤。
图3:应急演练总体步骤及流程
传统模式下与云环境下演练特点与区别
传统灾备中心应用和数据的部署模式会遵循生产端的架构,并配置不高于生产端一半的资源。在生产中心使用300台服务器作为应用服务器,30台服务器作为数据库服务器;灾备中心也用类似的部署模式,只是服务器数目或者配置减半。这种方式容易实现,但带来的其他问题是灾备中心设备资源使用率很低,并长时间闲置。生产中心扩容时,容灾中心也需要进行扩容以保持相应比例的计算资源,导致更低的整体资源使用率,灾备中心配置较低,应用全面接管时性能会有损耗(如图4)。
图4:传统数据中心灾备典型架构
随着云计算和容器技术广泛应用,越来越多的用户开始考虑将应用集中化灾备,建设私有云基础架构或者采购公有云服务,整合大规模应用服务器,实现生产中心-云中心应用版本统一发布,降低灾备云中心初始配置,提高资源使用效率,快速激活额外处理器资源,全面接管生产中心业务(如图5)。
图5:云环境数据中心灾备典型架构
传统模式下与云环境下演练过程区别总结如表1所示。
表 1:传统架构与云架构在灾备建设和演练过程的区别
随着监管要求的提高以及企业本身对于业务连续性的要求越来越高,很多企业在未来需要常态化定期开展灾备环境应急演练,满足监管需求,提升自身IT服务水平。通过应用灾备自动化管理平台,实现企业多中心灾备管理自动化的核心需求,提升可视化,满足IT决策管理需求,通过一键切换演练缩减RTO,减少人为操作过程中出错概率,降低运行维护成本,实现灾备切换过程的自动化、可视化、可配置与记录,满足监管与审计要求。
珺祎 某国有银行系统架构师:
云平台存储的应急切换演练能够显著减少和预防企业在云架构模式下发生安全事件,在当下数字化转型时代逐步会成为构建业务连续性方面需要考虑的重要环节。
俗话说,“光说不练假把式”。IT系统的应急演练是实现企业验证业务连续性能力、组织、预案、团队能否满足既定目标的最佳方式。随着云计算技术的推广,云平台存储逐渐成为一种有效解决企业海量数据存储和管理问题的方式。但相比于传统架构成熟的应急处置体系,业界关于云平台存储开展应急演练和管理方面则稍显欠缺。以下内容将进一步梳理云平台存储应急演练与传统IT架构的区别,列举云平台存储常见的故障场景,并分析如何针对各类场景更有针对性的制定应急演练计划。
一、居安思危,云平台存储的应急演练缺失之殇
云平台存储能够对企业日常生产过程中产生的不同类型非结构化数据进行统一存储和管理。企业可选择相应类型的云平台存储(包括文件存储、对象存储、块存储等),并利用分布式存储架构所提供的软件即存储能力,构建具有高可用特性的企业云服务的基础存储服务层,为云上各类的微服务应用提供云存储和云共享服务。可以说云平台存储的底层架构设计比传统存储更加关注数据和服务的持久性和高可用性,不仅为上层应用提供了更为灵活的软硬件一体化部署模式,同时也兼具更加健壮的高可用模式。
但很多企业没有针对云平台存储形成一整套成熟的应急演练机制,大多数应急方案仍然是针对传统存储架构所设计的。云平台存储在开展应急演练和容灾管理方面,应更加关注弹性云计算资源、云硬盘设备、分布式存储设备等服务。
但是在开展应急演练方面和管理方面,则需要基于现有云上的业务策略,按需配置云存储的保护实例,并通过存储同步复制技术、磁盘映射技术、数据缓存冗余等技术构建云存储的高可用性,为业务提供数据的可靠性以及业务连续性。在演练过程中,通常是将云存储弹性云服务器的数据、配置信息复制到容灾站点,并支持应用所在的服务器停机期间从另外的位置启动并正常运行,从而提升业务连续性。相比于传统存储,基于云平台存储的容灾方式,能够更好的降低容灾建设成本。
二、有备无患,云平台存储应急演练中的常见问题分析
相比于传统存储较为成熟的应急预案、流程,针对云平台存储的应急演练进行测试和评估,则可发现大多存在如下问题:
1. 缺乏针对云平台存储的演练标准体系
由于基于云平台存储的业务平台,采用分布式计算机存储系统,天然形成了数据冗余存储、具有自动恢复机制,提高了存储数据抵抗外界诸如硬件故障、单台存储设备故障等不可抗风险。因此,在构建基于云架构的演练标准体系方面,缺乏了应有的关注。
笔者认为构建基于云平台存储的演练体系应至少应包括:
1)明确云平台存储突发事件应急各环节中的角色和责任,提高云平台存储各项响应和操作能力; 对存储的运维也从硬件层面转变为对应用和微服务的支撑。
2)构建云平台存储应急演练手段技术体系,利用真实可模拟的微服务存储故障等突发事件应急环境,增强参演人员的心适应能力和调整能力。
3) 明确云平台存储在应急演练各环节关键的功能要素,包括SSD云盘的IOPS、吞吐量和访问时延。并据此从定性和量化两个方面构建科学的演练效果评估指标体系;
2. 缺少以云原生视角去拓宽演练领域的思路
分布式云存储日益复杂,但是业内普遍缺乏以云原生视角去扩展演练领域的思路,仅仅是按诸多传统架构中不存在的不确定因素。比如,机器高负载、网络异常、磁盘 IO、节点调度等故障,以及云平台自身的资源、应用服务、容器以及基础设施各环节导致的问题。
笔者认为以云原生视角拓宽演练领域至少应该包括如下颗粒度。其中,以下几项尤为重要:
1)评估IaaS层、PaaS层是否健壮:模拟云存储不可用,验证系统的容错能力、测试调度任务是否自动迁移到可用节点。
2)衡量容器及微服务的容错能力:查看发生故障的节点或实例是否被自动隔离、下线,流量调度是否正确,预案是否有效,同时观察系统整体的QPS或RT是否受影响。
3)验证容器编排配置是否合理:模拟杀服务Pod、杀节点、增大Pod资源负载,观察系统服务可用性,验证副本配置、资源限制配置以及Pod下部署的容器是否合理。
4)验证监控告警的时效性:对系统注入故障,验证监控指标是否准确,监控维度是否完善,告警阈值是否合理,告警是否快速,告警接收人是否正确,通知渠道是否可用等,提升监控告警的准确和时效性。
三、战时心不慌,梳理云存储应急预案场景
针对不同类型的云存储类型及故障场景建立不同的应急预案
场景一:块存储集群中,单台设备故障无法正常使用
使用技术:备份一体机 DP 进行恢复
RPO =1Day (可恢复 1 天前的备份副本);RTO = 2-3Hour(200G 数据需恢复需10Min)。
业务恢复步骤:选择存储卷及备份副本,完成云存储及业务恢复。
场景二:文件存储中的部分非结构化数据被误删除或丢失
使用技术:备份一体机 DP 进行恢复
RPO =1Day (可恢复 1 天前的文件);RTO = 30Min-2Hour(200G 数据需恢复需10Min)。
业务恢复步骤:选择虚拟机及备份副本,确认丢失文件的路径,选择恢复的目标,完成丢失文件的恢复。
场景三:对象存储损坏或丢失
使用技术:备份一体机 DP 进行恢复
RPO =1Day (可恢复 1 天前的文件);RTO = 30Min-2Hour(200G 数据需恢复需10Min)。
业务恢复步骤:选择数据库副本文件进行数据恢复,恢复后确保数据完整性及数据库可用性。
场景四:核心业务系统发生宕机无法快速恢复
使用技术:通过 RP 技术进行恢复
RPO = 30sec ;RTO = 5min。
业务恢复步骤:选择相应的时间点,进行容灾切换,将备机直接开启,并确认业务是否可以使用。
云平台存储的应急切换演练能够显著减少和预防企业在云架构模式下发生安全事件。在当下,数字化转型时代逐步会成为构建业务连续性方面需要考虑的重要环节。然而与IT传统架构在应急演练方面的所具备的成熟体系和经验相比,在云架构模式下,对云平台存储的应急演练起步较晚且存在诸多不足,亟需从标准体系、演练领域、演练流程、演练形式、人才等角度进行完善、创新。
结束语
在开展云平台存储应急演练和管理方面,需要基于现有云上的业务策略,按需配置云平台存储的保护实例,并通过存储同步复制技术、磁盘映射技术、数据缓存冗余等技术构建云平台存储的高可用性,为业务提供数据的可靠性以及业务连续性。同时可通过灾备自动化管理平台的一键切换演练能力来缩减RTO,同时减少人为操作过程中出错概率,降低运行维护成本,实现灾备切换过程的自动化、可视化和可配置化。
-全文完-
展开阅读全文