资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,清华,-,威视,数据安全研究所,清华大学信息技术研究院,清华,-,威视数据安全研究所,六月 25,灾难恢复,从技术到管理,侯海波,内容,灾难恢复管理概述,概念、背景、价值、,灾难恢复技术概览,高可用性、备份、复制、远程集群,持续数据保护、其他关键技术,灾难恢复实施概述,管理体系要素,项目实施过程,一、灾难恢复管理概述,灾难恢复,“,将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态的活动和流程,”,。,重要信息系统灾难恢复指南,,,2005,年,4,月,国信办,灾难恢复管理,利用技术、管理手段以及相关资源,确保已有的关键数据和关键业务在灾难发生后在确定的时间内可以恢复和继续运营的过程,是一项集技术和管理于一体的系统工程。,高度依赖,业务系统对信息技术的依赖性越来越强,无论是政府部门、企业还是个人,信息系统停机往往导致业务中断,信息数据已成为企业的生命源泉,同时,信息系统的复杂性带来更大的脆弱性,越来越多的漏洞,风险变大,调查显示,20%,的企业平均每五年就会遇到影响公司运营的意外情况,越来越多的威胁,自然风险:地震、火灾、水灾、气象、疾病、战争、,人为风险:错误操作、黑客攻击、病毒发作、员工恶做、,技术风险:设备失效,软件错误,通讯中断、电力失效、,最近事件,美国,911,事件、中国,“,非典,”,疫情、印度洋海啸、,莫斯科大停电、伦敦地铁爆炸、,后果严重,美国明尼苏达大学:,如果在发生灾难后的两个星期内,无法恢复公司的业务系统,,75%,的公司业务将会完全停顿,,43%,的公司将再也无法开业,IDC,统计:,美国在,2000,年以前的十年间发生过灾难的公司中,有,55,当时倒闭,剩下的,45,中,因为数据丢失,有,29,也在两年之内倒闭,生存下来的仅占,16,。,Gartner Group,:,在经历大型灾难而导致系统停运的公司中有,2/5,再也没有恢复运营,剩下的公司中也有,1/3,在两年内破产。,业务,每小时停机损失,证券经济类,645,万美元,信用卡销售授权,260,万美元,航班预售,9,万美元,ATM,服务,1.5,万美元,突发事件造成的行业服务损失情况数据来源:,Strategic Research Corporation,最后防线,传统信息安全技术无法抵御大的,风险和威胁,例如地震、洪水、战争等等,传统信息安全技术对付传统风险具有局限性,病毒、黑客攻击等造成的业务中断,时间可能过长,导致需要切换,保险无法保证企业的生存,无法找回用户数据。尽管可以挽回部分损失,信息安全概念也在不断发展,COMSEC,(保密,通信保密),INFOSEC,(保护,保密性,/,完整性,/,可用性),IA,(保障,,PTO*PDRR*),实施价值,减少风险损失,2000,年,2,月,7,日美国,8,大知名网站瘫痪损失,12,亿美元,ebay,:,1999,年,6,月,12,日,:22,小时故障,损失,:$3M-5M+26%,股票市值损失,AT&T,:,1998,年,4,月,13,日,:6-26,小时故障,损失,:$40M,用于折扣,确保持续发展,9.11,生存启示(,1200/400/6%,),满足商业需要,服务于全球客户的复杂性,以及消费者的高期望值,据介绍是否引入有效的,BCM,机制,已经成为一些发达国家政府机构与企业选择合作伙伴或供应商的一个必要条件,已经成为现代企业的管理战略之一,Meta,预测:在全球大公司中用于灾难恢复管理的投入从,4%,上升到,7%,灾难恢复,-,未来法规遵从的要求,法规遵从,法律的高度的要求,2004,年,国际,“,法规遵从年,”,国际,超过,16000,部法规,沙宾法案,Sarbanes-Oxley Act,、全美证券交易商协会行为规定(,NASD 3110,),美国健康保险便利和责任法案(,HIPAA,)、联邦条例,21CFR,第,11,部分,FDA,、,NYSE,、,AMEX,、,FERC,、,国内,国家信息化领导小组关于加强信息安全保障工作的意见,(,中办发,200327,号,),关于做好重要信息系统灾难备份工作通知,(,信安通,200411,号),重要信息系统灾难恢复指南,(,2005.5.26,广东南海),二、灾难恢复技术概览,高可用性技术,数据备份技术,数据复制技术,远程集群技术,持续数据保护技术,其他关键技术,系统停机原因及防护技术,时间点复制,备份,数据仓库,远程备份,远程复制,系统热备,高可用性技术,磁带备份,数据复制,时间点复制,人为过失,32%,计算机病毒,7%,硬件或系统故障,44%,站点灾难,3%,软件故障,14%,时间点复制,备份,灾难恢复技术思路,-3R,冗余性(,Redundancy,),灾难恢复实现的基础,可恢复性(,Recoverability,),确保冗余的内容能在灾难发生后可以使用,远程性(,Remoteness,),确保能够抵御灾难的影响,高可用性技术,设备冗余技术,路径冗余技术,系统冗余技术,技术特点:,减少停机时间,保护内容全面,本地的保护措施,基础容灾技术,切换是关键,SAN Fabric,数据备份技术,Host-Based,备份架构,LAN-Based,备份架构,LAN-Free,备份架构,Server-Less,备份架构,Zero-impact,备份架构,相关技术,数据恢复,备份策略,虚拟磁带库,压缩技术,技术特点,数据剥离,-,离线,可以抵御逻辑错误,抵御大灾难需要,远程备份或传输,适合业务,对数据丢失不敏感,对应用停机不敏感,其他容灾技术的基础,LAN,NT,UNIX,存储区域网,数据复制技术,基于存储子系统数据复制,基于存储网络层数据复制,基于卷管理器数据复制,基于应用数据复制,技术特点,数据在线状态,需要配合时间点技术抵御逻辑错误,抵御大灾难需要,远程数据传输,适合业务,数据很重要,远程应用集群基础,远程集群技术,主要技术架构,1,1,或,N,1,OS,Based,或,Application,Based,全冗余架构实现集群,冗余服务器、冗余应用、冗余信号传输路径、冗余数据访问路径、,切换是关键,应用切换,数据切换,访问地址切换,保护应用的运行状态,持续数据保护技术,“,持续数据保护是一套,方法,,它可以,捕获或跟踪,数据的变化,并将其在生产数据之外,独立,存放,以确保数据可以恢复到过去的,任意时间点,。持续数据保护系统可以基于块、文件或应用实现,可以为恢复对象提供足够细的,恢复粒度,,实现几乎无限多的恢复时间点,”,SNIA-DMF-CDP,(,SIG,),数据丢失量少,抵御逻辑错误,更容易恢复,备份窗口小,主机影响小,DR,技术比较,保护方式,数据丢失量,(,RPO,),系统恢复时间(,RTO,),高可用性,减少停机时间,本地、需要配合其他技术实现灾难恢复,备份,/,恢复,离线数据,周,天小时,周天小时,复制,/,恢复,在线数据,分钟秒,天小时,全局集群,在线数据和系统,分钟秒,小时分钟秒,持续数据保护,在线数据,分钟秒,小时分钟秒,三、灾难恢复实施概述,管理体系,建设过程,最佳实践,相关标准,Process,People,Product,Plan,需求分析,确定策略,编制计划,测试部署,维护更新,项目启动,实施建设,技术决策,最佳实践,成本决策,目标,政策,法规遵从,管理,现状,管理体系,建设过程,可用技术,灾难恢复管理体系模型,Process,People,Product,Plan,管理体系要素,-,流程(,Process,),日常维护和预警,应急响应、评估与声明,业务紧急接续、过渡期处理,重新安置及启动,按照规范和最佳实践:,预防灾难,降低风险发生的概率,高效行动,降低灾难造成的损失,管理体系要素,-,团队(,People,),领导组,业务恢复操作组,技术功能操作组,外部协调和联系人员,设备和软件供应商联系人,外部协作机构,人是流程的执行主体和关键因素,合理架构、职责、人选、后备、培训、管理,管理体系要素,-,设施和技术(,Product,),设备,包括能够保证数据恢复和业务运行的信息系统基础设施,主机、网络、卡车、打印机、,场地,指挥、发布、系统、办公、,冷场地,/,温场地,/,热场地,/,移动场地,/,商业场地,/,技术和方案,高可用性技术,数据备份与恢复技术,数据复制和迁移技术,远程集群技术,其他关键技术,技术决策要素:,RTO,、,RPO,、保护距离、,TCC,、保护对象、,管理体系要素,-,计划(,Plan,)(例),目标和范围,组织和职责,联络与通讯,紧急响应流程,恢复及重续运行流程,灾后重建和回退,保障条件,附录,简明扼要,灾难恢复建设建设过程模型,风险分析和,BIA,确定策略,编制计划,测试部署,维护更新,项目启动,实施建设,实践考虑,时间,$,t,0,业务成效,解决方案成本,t,1,$,1,t,1,=,恢复时间目标,(RTO),实践考虑,自建灾难恢复中心:,模式,1,:本地站点生产,远程站点开发和测试,模式,2,:在远程站点进行磁带备份,无需运送磁带,模式,3,:在各站点间平衡应用负荷,模式,4,:在远程站点设置数据仓库并提供决策支持,等等,服务外包,专业规划、能力维护、测试演练、,SHARE78,模型,Tier7-,接近零或是零数据丢失,远程数据镜像,并且业务环境可进行高自动化的业务接管,Tier6-,接近零或是零数据丢失,远程数据镜像保证数据的完整性和一致性,Tier5-,软件级的,两地点,-,两阶段提交(交易完整性),Tier4-,批量,/,在线的数据库镜像或日志的传输,或重复的时间点拷贝,Tier3-,电子链接传输,Tier2-PTAM,卡车运送,+,热备份站点,Tier1-PTAM,开车运送访问,专门的远程灾备中心,可用的备份中心,时间点备份,15,分钟,1-4,小时,4-8,小时,8-12,小时,12-16,小时,24,小时,好几天,恢复需要的时间(,RTO,),费用,重要信息系统灾难恢复指南,用,户,灾,难,恢,复,系,统组成,数据备份系统,灾难恢复预案,备用网络系统,备用数据处理系统,备用基础设施,技术支持能力,运行维护管理能力,谢谢,欢迎交流,清华,-,威视数据安全研究所,侯海波,houhaibo,
展开阅读全文