1、系统应急预案82020年4月19日文档仅供参考 系统应急预案 7月系统名称涉及部门财务部涉及人员及联系方式及职责人员名称人员所在单位人员联系方式预案事件描述:调整失败,可能涉及如下情况:1) 系统崩溃: 系统出现重大故障是指所有的客户端程序都不能正常连接到服务器,任何合法的系统用户都无法正确登录系统,甚至于系统完全崩溃;2) 数据丢失: 系统数据丢失状态,如数据库服务出现故障,用户数据丢失,公司现有技术手段无法恢复;3) 服务停顿: 系统服务停顿状态,如系统由于不明原因导致大规模用户无法使用,服务停顿。4) 接口无法正常调用:系统无法正常调用财务管控接口(财务管控接口、ERP RFC接口、ES
2、B)。预案处理要求1) 系统崩溃:停止系统后台服务,防止不知情用户继续投递数据。抓取并保存系统出错信息及日志文件,简单判断异常部位,通知相关人员到岗,保留现场,分析查找原因。2) 数据丢失:停止服务和后台数据库服务,将剩余用户数据进行备份,抓取并保存系统出错信息及日志文件,通知相关人员到岗,保留现场,分析查找原因。3) 服务停顿:联系网络管理人员、通知相关人员到岗,从网络和系统两个方面分析查找服务停顿原因。4) 接口无法正常调用:联系相关接口服务提供方,确认服务是否正常。注:对故障进行快速处理及归档,争取每次故障修复时间控制在两小时以内。演练要求1. 对在线系统不造成影响2. 在主要系统管理员
3、人员变更和服务器、操作系统、主页发布软件发生变更时要进行演练。3. 演练前应填写工作单,并对系统做全备份。4. 演练结束形成演练总结报告。预案流程说明一、事件报警与确认:系统人员在对系统进行调整的过程中发现公司系统运行中的异常及其它故障。由运维人员首先确认系统是否发生重大故障,及时通知相应管控经理及信通公司相应负责人,启用预案。二、系统发生重大故障时,保护故障现场:必须及时采取以下措施,通知系统运维人员及时到场1. 保证服务器不再有任何人进行任何操作2. 通知所有使用系统的人员暂停对系统的登录三、分析故障原因:1.操作系统级应急预案1)操作系统异常问题原因:由于操作系统自身服务崩溃或系统组件冲
4、突,服务器操作系统无法正常运行,部署在此操作系统上的应用服务器受此影响无法正常启动及运行,服务崩溃。应急预案:联系操作系统服务商进行系统恢复,解决系统组件冲突。操作步骤:按照当地科信部门或系统运维部分相关操作步骤进行。 2)磁盘空间不足问题原因:由于SAP CE服务器及对应的Oracle服务器自动归档备份功能开启,会造成备份文件逐步增加,文件累计达到一定数据大小后,导致系统磁盘空间不足,引发服务器各项服务组件无法正常运行,服务崩溃。应急预案:(1)删除SAP CE自动备份文件。进入SAP CE服务器自动备份文件保存目录,保留最近的2个备份版本,删除其余备份文件。 (2)删除Oracle归档日志
5、。进入Oracle归档日志目录,保留最近1个月的归档日志备份,删除其余备份。如经过以上方式3仍无法释放磁盘空间资源,则需要进行服务器存储空间扩容。具体方案依据当地服务器硬件升级操作方案处理。操作步骤:(1)登录服务器,检查各分区磁盘剩余量。若剩余量低于10%,需要进行备份及归档文件清理操作。 (2)进入SAP CE服务器文件备份目录,检查备份文件状态,若备份文件过多,可考虑删除最近2个备份版本之前的其余备份文件。 (3)进入Oracle归档日志存储目录,检查归档日志状态,若归档日志过多,可考虑删除1个月之前的归档日志文件。 (4)若服务器中,SAP CE备份及Oracle归档日志文件数量均不大
6、,但服务器存储资源不足,可申请当地运维支持检查服务器上文件系统,删除非系统必须文件。 (5)以上操作仍无法解决磁盘空间不足问题,则按照当地服务器硬件资源升级操作流程进行处理。3)磁盘读写保护异常问题原因:由于操作系统安装了磁盘读写控制软件,或是系统还原配置不正确,会导致系统所在应用服务器无法实现对底层文件系统的读写访问,造成依赖于文件读写服务的组件功能无法正常运行,服务崩溃。应急预案:(1)修改磁盘读写控制软件对SAP CE平台服务器的权限控制 (2)调整系统还原配置参数,将其置为正确的配置操作步骤:(1)申请当地运维支持,检查是否安装了磁盘读写保护软件或装置,若有,则需解除其对SAP CE平
7、台相关服务的读写控制 (2)申请当地运维支持,检查系统还原情况配置,保证其配置正确。4)网络服务异常问题原因:服务器未正确分配IP地址,或是防火墙限制服务器的网络访问以及物理链路中断等原因,会导致系统用户无法正常登陆系统,关联业务系统与凭证系统集成服务异常。应急预案:为服务器分配正确的IP地址,并将此地址注册到防火墙可信任地址列表中。对于物理访问链路中断问题,检查并重新配置网络物理通信链路。此部分具体应急预案由当地科信部或运维部分统一处理。操作步骤:(1)检查服务器的IP地址是否分配正确,若分配错误或IP地址冲突,需要申请当地运维支持,为服务器重新分配正确的IP地址,并进行系统相关配置的调整。
8、 (2)检查防火墙对服务器的网络访问控制,若由于防火墙权限原因导致服务器无法正常进行的网络通信,则应申请当地运维支持,解决防火墙网络访问控制问题。 (3)若由于物理网络链路中断等原因导致无法进行正常的网络通信,则需要申请当地运维进行紧急抢修。2.SAP CE服务器应急预案1)功能组件服务异常问题原因:由于受到操作系统组件服务、系统硬件资源等因素影响,SAP CE服务器部分功能组件服务可能出现服务异常或组件服务停止,依赖于这些服务的系统部分功能无法正常运行。应急预案:检查异常或停止的组件服务,重启相关服务。如服务重启异常,检查服务器日志,查找原因,排除原因后,重启服务解决问题。操作步骤:(1)以
9、SAP CE超级管理员身份登录平台,在右侧搜索栏中输入【start】 (2)在搜索结果中选择【Start & Stop】应用功能 (3)选择【J2EE Application Service】,在表格搜索栏中输入需要重启的服务名进行搜索。 (4)选中需要重启的服务,使用【Start】功能重启该服务2)系统服务异常问题原因:由于受到所在操作系统组件服务、网络攻击、系统硬件资源、系统内部服务异常等影响,SAP CE服务器出现服务崩溃或大规模内部服务组件冲突。具体表现为:1、用户登录SAP CE服务平台提示【ERROR-503】异常;2、打开SAP CE控制台,服务器实例状态为警告状态,显示黄色。应
10、急预案:登录SAP CE服务器所在操作系统,在SAP CE 控制台中重启该服务器实例。操作步骤:(1)登录协同服务器所在操作系统。(2)打开协同服务器控制台。(3)展开控制台节点,选择当前协同服务器实例,右键当前实例,选择【停止】(4)在停止服务信息界面,选择【硬重启】(5)输入操作系统用户名对应的密码,确认重启操作。(6)等待一定时间后,刷新实例服务器状态,灰色表示停止成功。(7)打开协同服务器控制台,选择协同CE服务器实例,右键服务器实例,选择【启动】,进行服务器启动操作。(8)点击确认,启动服务器。(9)等待一段时间后,服务器实例状态为绿色,表示服务器启动成功。3)Lincense到期问
11、题原因:SAP CE应用平台授权许可到期或授权许可未正确注册,造成各服务组件均无法正常使用。应急预案:(1)授权许可到期可参考license申请.doc进行处理 (2)授权许可未正确注册可参照license申请.doc中进行Linsence注册的操作进行。操作步骤:按照license申请.doc中相关操作步骤进行处理3Oracle数据库应急预案1)数据库服务崩溃问题原因:由于受到突然断电、撞击、磁盘损坏、系统资源严重不足、数据库相关组件异常等影响,会造成数据库服务崩溃,所有依赖于数据库服务的应用功能均无法正常使用。应急预案:(1)如由于硬件损坏导致数据库服务崩溃,属于不可恢复的事故,需要重新申
12、请硬件资源,重新进行数据服务器的部署。 (2)由于数据库组件运行异常导致数据库服务崩溃,可尝试重启Oracle数据库相关服务。 (3)如重启数据库组件及操作系统均无法恢复数据库,则需要重新安装协同数据服务器,并进行备份数据还原。操作步骤:操作步骤按照当地服务器部署应急预案进行处理。2)用户锁定问题原因:由于用户对数据库进行不正确的读写或是其它操作,造成数据库用户锁定,所有依赖于此用户的数据库服务均无法对外提供,造成系统服务异常。应急预案:以数据库超级管理员身份登录数据库,解锁被锁定的用户并重置密码。操作步骤:(1)以sys用户在PLSql等操作工具中登录数据库(2)在【用户】菜单下找到需要进行
13、解锁的用户(3)选中该用户,进行编辑(4)解除该用户的锁定标识3)用户数据丢失问题原因:用户对数据进行误删除操作,会导致该用户数据丢失。由此引发系统功能应用数据丢失异常。应急预案:还原用户数据备份操作步骤:(1)保证数据恢复期间,系统暂停业务使用(2)若用户数据备份为DMP用户对象备份,则需要先删除该用户所有用户对象,利用数据库备份还原工具还原该用户数据备份(3)若该用户备份数据仅为表数据,则只需要清除相关原表数据,进行数据备份还原即可。4.系统应急预案1)数据源服务异常问题原因:系统对数据库的连接访问由统一的数据源进行管理,重启服务器或者由于系统组件运行冲突,会导致系统数据源服务异常。应急预
14、案:以SAP CE平台超级管理员身份登录平台,重启数据源服务即可。操作步骤:(1)以协同服务器超级管理员身份登录NWA(http:/10.138.2.109:50100/NWA)。在右侧搜索栏中输入“start”进行搜索,在结果中选择【Start&Stop】功能。(2)选择【Java EE Application】页签,在【Name】中输入协同数据源名称,回车进行搜索。在资源列表中选择当前协同数据源,选择【Start】【On All Instance .】,确认操作。(3)刷新当前资源列表,即可发现协同数据源启动成功。2)用户认证失败问题原因:用户来源于目录系统,由于用户多次登录失败会造成用户
15、锁定等原因,造成系统用户无法正常登录系统登录。应急预案:以SAP CE平台超级管理员身份登录平台,解锁用户或重置用户密码。操作步骤:(1)以协同服务器超级管理员身份登录IRJ模块(http:10.138.2.109:50100IRJ),选择【用户管理】模块,在搜索栏中查找到当前需要解锁的用户。(2)利用解锁功能,解除该用户锁定标识(3)点击【编辑】按钮,对该用户密码进行重置。3)用户角色异常问题原因:用户未正确分配角色,会导致用户无权限进行相关应用操作。应急预案:以SAP CE平台超级管理员身份登录平台,重置用户相关角色。操作步骤:(1)以协同服务器超级管理员身份登录IRJ模块(http:/1
16、0.138.2.109:50100/IRJ),选择【用户管理】模块,在搜索栏中查找到当前需要重置角色的用户。(2)点击【编辑】按钮,对该用户信息进行编辑。(3)切换至【已分配角色】页签,在左侧角色资源搜索框中输入需要进行分配的角色。(4)点击【添加】按钮,将该角色分配给相应用户。(5)点击【保存】按钮,完成用户角色分配。(6)以该用户身份登录,查看当前角色是否已被分配。4)WebApplication应用异常问题原因:由于公共应用组件服务冲突或运行状态异常,引起依赖于此公共组件的其它应用无法正常运行。应急预案:重启流程公共应用组件服务,可解决此问题。操作步骤:(1)以SAP CE超级管理员身份
17、登录平台,在右侧搜索栏中输入“start” (2)在搜索结果中选择“Start & Stop”应用功能 (3)选择“J2EE Application Service”,在表格搜索栏中输入“pubtool”进行搜索。 (4)选中需要重启的服务,使用“Start”功能重启该服务5)流程应用异常问题原因:流程配置不正确、SAP BPM流程核心组件服务异常均可导致流程应用异常,具体表现为流程无法正常发起或无法创立用户待办。应急预案:(1)流程配置错误引起的流程应用异常,需要检查流程配置并排除错误后,问题可解决。(2)SAP BPM流程组件服务异常引起的,可经过重新启动相关流程组件服务解决此问题。操作步
18、骤:(1)以SAP CE超级管理员身份登录平台,在右侧搜索栏中输入“start”(2)在搜索结果中选择“Start & Stop”应用功能(3)选择“J2EE Application Service”,在表格搜索栏中输入“glx”进行搜索。(4)选中需要重启的服务,使用“Start”功能重启该服务6)集成服务异常问题原因:关联系统未正常提供正确的服务、总部企业服务总线对集成服务注册管理异常均可能引起集成服务调用失败,依赖于这些服务的应用功能无法正常运行。应急预案:协调协同关联系统及企业服务总线检查各服务状态,解决相关问题。操作步骤:(1)若关联系统服务提供异常,则需要协调关联系统项目组,启动相
19、关的服务。(2)若企业服务总线对相关服务注册管理异常,则需要协调企业服务总线项目组,对服务重新进行注册管理。四、正式系统的修复:根据造成系统故障的不同原因,采用相应的修复策略:1.恢复服务器硬件设备;2.恢复服务器操作系统;3.恢复系统必备软件; 五、安全审计及事故分析经过系统日志、主机防护系统日志等,对故障事件进行审计,对损失进行评估,追查事件的发生原因。六、 销除隐患、调整策略:根据审计结果,调整系统的防护策略,改进系统的安全策略。七、损失评估、责任追究:由通信分公司、部门、共同评估损失,追究责任。八、 安全报告、归档:由通信分公司形成事故分析报告,分析事故原因,修正预案处理流程并归档。预案流程:事件报警及确认成功否?备用系统测试安全审计及事故分析是手工或自动恢复启动应急预案备用系统否销除安全隐患,安全策略调整通知相关管控经理及信通公司负责人人员到场、保留现场恢复网络连接损失评估、责任追究安全报告、归档详细处理步骤及操作命令以附件形式提供:步骤一、正式环境数据库恢复1确定要恢复的时间点。步骤二、正式环境应用系统恢复1确定要恢复的时间点。步骤三、备用环境数据库恢复