收藏 分销(赏)

银行信息科技信息系统事件管理制度模版.docx

上传人:精*** 文档编号:2869353 上传时间:2024-06-07 格式:DOCX 页数:7 大小:21.36KB
下载 相关 举报
银行信息科技信息系统事件管理制度模版.docx_第1页
第1页 / 共7页
银行信息科技信息系统事件管理制度模版.docx_第2页
第2页 / 共7页
银行信息科技信息系统事件管理制度模版.docx_第3页
第3页 / 共7页
银行信息科技信息系统事件管理制度模版.docx_第4页
第4页 / 共7页
银行信息科技信息系统事件管理制度模版.docx_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、银行信息科技信息系统事件管理制度第一节总则为保障某银行信息系统生产环境的安全运行,规范生产环境运行事件发现、识别、登记、处理、升级、跟踪、回顾等管理过程,特制定本管理规范。第二节适用范围本规范适用于总行进行事件处理,分行事件处置和管理参照此制度执行。本规范中生产环境是指支持某银行日常业务运作的各类已投产信息系统,以及支持其运行所需的系统、网络、设备、机房等基础设施。本规范中运行事件(以下简称事件)是指生产环境发生的,影响业务应用、系统环境、网络通信、机器设备、机房等基础设施正常有效运行,引起或有可能引起服务中断或服务质量下降的各类故障。第三节事件分级和定义第一三级事件定义如下:各信息系统的预警

2、级别设为三级预警(黄色)、二级预警(红色)和一级预警(黑色)三个级别。(1)信息系统发生中断或故障,5家以下营业柜台的对外服务中断,或者是1项全行大集中式的业务中断,且在30分钟内尚未恢复,则视为三级预警信号(黄色)。(2)信息系统发生中断或故障,8家以上营业柜台的对外服务中断,或者是2项全行大集中式的业务中断,且在30分钟内尚未恢复,则视为二级预警信号(红色)。(3)信息系统发生中断或故障,造成全行范围内主要业务中断,在30分钟内尚未恢复,则视为一级预警信号(黑色)。各信息系统的预警级别按照以上原则进行具体定义。发生或一般事件升级为较大突发事件(三级)时,应启动相应的应急预案流程进行处置(详

3、见某银行信息系统应急响应预案)。第四节强制恢复时间点目标强制恢复时间点:指我行信息系统重要业务功能无法正常开展的最长可容忍时间(自事件被发现开始计算),重要信息系统如果超过此时间点系统功能未得到恢复,我行将启动信息系统应急响应预案,同时经IT应急领导小组审批后向监管机构报告。初始应急操作决策时间点:指为了实现强制恢复时间点目标,在突发事件发生后的较早期必须做出某项应急操作决策的最后时间点。紧急操作决策时间点:指为了实现强制恢复时间点目标,在突发事件发生后的特定时间内必须做出某项应急操作决策的最后时间点。一般应急操作:指应急操作步骤简单,在一般事件处置中经常使用,且不易引发次生灾难的应急操作。此

4、类操作由相关团队主管授权后即可实施。例如:应用服务重启、相关清理操作(共享内存、死锁、僵死进程、文件系统等)、增减服务数量。重要应急操作:指应急操作较复杂,在一般事件处置中较少使用,对特定事件场景见效较快的,但有可能引发次生灾难的应急操作。此类操作由运维中心科技经理授权后可实施。例如:灾备切换、强制停止某台故障主机、故障点(软/硬件)隔离、应用程序回退;特殊应急操作:指针对当前特殊事件场景制定的特殊应急恢复操作,且引发次生灾难的概率较大的应急操作,在强制恢复时间点之后采取的所有操作也均属特殊应急操作。此类操作需经总经理室汇商后,由科技部负责人或信息系统应急指挥领导小组组长授权后可实施。例如:多

5、系统整体切换、多系统重启应用服务、紧急投产程序、修改应用及系统参数。第五节职责描述事件管理的目标是尽可能降低事件对生产环境的影响并使生产环境尽快恢复正常,同时记录事件处理过程,为问题管理、变更管理等相关流程提供支持。事件处理过程中的各相干角色均应严格遵循此目标原则。事件管理流程的相干角色包括事件发现人、事件经理、事件处理人、事件处置领导、业务部门接口人。具体角色和人员岗位的对应关系如下:事件发现人:监控系统;总行信息科技人员,包括:操作人员、应用管理员、系统管理员、网络管理员、机房管理员、数据库管理员等。客服中心值班人员;支行业务人员。事件经理事件经理由业务部门业务负责人承担。事件处理人:一线

6、人员:事件提出人所在机构业务管理人员;二线人员:应用管理员、系统管理员、网络管理员、机房管理员、数据库管理员、监控管理员等;三线人员:技术专家、外包服务商、项目组人员等。事件处置领导:总行主管行长、科技开发部总经理、业务管理部门经理等;业务部门接口人指各系统业务部门生产应急联系人。各角色职责如下:事件发现人应在第一时间将故障信息通知相关一线人员;事件发现人可提出事件请求,也可登记事件。事件经理,受理一线所报告的问题事件并按照事件处置预案联系事件处理人对事件进行合理处置。事件处理人职责包括:二线人员应在得到故障通知后,第一时间中心机房运维窗口进行故障查询;二线人员应保证处置效率,在处置过程中只与

7、事件经理或者处置升级后只与团队主管进行直接汇报;二线人员应提供故障定位、业务影响信息及故障处置策略信息。二线人员遇疑难故障时应主动与三线人员寻求支持,尽快处理故障;三线人员接到故障通知后,应第一时间积极配合一、二线人员进行故障处置;事件处置领导职责包括:团队主管到达现场后,应协助事件处理人进行故障处置,并负责进行业务影响分析,如果事件升级,最后由业务经理汇总判断业务影响后报主管行长;团队主管应将故障处置情况报科技经理;团队主管应协助事件处理人制定故障处置策略,并报科技经理审批。经授权后,监督事件处理人处置,并将结果报科技经理。科技经理应根据团队主管的故障处置情况汇报,报送主管行长,协调相关资源

8、;科技经理负责对应急处置策略进行决策。业务部门接口人职责包括:负责事件发生后,配合应用团队进行业务影响分析;负责信息系统出现故障后,采取手工等其他替代手段进行业务补救,并做好客户安抚工作;信息系统故障排除后,确认业务是否已恢复,是否需要科技开发部配合进行帐务查询等操作。第六节事件的发现与登记事件发现人应在第一时间将故障信息通知事件经理,重要信息系统应在故障发生后3分钟完成通知,其他系统应在10分钟完成通知。事件按照发现渠道不同可以划分为以下四类:监控事件:包括监控系统、日常巡检、厂商巡检发现的事件。监控系统:监控系统根据预先设定的报警条件触发生成事件工单,或监控人员根据监控系统的报警信息,确定

9、为事件的,应及时登记。日常巡检:机房值班人员在日常巡检中发现的事件。日常巡检内容包括:应用特定监控程序检查、机房环境巡查、环境监控系统检查、电源及发电机检查,应及时登记。厂商巡检:由外包供应商在例行巡检中发现的事件。此种情况,应由巡检活动中的行方负责人登记。作业事件:在批作业执行过程中,相关作业人员如发现批处理异常、批处理超时的情况,应及时登记。维护事件:系统管理员、应用管理员、数据库管理员、网络管理员、监控管理员等生产环境相干责任人在日常维护中主动发现的事件,应及时登记。外部事件:指服务台通过内外部人员报障获知的事件。报障可能来源于:外部客户投诉、分行人员投诉、内部用户投诉、监管机构投诉、合

10、作机构投诉。服务台人员在接听报障时,应详细询问故障的现象、时间、次数、地点、故障投诉人等要素,并予以登记。因需要处理紧急事件而未能及时登记事件工单的,应在事后补登。登记事件工单时,应确保信息准确、内容完整。事件经理定时检查工单记录,对新登记的工单及时审核,检查工单填写是否符合规范,必要时,可要求事件发现人补录相关信息。第七节事件的分派与处理事件处理人接到故障通知后,应第一时间判断故障来源,组织相关人员进行处置,分析故障原因、业务影响及处置策略;在尽快处理事件、恢复服务的总体原则下,事件处理人员应尽可能保留现场日志等信息以备后续查找故障根源。事件处理人员应检查被分派工单分类正确性,并在必要时进行

11、调整。在判断故障无法解决时,应将判断信息及已尝试解决方案登记在事件工单中,并根据事件分类将事件继续指派给后续事件处理人员。团队主管到达现场后,应协助事件处理人进行故障处置,并协调二三线人员到场对事件进行处置。第八节事件的汇报与升级事件处理过程中,团队主管可通过电话、短信等方式及时将事件处置进展汇报给科技经理;事件升级,科技经理根据团队主管的处置情况汇报,报告主管行长,协调相关资源。第九节事件的跟踪与解决团队主管应协助事件处理制定故障处置策略,并报科技经理审批。经授权后,监督事件处理人员处置,并将结果报科技经理。科技经理负责对应急处置策略进行决策。信息系统故障排除后,由业务部门接口人确认业务是否

12、已恢复,是否需要科技开发部配合进行帐务查询等操作。事件处置过程中,应及时更新事件工单信息,生产事件工单应在1个工作日内处理完毕。对采取临时方案解决的事件,事件处理人员应判断是否需要进行故障根源分析,必要时生成关联问题单,启动问题管理流程。对需采取系统变更解决的事件,应生成关联变更单,启动变更管理流程。对确定由变更引起的事件,应关联相关变更单。对确定为重复发生或关联发生的事件工单,应进行合并处理。第十节事件的关闭与反馈事件处理完毕,服务台人员应完成事件的关闭与反馈。具体要求如下:(一)对由监控、巡检、批作业等渠道发现的事件,事件处理人应在处理完毕后及时联系服务台技术人员进行处置结果确认;(二)对

13、由各类投诉渠道发现的事件,服务台技术人员应按登记信息与投诉人员联系并核实故障排除情况;(三)事件经理应对事件工单的填写质量进行审核,保证事件信息的记录准确、清晰、完整。确认解决方案无效或无法判断时,事件经理应将事件工单重新指派给最后一位事件处理人进行处理;事件关闭的条件为确认事件解决、故障现象已经消除。事件经理应选择合适的结束代码将事件工单及时关闭第十一节事件的总结与回顾事件经理应牵头定期进行事件的总结与回顾。其中包括:由监控管理员评估监控系统对故障的发现及判断效果,从而对监控系统做出改进;对于验证有效且具有可重复性或典型性的解决方案,由事件具体解决人员向知识库提交知识,事件经理形成分析报告或

14、简要报告通报全运维中心,要求各团队组织学习和自勉;对生产环境当日发生的一般突发事件或更高级别事件,事件经理应组织相关人员及时回顾,落实后续处理措施;对过去一周生产环境发生的事件,事件经理应分析、形成事件周报进行发布,并向运维中心科技经理及团队主管进行汇报;对过去一个月生产环境发生的事件,事件经理应牵头生成、汇总事件月报并组织月度例会进行回顾讨论,对于可能存在的故障隐患,应提炼、升级为问题,启动问题管理流程。第十二节评价与提高事件经理负责根据事件的统计结果,分析事件的分布规律,总结事件处理过程中的经验、教训,优化整个事件管理流程执行的效率;事件处置总结时应包括但不限于以下内容的分析评价:1、二线人员的技术能力是否达标、故障定位是否准确、处置是否得当;2、监控工具是否及时、准确报警,服务台是否及时发现与通知;3、应急流程设置是否得当;4、处置过程中各岗位人员是否各尽其职,遵守制度流程。事件经理应定期组织事件处置相关岗位人员进行培训工作。第十三节附则分行事件处置和管理参照此制度执行。分行如发生有业务影响事件,在通知相关人员和分行领导的同时,需及时上报总行服务台。本规范由某银行总行科技开发部负责解释和修订。本规范自发布之日起执行。二*年六月三十日

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 应用文书 > 规章制度

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服