1、 IT故障处理流程规定Page 11 of XDocument Number: xxx-xxxx-xxxDoc Rev:BPI Internal Use OnlyRevision Change HistoryRev Creation Date (YYYY/MM/DD)Originator Originators functionDescription of Change (ECO#, Brief description)Note 1: Can keep the latest three revision change records;Note 2: Use red triangle marke
2、d in the changing area. Printed copies are NOT controlled unless marked CONTROLLEDThe information in this document is the property of Boston Power. No part of this document may be disclosed, reproduced, or distributed without the express written permission of Boston Power. Boston Power reserves the
3、right to alter the design and specifications of its products at any time without notice, as part of its continuing program of product development.“Boston-Power”, “Sonata” and “Swing” are registered trademarks of Boston-Power, Inc., which retains sole rights to their use. Boston-Power, Inc., 2009. Al
4、l rights reserved. 目录1.目的:32.范围:33.定义:34.职责与权限:35.系统管理员的职责和权限46.内容57.故障上报方式和故障升级68.应急措施与行动计划79.需要启动的其它紧急管理计划810.紧急计划的终止811.中等故障以上事件处理完成通报和事后总结812.证据保存方式和内容913.维护与解释914.附件91. 目的:加强和规范IT事故/故障的处理和报告流程,保证事故/故障的快速恢复,使损失降低到最低。 2. 范围:IT部提供但不限于以下设备、系统和区域的事故/故障2.1硬件类:IT办公设备(包括复印机、打印机、传真、扫描仪、投影仪、一体机、主机、显示器等)语
5、音通信设备(但不包含移动智能手机、平板电脑)2.2网络类:企业互联网(泛指公司与ISP连接的Internet线路)MPLS、VPN专线网络/线缆接口2.3应用和业务系统类应用服务器(包括硬件和操作系统)、业务型ERP、生产型MESIT监控与门禁系统数据库系统互普准入系统视频会议系统考勤就餐系统防计算机病毒系统3. 定义:3.1一般事故/故障:影响范围限于单个或者少量用户(不超过10人)的IT故障,不会对其它用户的IT系统使用造成大的影响和业务的中断。3.2中等事故/故障: 关键系统小面积中断,不会造成重大业务影响,不会造成关键系统数据大量丢失或者错误。3.3重大事故/故障:关键系统全局性或者大
6、面积中断,或者造成关键系统数据大量丢失或者错误的,并且无法在短时间(30分钟)内恢复。3.4关键系统主要指中断后会造成业务和管理无法进行的系统:如AD、DHCP、DNS、核心交换、路由、VPN系统、ERP系统、MES系统、存储系统、虚拟服务应用。4. 职责与权限:4.1 IT部所有员工均负有处理紧急事件的责任;4.2 面对紧急事件,一切以公司利益和人身安全为重;4.3 IT经理包括IT各组(Infra系统、ERP业务支持、CIM)经理;4.4 IT经理作为IT流程中的控制结点,主要负责对其所辖关键IT系统的重大事情进行审批、管理和监控;4.5 IT部门主要负责IT事故/故障发生后的事故处理和故
7、障的排除,故障排除过程的记录,故障排除后事故发生原因的调查,后续改进或者预防措施的落实;4.6 用户按要求途径报告事故/故障(IT故障申请单)。5. 系统管理员的职责和权限系统管理人员包括网络管理员、服务器管理员、数据库管理员和客户端管理员。5.1 网络管理员1) 提供网络运行保障,确保网络系统的稳定与正常运转,及时解决网络故障;2) 负责网络系统的管理和维护,确保高效、可靠地管理网络资源;3) 负责对网络设备操作系统和配置信息进行备份及恢复;4) 负责或协助服务提供商进行网络设备的调试和安装;5) 负责或参与网络工程的设计和网络设备的选型。5.2 系统管理员1) 负责安装和配置服务器操作系统
8、及其它相关软件;2) 负责监控并优化服务器系统资源的使用;3) 负责计划和实施服务器系统备份及恢复方案;4) 负责服务器操作系统及程序的升级;5) 负责服务器系统用户和安全管理;6) 负责为服务器操作系统打补丁;7) 负责或协助供应商进行服务器硬件管理和故障诊断。5.3 数据库管理员1) 负责确定数据库的信息内容和结构,并可操作数据库;2) 负责制定数据库的存储结构和存取策略;3) 负责定义数据的安全性要求和完整性约束条件;4) 负责监控数据库的使用和运行,分析数据库的性能并进行问题诊断;5) 负责数据库的改进和重组重构; 6) 负责数据库的安全与日常维护,制定并实施数据库系统的备份和恢复方案
9、。5.4 客户端管理员1) 负责客户端用户(网络终端结点的用户)设备的维护;2) 负责客户端用户的安全管理、软件维护和设备的配置及环境管理等。6. 内容6.1 异常情况和紧急事件一般处理流程和响应机制1) 员工发现网络设备、服务器设备相关的异常情况和紧急事件,直接联系IT相关经理。同时,对网络设备、服务器设备均有监控系统对其工作状态进行监控,一旦发生服务不可用事件,监控系统会及时监测并就异常情况报警;2) 对于员工电脑或信息系统使用问题,通过提交IT故障申请单或通过拨打IT热线 3155、3565、3576电话向IT Helpdesk进行报修故障,IT Helpdesk人员会根据故障现象直接处
10、理问题,或指派专人进行处理;3) 对异常情况和紧急事件应进行分类和记录,应在事后对事件进行分析和汇报。6.2 常见异常情况的安全控制措施6.2.1 电力故障应急方案1) 在非正常工作时间,任何人发现电力系统出现异常,有义务及时通知厂务部和安保。厂务部和安保部负责马上联系IT部员工说明情况;2) 电力系统出现故障,厂务部安排人员负责检查处理电路故障,同时向IT部提供估计停电持续时间和恢复时间;3) IT部为机房配备UPS(不间断电源)并定期对UPS进行充放电测试;4) 发生电力系统异常后,在UPS第一次报警后(估计还能维持半个小时),电话通知正在使用业务系统的key user 后,开始关闭服务器
11、和网络设备,以防止UPS耗光损坏计算机设备;5) IT部跟踪停电详细情况及处理情况,并做好记录,上报给公司安全管理责任负责人。6.2.2 火灾应急方案1) 在机房门口(里外各一个)部署专用气体灭火器(二氧化碳灭火器);2) 当出现火情、火灾时,任何人员都应保持镇静,应及时采用一些简单可行的方法作初步处理,如:使用灭火器、水源、或采用一些灭火措施、手段。如果火情危机机房或在机房发生,必须使用机房专用气体灭火器(二氧化碳灭火器);3) 在对火情、火灾进行初步处理的同时,应在最短时间内通知设施部EHS和保安部;4) 若火情较严重时应迅速打电话报警,同时注意个人人身安全。在判断到火情失控情况下,应马上
12、撤离火灾现场到安全的区域;5) IT部了解火灾情况并做好详细记录,上报给公司安全责任负责人;6) 机房均为电器设备,应定期检查这些设备,减少由于电器故障引发火灾。6.2.3 网络系统瘫痪应急处理方案1) 发现网络故障,立即通知网络管理员;2) 网络管理员检查网络情况,初步确定故障原因;3) 如网络设备发生严重故障,导致网络无法正常运转,应立即通知相关人员或设备供应商,同时启用网络备用设备;4) 如果是线路故障,应立即启用备用线路;5) 如果是网络协议或设备配置故障,应联系供应商及外部技术支持进行诊断,及时确定故障原因并排除故障。6.2.4 病毒应急方案1) 在计算机发生病毒感染情况时应立即拔掉
13、网线,并立即通知网络管理员和安全管理员,对受感染计算机上的病毒进行分析和处理;2) 如果服务器被病毒感染,立即停止服务器的程序和服务,防止病毒进一步扩散。如发现对网络性能或其他应用运行造成影响,应及时拔掉网线后进行处理;3) 使用最新的病毒引擎和病毒库,查杀受感染服务器上的病毒,同时查杀受感染服务器管理的计算机上的病毒;4) 从防病毒中心控制台检查确保所有公司电脑已经更新到最新的病毒引擎和病毒库,防止再次感染相同病毒;5) 如果病毒将系统破坏,导致系统无法恢复,应将受感染计算机上的数据备份到其它存储介质,确保数据不会丢失。对备份的数据也要进行病毒检测,防止病毒再次感染其它计算机;6) 应记录整
14、个事件的分析和处理过程,并形成报告向信息安全负责人汇报。6.2.5 资料备份应急方案1) 发现数据丢失,首先记录故障时间和相关信息,报至IT相关业务部门经理;2) IT部分析故障原因,并采取相关措施;i. 如果是硬件错误,马上启用备用硬件或联系硬件厂商提供服务。如果是硬盘数据丢失,首先尽力采取措施修复并恢复数据,确实无法挽救数据后,作废弃处理。ii. 根据记录,找出距发生故障时点最近的备份,恢复最近时间的备份数据,尽可能降低风险。iii. IT部做好处理灾难恢复记录。3) IT部只负责保存在文件服务器的用户数据,不承担个人计算机和个人备份介质上的数据安全责任。7. 故障上报方式和故障升级7.1
15、 涉及适用范围内的所有事故或故障采取先上报后处理的原则,各级人员应严格如下规定在规定时间内向相应管理层上报处理情况。(日常应用业务系统维护除外,该故障升级主要范围指影响全局用户使用业务系统时发生的故障)可参考以下表格方式(可根据故障事件的实际发生情况判定)事故/故障类别上报时限上报方式上报对象上报/通报对象事件升级时限一般事故任意方式IT部员工IT相关经理根据具体事件处中等事故30分钟任意方式IT相关经理IT相关经理/总监8小时重大事故15分钟任意方式IT相关经理/IT相关经理/总监注:表中“上报时限”列中规定的时间均为从发现事故时刻起计算,“事件升级时限”按照上报时间起计算。7.2 对有应急
16、处理预案的事故或故障,相关IT人员应严格按照应急预案处理。7.3 事件上报后,超过事件升级时限,此次事件将自动升级,并进入相应的事件通报和处理流程。7.4 紧急支持联系方式IT服务热线:3155、3576、3565直接电话联系相关IT经理或者任何一位IT部员工。可参考以下流程导向,进行中等及以上的故障事件处理流程8. 应急措施与行动计划8.1 关键IT系统管理责任人没有在第一时间内到达现场的情况下的处理流程:1) 联系系统管理员,得到针对此次紧急事件处理的建议;2) 根据紧急事件的具体情况,选择相应的操作步骤。主要包括如下3种情况的处理方法: 因具体情况,需要立即停止应用服务或环境,必须立即关
17、闭系统服务或电源的情况; 紧急关闭电源后,需要重新开机的情况; 因电源、网络故障或其他未知的故障,造成ERP、MES的操作系统无法运行,需要尽快恢复关键的IT系统运行;3) 在执行过程中,尽量记录屏幕上所显示的信息提示(特别是错误或警告的信息);4) 处理之后,将此紧急事件处理过程、错误信息记录发送给系统管理员;5) 系统管理员按照事件级别分别分类(红、黄、蓝)通报相关人员: 紧急级别:红第一时间内通知应用业务的相关IT经理,另外根据整个故障的影响程度,通知相关范围的人员,比如关键IT系统的用户(例如财务、生产和HR部门),或者全公司; 紧急级别:黄及时与业务应用的相关IT经理联系,并对处理过
18、程做详细记录。将整个故障的情况记录总结,并邮件发送其IT经理; 紧急级别:蓝对发生的问题,做详细记录。 之后将整个故障的处理过程,整理后存档;如果处理应急情况中,需要重新启动ERP、MES的服务或者其它原因,导致关键IT系统或者数据库不可用的情况,需要发邮件告知相关系统的使用人员;8.2 系统管理员的处理流程:1) 如果系统管理员在场、或者能够及时到达现场,由其负责处理此紧急情况,并同时记录整个执行过程系的警告和错误;2) 按照事件级别分类的 关键IT系统紧急事件,邮件通知相关人员;9. 需要启动的其它紧急管理计划9.1 如果在公司业务应用需要很快恢复系统的时期发生硬件故障,请紧急联系DELL
19、或HP的售后服务工程师,在最短的时间内更换硬件;9.2 如果是软件故障,可以通过恢复操作系统和数据库的办法尽快使系统可用,参考数据备份流程。10. 紧急计划的终止10.1 查明此次故障发生的原因,解决并采取相关预防措施后才能算本次处理完全完成;10.2 故障处理完毕后,需要填写信息系统故障表。11. 中等故障以上事件处理完成通报和事后总结11.1 IT工程师在处理完成后应立即向相关业务IT经理、总监通报情况,内容包括事故/故障发生时间和内容、各级上报时间、上报人、上报/通报对象、事故处理方式等;11.2 IT相关经理和总监在上报工作完成后应及时组织事故分析会(内容包括:追查事故原因、检讨和总结
20、处理过程、研究可采取的预防改进措施),并负责推动总结出的预防改进措施的落实;11.3 IT相关经理(每季度)汇总较大以上的故障/事故汇总报告给IT总监;11.4 中等以上的事故处理过程及相关分析总结需填写IT事故处理及分析报告存档;11.5 对IT事故/故障分类分级管理,一般故障可不记录故障处理办法。12. 证据保存方式和内容12.1 中等级以上故障书面或邮件描述并签字、回复邮件存档保存;13. 维护与解释本规定由IT部每年复审一次,根据复审结果进行修订并颁布执行。本规定的解释权归IT部。本规定自发布之日起生效,凡有与该规定冲突的,以此规定为准。14. 附件IT事故处理及分析报告 (但不局限于
21、此模板)IT故障处理总流程其中专业理论知识内容包括:保安理论知识、消防业务知识、职业道德、法律常识、保安礼仪、救护知识。作技能训练内容包括:岗位操作指引、勤务技能、消防技能、军事技能。二培训的及要求培训目的安全生产目标责任书为了进一步落实安全生产责任制,做到“责、权、利”相结合,根据我公司2015年度安全生产目标的内容,现与财务部签订如下安全生产目标:一、目标值:1、全年人身死亡事故为零,重伤事故为零,轻伤人数为零。2、现金安全保管,不发生盗窃事故。3、每月足额提取安全生产费用,保障安全生产投入资金的到位。4、安全培训合格率为100%。二、本单位安全工作上必须做到以下内容: 1、对本单位的安全
22、生产负直接领导责任,必须模范遵守公司的各项安全管理制度,不发布与公司安全管理制度相抵触的指令,严格履行本人的安全职责,确保安全责任制在本单位全面落实,并全力支持安全工作。 2、保证公司各项安全管理制度和管理办法在本单位内全面实施,并自觉接受公司安全部门的监督和管理。 3、在确保安全的前提下组织生产,始终把安全工作放在首位,当“安全与交货期、质量”发生矛盾时,坚持安全第一的原则。 4、参加生产碰头会时,首先汇报本单位的安全生产情况和安全问题落实情况;在安排本单位生产任务时,必须安排安全工作内容,并写入记录。 5、在公司及政府的安全检查中杜绝各类违章现象。 6、组织本部门积极参加安全检查,做到有检
23、查、有整改,记录全。 7、以身作则,不违章指挥、不违章操作。对发现的各类违章现象负有查禁的责任,同时要予以查处。 8、虚心接受员工提出的问题,杜绝不接受或盲目指挥;9、发生事故,应立即报告主管领导,按照“四不放过”的原则召开事故分析会,提出整改措施和对责任者的处理意见,并填写事故登记表,严禁隐瞒不报或降低对责任者的处罚标准。 10、必须按规定对单位员工进行培训和新员工上岗教育;11、严格执行公司安全生产十六项禁令,保证本单位所有人员不违章作业。 三、 安全奖惩: 1、对于全年实现安全目标的按照公司生产现场管理规定和工作说明书进行考核奖励;对于未实现安全目标的按照公司规定进行处罚。 2、每月接受主管领导指派人员对安全生产责任状的落Template number: 950-0001-001 Rev 05