1、控制系统故障分析报告
一.事故经过:
2010年6月25日晚上20点47分,@@控制系统1#接口机发生故障,提示“应用程序发生异常,未知的软件异常(0x0eedfade),位置为0x7c812a7b”。操机员发现故障后,立即按照规程保存故障界面后,重新启动接口机和监控软件,系统重新开始运行,但一车间设定电压、氟盐加工等参数发生错误。6月26日上午8点10分,@@操机员鉴于管理机一车间数据无显示,重新启动一车间接口机;8点15分,一车间技术助理对常用参数进行重新下发之后,此前发生错误的设定电压、氟盐加工等参数恢复正确,监控系统恢复正常。6月28日下午,电解厂@@针对此次故障召开技术专题会,对
2、故障形成的原因、解决办法、预防措施进行了深入的讨论。
二. 原因分析:
1) @@操机班在思想上没有对此类常发故障予以高度重视。
2) 接口机上的@@监控系统存在漏洞,导致数据发生溢出,系统崩溃出错。
3) 数据库中产生了多项冗余数据表,对正常生产数据存在干扰的可能性。
4) 监控软件没有参数自动确认功能,需要手动更新下发,才能保证系统的正常运行。
三. 防范措施:
鉴于操作系统、数据库软件、@@控制系统均有潜在漏洞和故障的可能性,对于此类技术故障,@@无法做到彻底杜绝,但若再发生类似故障,可以通过采取以下措施迅速、有效的解决故障。
1. @@将加大对此类故障的重视程度,特别要
3、形成故障处理、参数下发后的再次确认制度。
2. 立即更改管理机、接口机(”system”)等多项用户名及密码,并形成定期更改的制度。
3. 联系厂家技术人员,更新接口机软件,保证软件得到及时更新,咨询类似故障的处理方法。
4. 对接口机安装程序的临时存储数据文件,要每月予以备份,正确配置程序,检查初始化程序INI文件是否正确。
5. 删除现有数据库中附加的各项数据表,防止数据冗余及报错。
6. 加强操机班的操作培训,特别是针对软件故障的应急处理,发现故障后,及时汇报站内班长、领导;故障严重时,需及时汇报调度、电解车间、技术组等相关人员。
7. 强化@@软件技术力量,开展切实有效的培训工作。
电解厂@@
2010-6-28