收藏 分销(赏)

多起服务器无规律宕机的原因排查与思考.pdf

上传人:自信****多点 文档编号:1231462 上传时间:2024-04-19 格式:PDF 页数:2 大小:951.33KB
下载 相关 举报
多起服务器无规律宕机的原因排查与思考.pdf_第1页
第1页 / 共2页
多起服务器无规律宕机的原因排查与思考.pdf_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

1、TroubleShooting故障诊断与处理责任编辑赵志远多起服务器无规律岩机的原因排查与思考西安郭朋卢荣平编者按:介绍多起同构的前置应用服务器无规律岩机的原因排查过程和处置方法。笔者科室负责运维一套核心业务系统。该系统总公司应用服务器采用总公司和分公司两级架构部署模式,在分公司部署5 台同构的前置应用服务器,互为热备状态,通过负载均衡设备与总公司应用服务器通信。系统架构如图1所示。因该系统属于重要的业务系统,总公司有值班人员2 4h监控,当监控到前置应用服务器或前置应用负载均衡业务中断时,会立即给出现问题的分公司运维人员发送短信报警或直接电话通知分公司运维人员。前段时间,该系统发生了多起前置

2、应用服务器总公司前置应用负载均衡分公司前置应用服务器A前置应用服务器B前置应用服务器C前置应用服务器D前置应用服务器E分公司业务系统1分公司业务系统2无规律岩机现象。虽然分公司值班人员在第一时间进行了应急处置,重启前置应用服务器,待网络正常后,重启应用程序即恢复业务,但一直未找到故障原因。由于5 台前置应用服务器同构且互为热备状态,重启其中任意1台应用服务器不会影响系统业务正常开展,但是会造成总公司值班人员监控到运行在前置应用服务器上的业务程序中断。总公司勒令尽快查明并上报此次服务器无规律岩机的原因。原因排查笔者组织运维工程师先从5 台服务器的磁盘空图1系统架构图间、实时运行内存占用情况、操作

3、系统日志、负载均衡日志等方面进行分析,均未发现异常。一时找不到问题的原因,但好在值班人员对历次应用服务器重启的时间都做了详细的记录。通过对一周内所有服务器岩机的时间进行列表分析,发现如下规律:E服务器从未岩机,其他4台服务器在2 4h以内会无规律岩机一次。岩机时间如表1所示。这5 台应用服务器安装的操作系统和部署的应用都是一致的,是什么原因造成A、B、C、D 这4台应用服务器会无规律岩机,而E服务器却能在此2023.9投稿信箱责任编辑赵志远TroubleShooting故障诊断与处理期间一直稳定运行?现在只需找出E服务器与A、B、C、D 服务器的差异,即可发现问题原因。经过认真比对发现,A、B

4、、C、D服务器上运行的G01网络安全进程与E服务器相比存在异常。执行“ps-eflgrep-igov_defence”命令查询5 台服务器的G01进程状态,结果如表2 所示。可以明显看出A、B、C、D 服务器的GO01进程比E服务器少了一个,说明A、B、C、D 服务器的G01进程异常。至此,初步判断G01进程可能存在问题。因为现在还不能确认是由G01进程异常引起的岩机现象,笔者决定先卸载A、C 服务器上的G01程序,保留B、D 服务器上的G01程序,继续观察,待进一步确认。第二天,不出意外,A、C 服务器工作正常,B服务器又发生岩机。因此,笔者更加坚信该起服务器无规律岩机是由G01进程异常引起

5、的。笔者于是又卸载了B、D 两台服务器上的G01程序,观察一周,A、B、C、D 服务器均能正常稳定运行。至此,确定该次多起服务器无规律机现象是由G01进程异常引起的。找到了问题源头,故障原因也就很容易分析出来了。原来是前段时间单位进行了为期一个月的网络安全测试,在重要系统上都安装有G01防护。测试结束后,将G01服务器下线,而在各应用服务器上安装的G01客户端程序并未及时卸载。在应用服务器未重启时,G01进程都能正常挂载运行,一旦应用服务器重启,客户端将无法连接到服务器,导致进程异常,从而造成服务器岩机。而系统运维人员在对系统进行日常巡检时,对A、B、C、D 这4台服务器均进行了重启操作,才造

6、成了这次多起服务器无规律岩机。表1应用服务器机时间详表应用A服务器Day1 8:10岩机Day2 9:05时间Day6 22:33表2 5 台服务器G01进程状态比较A、B、C、D 服务器G01进程状态./gov_defence_guard./gov_defence_service-cconfig.xml-Irunlog/run_log.log-eALL-tALL-ssafe-mdaemon结语虽然找到了问题原因并进行了稳妥处置,对系统业务未造成影响,但这次故障事件需要单位进行认真思考、深刻分析。在今后预防此类故障方面,单位采取了以下措施。一是组织科室全员将上次网络安全测试安装的G01程序全部

7、卸载。二是建立安全机制,协调好安全与生产“两条腿走路”的关系,需要进行临时加固的安全措施,要及时进行加固,待临时加固措施解除后,临时加固手段也应同步解除,以化解未知风险。三是建立系统生命周期表,对服务器进行全面监控,凡是变化点都是风险点,要对任意一次变化都要有充分的风险意识。BDay66:55Day7 7:43Day4 06:55Day5 16:00Day7 12:56E服务器GO1进程状态./gov_defence_guard./gov_defence_service-cconfig.xml-Irunlog/run_log.log-eALL-tALL-s safe-mdaemon/usr/local/gov_defence_agent/secmodel2CDay223:11DDay3 7:50Day66:55E投稿信箱2023.9163

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 学术论文 > 论文指导/设计

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服