1、Trouble Shooting故障诊断与处理责任编辑赵志远解决VMware虚拟化云平台版本升级带来的 Avamar备份系统问题中国铁路西安局集团有限公司路树仁卢荣平编者按:通过对VMware虚拟化云平台版本升级带来Avamar备份系统问题的排查处置,分享处置方法并总结经验。随着网络安全的持续升级,虚拟化云平台的网络安全也不断面临挑战。VMware虚拟化云平台作为开放的服务资源整合平台,已在国内各行业得到大规模的应用。其中,安全性成为直接关系平台上各类信息系统应用稳定运行的关键因素。与其他平台一样,VMware虚拟化云平台也需要面对频繁的版本升级与漏洞修复工作。本文根据网络安全防范的要求,对V
2、Mware虚拟化云平台由EXSI6.5版本升级到EXSI6.7版本过程中出现的Avamar备份系统不能备份的问题进行排查处理。升级带来的故障现象笔者对主机EXSI操作系统升级完成后,发现与VMware虚拟化云平台对接的Avamar自动备份系统无法正常工作,备份任务无法完成。升级前,可以按照策略正常备份,而在升级后,Avamar自动备份系统执行定时备份任务时,出现大量任务失败。其中,共备份7 50 台虚拟机,仅1 0 0 台虚拟机备份成功,6 50 台虚拟机备份失败,成功率仅1 3%,严重影响平台安全运行。问题排查针对Avamar自动备份系统执行失败的排查过程如下。1.在备份系统上重新安装部署与
3、VMware升级后EXSI6.7版本匹配的备份代理程序。2.利用EMC研发中心编写的快照清除脚本程序goav,清除后台快照文件。(1)提前将goav脚本程序复制到/home/admin目录中。(2)在VMware虚拟化云平台处于静默操作时,按照以下操作清除后台快照。进入到home/admin目录中,执行“nohup./goavvmThisis an AvamarNodePlease read the,docunentation betore performingany adninistrative functions on this hode.Forhelp,contactEMcathttps
4、:/.admintadninadninThome/adninadnineavanar:/*ar:pwd:nohup./goavvmsnapshotclean-noprompt图1 清除后台快照 2023.8投稿信箱责任编辑赵志远TroubleShooting故障诊断与处理WARNING!The remote SSH server,rejected XIl_forvarding request.Lastlogin:SunApr2317:11:592023from23.45.6.139*This is an Avamar Node*Please read the documentation bef
5、ore perforning*anyadninistrative functions on this node.*Forhelp,contact EMCathttps:/.*adminavamar:-/:./goavvm snapshot clean-name=zD_Xaz_zXkSxT_23.106.45.210-nopromptsnapshot clean-noprompt后台清理命令。如图1 所示。(3)清理完成后,检查结果,如果有个别未清除成功的项,可以对单台虚拟机执行./goav vm snapshot clean-name=虚拟机名称-noprompt命令。如图2所示。3.调整备份
6、策略,减小每天虚拟机备份数量,实行分批减量操作,测试新版本是否限制每天备份虚拟机数量。4.减少同时工作的备份代理进程数量,测试新版本是否限制同时工作的备份代理数量。5.修改备份系统数据库的部分参数值。如图3 所示。进入Avamar客户端中的“Tools“Manage Datasets选项,在弹出的Avamar对话框中,选择所用的数据集名称,选择mores选项,设置LinuxVMwarelmage和WindowsVMware Image。设置 awcbimagquiesce_fs=false,选择LinuxVMwarelmage选项,点击“+进行添加,选择“WindowsVMwareImage选
7、项,然后点击+进行添加。6.对部分虚拟机进行迁移,并更改虚拟机文件位置。*图2 检查并再次清理个别未清除成功的项DAtName:vm-to-ddSrurce BataZeluniesLnclusilonOgtiosSofectPlug-in Tpe:&eLinuxviware ImageUseChanged Block Trackng(CBT toincrease performanceset annotaton tag LastBackupstatus and LastsuccesfulBackupShowAdvanced OptionsEnterAtributee(awcbimagejqulesce_fs=falsep(awcbimagelqulesce_fs=talse田OKCancelHelp图3 修改备份系统数据库部分参数值经过上述处理后,单次执行7 50 台虚拟机备份任务,都能正常备份。至此,系统恢复正常。经验分享总结在进行VMware虚拟化云平台软件版本升级前,需要充分研判版本升级可能产生的风险点,全面梳理系统版本升级带来的影响范围。通过本次Avamar备份系统问题排查,笔者认识到,在今后工作中,应进一步加强与云计算厂家的技术交流,及时了解云计算技术的动态,及时掌握云计算技术存在的问题以及解决方法,避免因系统升级导致类似事件再次发生。N投稿信箱 2023.8155