基于态势感知的硬件故障预测研究.pdf

资源描述

1、2023 年第 7 期12计算机应用信息技术与信息化基于态势感知的硬件故障预测研究况天宝1 李珂1 王大帅1 李超1 于沈课1 靳登科1KUANG Tianbao LI Ke WANG Dashuai LI Chao YU Shenke JIN Dengke 摘要磁盘及内存故障已成为数据中心停机的主因，分布式存储系统本身的磁盘故障预测功能不成熟，且对不同品牌磁盘兼容性不足，在初始测试中预测成功率接近于 0,操作系统硬件报错机制还不够完善。在随机森林预测算法基础上研究了全新的磁盘故障预测模块，针对不同的磁盘型号选择不同的预测模型，大大提高了对磁盘故障的预测成功率。在基于服务器功能及操作系统

2、的特性研究了可行的内存态势感知工具，捕获并处理所有来自内核追踪架构的出错事件并记录,结合自研采集工具实时采集报告的硬件错误信息，产生监控指标最终生成告警，及时发现节点内存产生的读/写错误，有效减少了被动宕机及服务器重启问题。磁盘和内存故障预测生成的告警运用根因分析技术进行智能分析，及时有效的发现硬件故障，避免了被动宕机和重启问题的发生。经统计，磁盘预测模块精确率提升至 70%，召回率提升至70%；内存故障预测精准率提升至 90%以上。关键词态势感知；故障预测；根因分析；磁盘故障；内存故障 doi：10.3969/j.issn.1672-9528.2023.07.0031.浪潮云信息技术股份公

3、司山东济南 2501011 云计算环境下的硬件故障问题随着云计算、大数据的迅速发展，数据的存储和内存的使用需求不断攀升，因此要求以磁盘为主要存储介质的存储系统和使用内存进行高并发计算的服务器拥有更高的可靠性。硬盘由于其精密性较高，因此可靠性无法达到理想的状态，据统计磁盘的损坏已经成为数据中心停机的主因之一。大规模生产环境业务错综复杂、数据噪声大以及不确定因素多，因此能否提前准确预测内存故障已经成为大规模数据中心和云计算时代工业界需要研究和解决的重要问题之一。数据中心的运维工作在初期大部分由运维人员手工完成，但随着数据中心规模的扩大和人力成本的上升，这种落后的运维方式已经无法满足数据中心的需求

4、。智能运维是未来数据中心运维的发展方向。智能运维是将人工智能应用于数据中心的运维领域，利用数据中心的监控、日志、应用数据等，通过机器学习的算法解决数据中心运维中的问题。对于磁盘故障，分布式存储系统自身磁盘预测模块以使用磁盘最近几天的 SMART 数据预测磁盘未来健康状况。该模型由 ProphetStor 和 AIOps 公司训练和贡献，使用 Python通用机器学习框架 scikit-learn 的 SVM（支持向量机）分类器训练预测。但这个模型并没有对不同型号磁盘进行区分，不同厂商 SMART 数据含义有所差别，而分布式存储系统磁盘预测模块没有对不同型号的磁盘分别训练模型，导致实际预测精确率

5、非常低（接近于 0）。对于内存故障，Linux 的硬件报错机制还不完善，多数是由各种工具（mcelog 和 EDAC）造成，这些工具从不同源采用不同方法以及不同工具（比如：mcelog，edac-utils 和syslog）收集出错信息，报告出错事件。对于不同的服务器和操作系统，没有统一的故障收集和管理工具，导致实际应用困难。2 云计算系统磁盘故障分析对于磁盘故障，预测分析数据源采用的数据来自Backblaze 的公开数据，Backblaze 是一个云存储厂商，每个季度都会公布自己使用硬盘的 SMART 数据。具体采用了 2021 年 Q1 到 Q3 的 165 51

6、3 块磁盘数据，其中ST12000NM0007 型号运行正常且数据有效的磁盘 8435 块，出现故障磁盘 46 块。Backblaze 的磁盘预测数据包括磁盘的ID、每日的 SMART 记录、是否失败标签。磁盘预测目标是预测磁盘 n 天内是否会失效，结合实践情况和现场需求，将n 设为 30，构建训练数据集。每个 SMART 属性都有 raw 和 normalized 两个值，raw 2023 年第 7 期13计算机应用信息技术与信息化是原始值，normalized 是磁盘厂商对 raw 归一化后的值，归一方法未知。为了更好地描述磁盘的劣化情况，还需要构建磁盘的差分特征，将每个磁盘每天

7、的属性与该磁盘 1、3、7天前的属性分别做差，作为新的特征。由于特征过多，需要对数据中的特征进行选择，来减少机器学习算法的输入维度，降低模型的复杂度，建立更高效的预测模型，提高模型预测的准确性。有三种方法筛选特征，分别是移除低方差特征、单变量特征选择、随机森林特征选择。第一种用于对数据的预处理，过滤掉对结果影响较小的特征。第二种计算每个特征与目标值之间的关系是否存在统计显著性，选择对目标值影响较大的特征。第三种可以使用交叉验证对特征选择的结果进行检查，对训练集随机选择子集，使用随机森林算法选择特征，检查选择出来的特征是否相似。综合以上方法本文选择了如表 1 所示的特征。表 1 磁盘故障特征列表

8、SMART IDrawnormal-izedraw 1 天差值normal-ized 1 天差值raw 3 天差值normal-ized 3 天差值raw 7 天差值normal-ized 7天差值34579187192193197198240241242这些 SMART 属性的含义如下：3：主轴起旋时间4：启停计数5：重映射扇区计数7：寻道错误率9：通电时间累计187：无法校正的错误192：断电返回计数193：磁头加载/卸载计数197：当前待映射扇区计数198：脱机无法校正的扇区计数240：磁头飞行时间241：写入寿命剩余242：读取剩余寿命为了更好地描述磁盘失效前一个月的时间特性，根据磁盘

9、距离失效的时间长短对磁盘打不同的标签，经过不断调整与测试，最终找到了最佳的标签打法，即距离失效时间每三天作为一个标签值，并依次增加。随后，通过随机搜索的方法对数据集进行分析，最终选择出最优的随机森林预测的学习参数，此算法拥有准确性高、鲁棒性好等优点，广泛应用于机器学习领域。随机森林分为两种，一种是随机森林分类，可以将样本分类，另一种是随机森林回归，可以计算样本目标值，在磁盘预测领域，回归往往比分类拥有更好的效果，因为磁盘失效并不是突然发生的，磁盘失效前一天与其他时间的特征可能没有明显区别，如果强行将磁盘失效前一天的数据与其他时间数据分为不同类，可能导致机器学习算法无法学习到磁盘失效的特征，导致

10、无法正确预测；而根据距离磁盘失效时间长短对数据打标签后，再使用回归方式训练，预测结果是连续的，只要设置合理的阈值，就可以将好盘与坏盘分辨出来，另外，在实际生产场景中，使用随机森林回归预测比随机森林分类还有更高的灵活性，需要高精确率时可以选择较低的阈值，降低虚警率，需要高召回率时可以选择较高的阈值，预测出更多的坏盘。随机森林回归学习器训练时影响预测结果的参数有 13个，每个参数都有多种可选取值，可选的参数组合与参数个数呈指数关系，如果使用人工调整参数，工作量大且效率低下，现在业界有两种主流的自动参数调优方法中，网格搜索方法遍历所有可能的参数组合，从中选择一个最好的参数组合，由于参数组合太多，遍历

11、参数组合会消耗大量计算资源，随机网格搜索随机挑选参数组合，可以在相同的尝试次数下比网格搜索方法覆盖更多的参数组合范围，增加寻找到最优参数组合的概率。对于随机森林回归学习器，描述其好坏的指标是回归方差，表示预测值与实际值的差异程度，回归方差越低，表示学习器预测的越准确。通过随机搜索方法，对数据集进行了分析，最终选择的参数如表 2 所示。经过上述流程，使用 2021 年 5 月和 6 月数据验证用2021 年 1 月和 2 月数据训练出来的模型，效果如表 3 所示。为了验证该模型的泛化性，本文使用模型对 Backblaze最新的数据（2021 年 6 月到 9 月）进行了预测，得到的效果如表 4、

12、表 5、表 6 所示。2023 年第 7 期14计算机应用信息技术与信息化表 2 最优参数列表参数名称参数意义最优参数值n_estimators决策树数量100criterion衡量分裂质量的函数squared_errormax_depth决策树最大深度Nonemin_samples_split分裂一个节点需要的最小样本数2min_samples_leaf叶子节点最小样本数1min_weight_fraction_leaf叶子节点所需要的最小权值0max_features允许单个决策树使用特征的最大数量automax_leaf_nodes最多叶子节点数量Nonemin_impurity_de-

13、crease如果此分裂导致方差减少大于或等于该值，则该节点将被分裂0bootstrap是否有放回抽样Trueoob_score是否使用带外数据做验证Trueccp_alpha最小剪枝系数0max_samples训练需要的最大样本数None表 3 测试集 5 月-6 月测试集 2021 年 5 月-6 月阈值5.0 5.5 6.0 6.5 7.0 召回率55.5%63.0%63.4%74.7%79.6%精确率69.7%65.9%61.4%54.7%47.9%表 4 测试集 6 月-7 月测试集 2021 年 6 月-7 月阈值5.0 5.5 6.0 6.5 7.0 召回率47.253.257.6

14、60.462.6精确率78.476.272.567.661.5表 5 测试集 7 月-8 月测试集 2021 年 7 月-8 月阈值5.0 5.5 6.0 6.5 7.0 召回率43.0%47.6%50.6%51.4%51.9%精确率76.2%76.7%76.6%73.6%66.8%表 6 测试集 8 月-9 月测试集 2021 年 8 月-9 月阈值5.0 5.5 6.0 6.57.0召回率48.8%49.6%50.8%50.8%50.8%精确率75.1%75.0%74.2%71.4%63.2%通过对结果的分析，可以看出模型反泛化效果较好。3 云计算系统磁盘故障分析针对内存故障，业界没有统一

15、成熟的检测机制和预测方案。mcelog 是 Linux 系统用来检查硬件错误，特别是内存和 CPU 错误的工具，但已被逐渐废弃。EDAC 即错误检测与纠正，实现完全基于内核，支持基本的内存错误计数和一些日志记录，但没有实现 mcelog 中任何需要用户空间支持的高级特性，实际应用不广泛。最终采用开启 edac 和安装 rasdaemon 结合的方式，edac 可以提供内存故障的详细日志；rasdaemon 可捕获并处理所有来自内核追踪架构的可依赖性、可用性和可服务性出错事件并记录它们，使 Linux 内核从几个来源报告的硬件错误事件（EDAC、MCE、PCI、）变成一个公关框架，其发现的硬件错

16、误存储在本地 sqlite 数据库中，运行包括 rasdemon 服务端和ras-mc-ctl客户端。图1为ras-mc-ctl发现的内存故障事件样例。针对rasdaemon的监控本文使用telegraf采集器进行对接，并解决了开源版本连接 sqlite 会导致程序 OOM 和不能感知sqlite 文件生成与否的问题。随后，将这套监控方案部署到生产环境进行试运行，在经过一段时间的试运行，整理搜集了十几个云中心记录的数十次内存故障事件，这些内存故障事件中记录因为不同原因导致的内存态势感知工具事件。最终，经过分析和实践，抽取出和内存相关的四种常见的内存故障特征如表 7 所示，对其进行特征解析和计数

17、产生相应的监控指标，并配置相应的告警规则。图 1 内存故障事件样例 2023 年第 7 期15计算机应用信息技术与信息化表 7 内存故障指标对象表指标名对象名日志关键字ras_memory_read_corrected_errorsmemoryReadCorrectedMemory read error、Corrected_errorras_memory_read_uncorrectable_errorsmemoryRea dUncorrect edMemory read errorras_memory_write_corrected_errorsmemoryWriteCorrectedMem

18、ory write error、Corrected_errorras_memory_write_uncorrectable_errorsmemoryWri teUncorrect edMemory write error同时，针对四种内存故障分别研究对应故障的系统日志。结合后面提到的根因分析系统，根据运维经验提前准备好每类告警的分析模板，此处采用的是分析日志提取关键字获取故障内存位置。系统在收到内存故障告警后调用分析模板，最终提供给运维人员分析报告，以决定是否需要更换内存。4 分布式云背景下硬件故障根因分析及实践传统的告警自动化分析方法主要集中在对告警的资源实体进行拓扑聚合和对告警的指标维度进

19、行相关性分析等方面，这类工作对于海量告警的收敛抑制和运维任务的自动分发有一定价值，但对于平台及服务发生故障的根因定位和云环境的自主修复则收效甚微，平台及服务故障的根因定位和环境修复依旧完全依赖于运维人员的手动操作。模板匹配是统计决策方法的特殊情况，也是一种最基本的模式识别方法，模板匹配通过计算待识别样本和模板特征之间的相似度实现对样本的识别与分类。分布式云场景下的告警运维经验进行总结，将运维过程中操作的检查日志的查询过程和关键字特征、检查指标的查询过程和指标特征、执行的相关命令及预期的结果特征记录下来，然后按照本发明提出的实现根因分析模板动态更新的CR 资源模型的格式，针对每种告警，定义其根因

20、分析模板CR 文件并创建 CR 资源，进而将告警运维经验转化为待匹配的模板特征。提供的根因分析模板会被控制器解析并转化成根因模板特征，然后被更新到根因分析模板特征库中。如果云环境中产生的告警存在相应的根因分析模板，该告警就会被调度给本发明提出的模板匹配引擎对其进行特征匹配。模板匹配引擎会逐级地替换分析模板中的变量，并通过与特征类型相对应的操作（查询日志、查询监控、执行脚本），构建该告警的待识别样本特征。接下来，模板匹配引擎会统计所有历史中曾经发生过的同名告警的分析报告中的推荐根因，并根据这个统计结果对候选根因集合中的根因对象产生一个排序，排序最靠前的根因对象会被推荐为本次告警真正的根因。因此运

21、维人员根据磁盘和内存故障告警分析报告，在生产环境及时更换硬盘、内存硬件，有效地减少了被动宕机和重启问题的发生。从 2022 年 4 月到 8 月，在 20+个云中心上线磁盘、内存故障预测系统，总共收到 4 个云中心 10+台物理机的 100+次内存及磁盘故障告警，通过检测结果确认并更换物理机故障内存、故障硬盘，内存故障预测精准率达到 90%以上。该模型的实践有效预防了云中心宕机事件的发生，避免了对客户业务产生影响。参考文献：1 张威,宫云战,卢庆龄,等.基于指针映射集的动态内存故障测试方法研究 J.计算机学报，2009,32(11):2274-2281.2 乔旭坤,李顺,李君,等.基于机器学习

22、的硬盘故障预测研究 J.计算机技术与发展，2022,32(06):215-220.3 罗安源.基于知识图谱的 AIOps 根因分析系统的设计与实现 D.南京：东南大学，2022.4 贾宇晗,李静,贾润莹,等.硬盘故障预测模型在大型数据中心环境下的验证 J.计算机研究与发展,2015(s2):54-61.5 宋云华,柏文阳,周琦.基于 COG-OS 框架利用 SMART预测云计算平台的硬盘故障J计算机应用,2014,34(1):31-35+188.6LI C,JIN D,WANG D,et al.Research on disk failure prediction based on rando

23、m forest algorithmC/International Conference on Cloud Computing,Internet of Things,and Computer Applications(CICA 2022),Bellingham:SPIE,2022:571-576.7 MURRAR J F,HUGHES G F,KREUTZ-DELGADO K.Machine learning methods for predicting failures in hard drives:A multiple-instance applicationJ.Journal of ma

24、chine learning research,2005,6(1):783-816.8 CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:synthetic minority over-sampling techniqueJ.Journal of artifi cial intelligence research,2002,16(1):321-357.【作者简介】况天宝（1979），男，安徽淮北人，本科，中级，研究方向：云计算相关云平台计算、存储、网络领域研究及云基础设施及自动化持续交付领域研究。（收稿日期：2023-01-03 修回日期：2023-03-03）

展开阅读全文