收藏 分销(赏)

2024数据中心物理基础设施管理要求白皮书.pdf

上传人:宇*** 文档编号:3510644 上传时间:2024-07-08 格式:PDF 页数:42 大小:651.41KB
下载 相关 举报
2024数据中心物理基础设施管理要求白皮书.pdf_第1页
第1页 / 共42页
2024数据中心物理基础设施管理要求白皮书.pdf_第2页
第2页 / 共42页
2024数据中心物理基础设施管理要求白皮书.pdf_第3页
第3页 / 共42页
2024数据中心物理基础设施管理要求白皮书.pdf_第4页
第4页 / 共42页
2024数据中心物理基础设施管理要求白皮书.pdf_第5页
第5页 / 共42页
点击查看更多>>
资源描述

1、 数据中心物理基础设施管理要求 白皮书 (2024年4月)开放计算标准工作委员会 发 布 OCTC BB012024 T/CESA BB012024 II 目 次 前 言.1 背景、目的及意义.1 2 发展趋势.2 3 术语.4 4 平台架构.5 5 平台管理要求.6 5.1 资产管理.6 5.2 监控管理.11 5.3 配置管理.24 5.4 能耗管理.29 5.5 拓扑管理.30 5.6 统计管理.31 5.7 用户管理.32 5.8 安全防范管理.33 6 平台兼容性.34 6.1 硬件兼容.34 6.2 软件兼容.34 7 平台可靠性.35 7.1 系统稳定性.35 7.2 高可用性.

2、35 7.3 安全性.36 7.4 可伸缩性.36 7.5 容灾备份.36 7.6 监控和故障排除.37 8 平台高性能.37 8.1 并发量.37 8.2 响应时间.37 8.3 吞吐量.38 8.4 性能计数器.38 9 总结.38 参 考 文 献.40 OCTC BB012024 III 前 言 本文件由国网智能电网研究院有限公司提出。本文件由开放计算标准工作委员会归口。本文件起草单位:国网智能电网研究院有限公司、浪潮电子信息产业股份有限公司、中国电子技术标准化研究院、中国质量认证中心、南京大学、北京信息科技大学。本文件主要起草人:刘卫卫、赵保华、赵帅、陈海、刘晓蕾、郭锋、王晓通、马鸿超

3、、邸贺亮、刘畅、李锋、田琳、张鑫、贾伟、王勇旭、李松、张鹏、张玉峰、杨辰、马成欣、吴春鹏、王岳、郑敏、余智、陈凯、许封元、侯守璐。OCTC BB012024 1 数据中心物理基础设施管理要求 1 背景、目的及意义 在数字化转型的关键时期,数据中心作为一种新型基础设施,扮演着重要的角色。数据中心是用于集中存储、管理和处理大量数据的设施,它提供高性能的计算和存储资源,满足数字化转型所需的巨大数据处理需求。数据中心物理基础设施管理是指对数据中心的计算设备、网络设备、存储设备、动力环境、安全设施等基础设施进行全方位的管理,包括资产、监控、配置、能耗、拓扑、安全、用户等。随着数据存储规模和计算量的不断增

4、长,数据中心的规模也在不断扩大,对其物理基础设施的管理变得愈发困难。在数据中心快速发展的背景下,物理基础设施管理软件市场迅速扩大,各大厂商纷纷推出数据中心物理基础设施管理软件。然而,随着数据中心基础设施的多样性和复杂性增加,现有的管理软件面临着一系列挑战。由于数据中心基础设施的多样化,现有的管理软件缺乏标准化、一体化和智能化。这使得不同软件之间难以协同工作,管理数据中心的效率受到了影响。此外,现有的基础设施管理技术在覆盖其他行业客户应用方面存在不足,导致数据中心管理软件无法满足不同行业的特殊需求,限制了其应用范围。这些问题会给数据中心的稳定性、可维护性和可扩展性带来挑战。制订数据中心物理基础设

5、施管理技术要求是解决这一问题的重要举措。制订白皮书是为了解决数据中心物理基础设施管理标准不一致、缺乏一体化和智能化的问题。通过白皮书的制订,可以推动设备管理的一体化和规范化,促进管理平台在架构、功能和智能等方面的标准化,提高各数据中心之间的互操作性和兼容性。这将有助于提高数据中心的管理效率、可靠性和安全性,降低运营成本,推动整个数据中心管理的发展,进而促进数据中心物理基础设施管理产业的健康发展。此外,由于数据中心物理基础设施管理软件的复杂性,有必要出台相关标准进行统一规范,所以后续将基于此白皮书内容出台相关标准,以提升行业标准化水平、促进数据中心基础设施管理软件行业的发展。T/CESA BB0

6、12024 2 2 发展趋势 在当今数字化时代,数据中心的角色愈发关键,它们是企业信息管理和服务交付的核心。面对数据中心规模日益庞大、需求日益多样化的挑战,标准化管理、智能化管理以及一体化、平台化等成为了数据中心演进的关键方向。1、标准化管理是数据中心迈向高效、安全与绿色未来的基石、标准化管理是数据中心迈向高效、安全与绿色未来的基石 标准化管理是数据中心迈向高效、安全和绿色未来的基石。随着数据中心规模的增大,标准化管理成为数据中心管理的必然趋势。标准化管理可以帮助实现自动化和集中化管理,提高效率、降低成本,并增强安全性。通过制订统一的标准和最佳实践,数据中心可以更好地配置、监控和维护各个组件,

7、实现自动化流程和集中化管理,从而提高整体运维效率和资源利用率。首先,标准化管理可以促进自动化和集中管理。当数据中心的硬件和软件都遵循统一的标准时,管理员可以更容易地配置、监控和维护数据中心的各个组件。这使得管理员可以更快速地完成任务,提高工作效率,同时降低错误率。通过自动化常规任务,数据中心可以更快地适应变化,提高应变能力。其次,标准化管理可以提高效率。由于数据中心的硬件和软件都遵循统一的标准,所以可以更容易地实现自动化和流程优化。这不仅可以减少人工干预产生的错误,同时也可以提高工作效率,使数据中心更加可靠和高效。此外,标准化管理还可以降低成本。当使用相同或相似的硬件和软件配置时,数据中心可以

8、更大规模地采购,从而获得更好的定价和折扣。这使得采购成本得到更好的控制,同时也降低了维护和运营成本。最后,标准化管理可以增强安全性。标准化有助于确保数据中心的组件都符合安全标准和最佳实践。这使得数据中心更加安全可靠,降低安全漏洞的风险,并使数据中心更容易实施一致的安全策略。标准化在数据中心管理中扮演着关键角色,它不仅有助于提高效率和资源利用,还为数据中心提供了更好的安全性。对于大规模数据中心的统一管理,标准化是实现协调一致性操作的基础,从而使得整个数据中心更加高效和可靠,并且保障数据中心的绿色低碳。2、智能化管理是保持竞争优势的关键、智能化管理是保持竞争优势的关键 智能化管理是保持竞争优势的关

9、键,在数据中心运维中,自动化和智能化是数字化转型升级的必由之路。自动化管理可以减少人为错误、提高效率,并确保任务按照规定的标准和时间进行。通过人工智能、机器学习等先进技术赋能数据中心系统和运维过程,使其更加智能,以实现自动化学习、优化和适应变化,提高运维管理效率。OCTC BB012024 3 传统的手动管理和运维方式已经很难满足快速、高效、可靠的要求。数字化的发展是推动数据中心实现基础设施自动化和智能化管理的基础,因为只有通过数字化,才能够获取大量数据,并为自动化和智能化提供所需的信息和基础。同时,自动化和智能化管理也是数字化的必然结果,因为数字化使得数据中心能够更好地应用先进的技术和算法,

10、从而实现自动化和智能化管理的目标。智能化管理是利用人工智能(AI)和其他先进技术赋予数据中心系统和运维过程更高级的智能能力。通过使用这些技术,数据中心可以更好地满足不断变化的需求。全面的智能化管理是数据中心基础设施领域最终的技术演进方向,因为它具有很多优势。首先,智能化管理可以显著提高运维管理效率。在海量运维数据背景下,AIOps 可以自动分析和识别基础设施产生的异常、故障等问题,使运维管理更加高效、准确和及时。其次,智能化管理可以实现前瞻性的故障预测。利用 AI 的预测能力,可以提前预测服务器等基础设施的异常和故障,从而避免故障对业务造成影响,进一步提高数据中心的可靠性。此外,智能化管理可以

11、实现稳定的可靠保障。当数据中心基础设施出现异常或故障时,AIOps 可以通过自动化分析、诊断和修复,实现实时、快速的问题解决,确保数据中心的稳定性和可靠性。最后,智能化管理可以精细地控制成本。通过 AIOps,可以极大降低人力成本和时间成本,提高 IT 系统的可靠性和稳定性,同时也降低了故障和异常造成的损失。因此,智能化管理可以为数据中心带来更高的效率、可靠性和经济效益。3、一体化、平台化是数据中心持续发展的关键路径、一体化、平台化是数据中心持续发展的关键路径 一体化、平台化与数据中心基础设施融合是数据中心管理的趋势。现代的数据中心物理基础设施管理趋向于集成各种管理工具,并倾向于使用综合性的平

12、台来进行管理。一体化、平台化可以实现数据的集成和关联分析,提供统一的管理界面,节省时间和精力,提高管理效率,同时可以实现更全面的资源管理和协同运维,提高整体数据中心的效能和可靠性。现代数据中心物理基础设施管理正朝着集成各种管理工具并使用综合平台进行管理的方向发展。这种一体化和平台化的管理模式能够实现很多优势。首先,一体化、平台化可以收集来自各种设备和系统的数据,并将其整合在一个中央存储库中,实现数据的集成和关联分析,这使得管理员能够更全面地了解整个基础设施的状态和表现,从而更准确地评估和管理风险。其次,通过集成不同的管理工具,管理员可以在一个统一的管理界面中查看和操作所有相关数据和功能,这可以

13、节省时间和精力,提高管理效率,并减少在不同工具之间切换所需的工作量。此外,一体化、平台化还可以提供全局报告和分析功能,帮助管理员根据自身需求生成全局的报告和可视化数据,这使得管理员能够全面了解基础设施的性能和瓶颈,并采取适当的措施来优化和改进。T/CESA BB012024 4 3 术语(1)独立磁盘冗余阵列(Redundant Array of Independent Disks,RAID):RAID 技术将多个单独的物理硬盘以不同的方式组合成一个逻辑硬盘,从而提高了硬盘的读写性能和数据安全性。(2)sFlow(Sampled Flow):是一种基于报文采样的网络流量监控技术,主要用于网络流

14、量的统计分析。(3)网桥协议数据单元(Bridge Protocol Data Unit,BPDU):是一种桥嵌套协议,在 IEEE 802.1d规范里定义,可以用来消除桥回路。(4)固态硬盘(Solid State Drives,SSD):是由固态电子存储芯片阵列制成的硬盘,由控制单元和存储单元组成,数据读写性能相对于传统硬盘大大提升。(5)逻辑卷(Logical Volume,LV):是由逻辑磁盘形成的虚拟盘,也可称为磁盘分区。(6)受管磁盘(MDisk):是对主机系统不可见的物理存储器的逻辑单元。它可以是来自内部存储器阵列(RAID)的逻辑单元,也可以是来自外部存储系统卷的逻辑单元。(7

15、)可纠正错误(Correctable Error,CE):硬件会利用一部分资源对该错误进行修复,而当内存 CE 累计过多,无法进行自我修复时,则会产生 UCE,造成系统宕机重启。(8)不可纠正错误(Uncorrectable Error,UCE):当硬件侦测到一个错误,它会通过两种方式报告给 CPU 的。其中一种方式是中断,这种情况如果是 UCE 可能会导致服务器立马宕机。(9)硬盘自我检测分析与报告技术(Self-Monitoring Analysis And Reporting Technology,S.M.A.R.T):对硬盘的温度、内部电路、盘片表面介质材料等进行监测,力求及时分析出硬

16、盘可能发出的问题,并发出警告,从而保护数据不受损失。(10)根因定位(Root Cause Determination):是指通过分析服务器异常的具体表现和相关信息,找出可能导致服务器故障的具体原因。(11)碳排放系数(Carbon Emission Factor):是指每一种能源燃烧或使用过程中单位能源所产生的碳排放数量。(12)电能使用效率(Power Usage Effectiveness,PUE):评价数据中心能源效率的指标,是数据中心消耗的所有能源与 IT 负载消耗的能源的比值。PUE=数据中心总能耗/IT 设备能耗,其中数据中心总能耗包括 IT 设备能耗和制冷、配电等系统的能耗,其

17、值大于 1,越接近 1 表明非 IT 设备耗能越少,即能效水平越好。OCTC BB012024 5(13)高可用性(High Available,HA):是保证业务连续性的有效解决方案,一般有两个或两个以上的节点,且分为活动节点及备用节点。4 平台架构 数据中心物理基础设施管理平台旨在满足数据中心对于物理基础设施数字化的要求。该平台是在异构设备数据采集、汇总及分析基础上构建的综合管理平台。以高效的数据采集与存储作为支柱,平台整合了资产管理、监控管理、配置管理、能耗管理、拓扑管理、安全防护、统计管理以及用户管理等众多功能,致力于实现数据中心物理基础设施的全方位统一管理,平台架构如图 1 所示。图

18、 1 平台架构图 平台 DFX 设计包括平台可靠性、平台兼容性、平台高性能。平台可靠性确保系统在各种条件下均能稳定运行;平台兼容性保证平台在不同设备和操作系统上的无缝运行;平台高性能突出系统处理高负载、维持快速响应和高效率的能力。管理设备是平台支持的硬件基础,涵盖了计算资源、存储资源、网络资源以及智能机柜等关键设施。它通过兼容多种设备协议,如 Redfish、SNMP、RESTful、SMI-S、IPMI 等,实现各类设备与管理平台的高效接入。平台功能则根据多样化的应用场景,提供了多项核心功能服务。这些服务涉及从资产管理到安全防护的全方位覆盖,确保数据中心的运营能在一个统一且协调的平台下,响应

19、不同的管理和维护需求。T/CESA BB012024 6 资产管理资产管理:资产管理是指对各种与数据中心运营相关的实物资产进行有效的跟踪、记录、监管和优化的过程。这些实物资产包括服务器、网络设备、存储设备、电力供应设备、冷却设备、机柜、传感器等。监控管理监控管理:监控管理是指利用硬件设备及技术手段,对计算资源、存储资源、网络资源等关键基础设施的各个部件的状态、性能、日志和告警进行实时监控、数据采集和分析,以实现对基础设施运行状态的全面掌握和管理。配置管理配置管理:自动化配置是指利用硬件设备及技术手段,对计算资源、存储资源以及网络资源的固件、配置、操作系统以及应用情况进行远程管理,涉及固件的升级

20、、BMC、BIOS 配置、操作系统部署以及带内操作系统应用的监控和管理等。能耗管理能耗管理:能耗管理旨在精细化控制和监测数据中心及其设备在运行时的电力消耗,以确保数据中心能够持续、高效地提供计算服务,同时最大限度地降低能源成本和对环境的负担。拓扑管理拓扑管理:拓扑管理是指对网络拓扑结构和位置拓扑结构进行有效管理和控制的过程。统计管理统计管理:统计管理是指对数据中心物理基础设施的资产、监控系统中的告警以及计算资源、存储资源、网络资源等设备性能数据进行统计和分析。用户管理用户管理:用户管理对系统内部的用户权限和身份进行细致化控制。主要目标是确保各类用户能够根据其角色和职责获取适当的权限,从而确保数

21、据中心的安全和高效运行。安全防范管理安全防范管理:安全防范管理通过整合门禁系统和视频监控系统,为数据中心提供了一个全面的安全监控解决方案。5 平台管理要求 5.1 资产管理 资产管理是指对各种与数据中心运营相关的实物资产进行有效的跟踪、记录、监管和优化的过程。这些实物资产包括服务器、网络设备、存储设备、电力供应设备、冷却设备、机柜、传感器等。5.1.1 IT 设备管理 数据中心 IT 设备管理是一种对数据中心内所有 IT 设备资产进行跟踪、记录和管理的过程。它旨在确保数据中心 IT 设备资产的完整性、可用性,提供准确的资产信息。userid:444287,docid:164590,date:2

22、024-06-10,OCTC BB012024 7(1)计算资源 应支持基本信息的批量导入、手动录入和自动发现,基本信息包含厂商、型号、产品序列号、主板产品号、主板序列号等;应支持部件信息的批量导入、手动录入和自动发现,部件信息包含处理器、内存、磁盘、逻辑磁盘、电源、风扇、PCIe、RAID 等:处理器包含名称、状态、厂商、型号、主频、核数、线程数、型号、PN 等;内存包括名称、状态、槽位、序列号、厂商、类型、容量、最大频率等;磁盘包括名称、状态、槽位、容量类型、厂商、型号、序列号等;逻辑磁盘包括设备 ID、名称、容量(GB)、状态等;电源包括名称、型号、额定功率(W)、槽位、固件版本号、部件

23、号、模式、状态等;风扇包括名称、转速、转速百分比(%)、槽位、模式、状态等;PCIe 包括设备名称、厂商、槽位、描述、状态等;RAID 包括名称、序列号、固件版本、型号、状态等;应支持多种协议设备的自动发现和管理:IPMI、SNMP、Redfish、HTTP、HTTPS 等;应支持计算资源全生命周期的资产追溯,从采购、入库、出库、上架、下架、退库、报废等每个环节都能够准确记录和追踪计算资源的状态和流转情况;应支持服务器资源管理、资产信息的手动刷新和自动刷新能力,具体包括以下方面:手动刷新:管理员或操作人员可以手动触发资产信息的刷新操作,通过手动刷新,可以及时更新服务器的状态、配置和其他相关信息

24、,确保资产信息的准确性;自动刷新:系统应提供自动刷新机制,定期或根据设定条件自动更新资产信息,例如,可以设定一小时、四小时、每天、每周或每月进行自动刷新。(2)存储资源 应支持基本信息的批量导入、手动录入和自动发现,基本信息包含厂商、型号、序列号、投入运行时间、license 信息等;应支持部件信息的批量导入、手动录入和自动发现,例如,磁阵的部件信息包含机框、BBU、控制器、风扇、iSCSI、LUN、电源、RAID、磁盘、FC 等,其中:机框包含 ID、类型、序列号、状态等;T/CESA BB012024 8 BBU 包括名称、状态等;控制器包括名称、状态、容量等;风扇包括名称、状态等;iSC

25、SI 包括名称、ID、索引、速率(Mbps)、IP、MAC、子网掩码、状态等;LUN 包括名称、WWN、LUN ID、块大小(Byte)、块数量、未使用的块数、总容量(GB)、未用容量(GB)、状态等;电源包括名称、状态等;RAID 包括名称、池 ID、总容量(GB)、已用容量(GB)、未用容量(GB)、状态等;磁盘包括 ID、名称、厂商、型号、槽位、微码版本、容量(GB)、状态、块大小(GB)、块数量、类型等;FC 包括端口索引、端口 ID、端口速率(Mbps)、端口类型、状态等;分布式存储信息包含存储池、卷、快照等,其中:存储池包含名称、总容量、数据策略、安全策略、节点数量、总容量、已用容

26、量、状态等;卷包括名称、卷容量、QoS 列表、创建时间、所属存储池、状态等;快照包括名称、卷名称列表、脏数据容量(GB)、创建时间、所属存储池等;应支持多种协议的设备自动发现和管理:SNMP、SMIS、HTTP、HTTPS 等;应支持存储资源全生命周期的资产追溯,从采购、入库、出库、上架、下架、退库、报废等每个环节都能够准确记录和追踪存储资源的状态和流转情况;应支持存储资源管理、资产信息的手动刷新和自动刷新能力,具体包括以下方面:手动刷新:管理员或操作人员可以手动触发资产信息的刷新操作,通过手动刷新,可以及时更新存储设备的状态、配置和其他相关信息,确保资产信息的准确性;自动刷新:系统应提供自动

27、刷新机制,定期或根据设定条件自动更新资产信息,例如,可以设定一小时、四小时、每天、每周或每月进行自动刷新。(3)网络资源 应支持基本信息的批量导入、手动录入和自动发现,基本信息包含厂商、型号、序列号、投入运行时间、软件版本、设备类型、最大功率(W)、额定功率(W)、吞吐能力(Mbps)、包转发能力(Mpps)等;OCTC BB012024 9 应支持部件信息的批量导入、手动录入和自动发现,网络设备部件信息包含端口、风扇、电源、单板等:其中端口包含名称、描述、速率(Mbps)、类型、VLAN、MAC、对端端口 ID、对端 ChassisID、IPv4、IPv6、端口连接类型、连接设备 MAC、最

28、近接入状态及状态时间等;风扇包括名称、状态等;电源包括名称、型号、状态、模式等;单板包括名称、型号、序列号、槽位、状态等;应支持多种协议的设备自动发现和管理:SNMP、HTTP、HTTPS 等;应支持网络资源全生命周期的资产追溯,从采购、入库、出库、上架、下架、退库、报废等每个环节都能够准确记录和追踪网络资源的状态和流转情况;应支持网络资源管理、资产信息的手动刷新和自动刷新能力,具体包括以下方面:手动刷新:管理员或操作人员可以手动触发资产信息的刷新操作,通过手动刷新,可以及时更新存储设备的状态、配置和其他相关信息,确保资产信息的准确性;自动刷新:系统应提供自动刷新机制,定期或根据设定条件自动更

29、新资产信息,例如,可以设定一小时、四小时、每天、每周或每月进行自动刷新。(4)智能机柜 应支持基本信息的批量导入、手动录入和自动发现,基本信息包含智能机柜名称、厂商、型号、产品序列号、主板产品号、主板序列号、所属机房、所属数据中心、机柜高度(U)、额定功耗等;应支持部件信息的批量导入、手动录入和自动发现,智能机柜部件信息包含电源、风扇等:其中电源包括名称、厂商、型号、序列号、固件版本、输入模式、状态等;风扇包括名称、转速、转速百分比(%)、槽位、模式、状态等;应支持多种协议的智能机柜自动发现和管理:IPMI、HTTP、HTTPS 等;应支持智能机柜内计算资源、存储资源、网络资源的纳管及基本信息

30、、部件信息的获取;应支持机柜资源全生命周期的资产追溯,从采购、入库、出库、柜内设备上架、柜内设备移动、柜内设备下架、机柜在机房中的移动、退库、报废等每个环节都能够准确记录和追踪机柜资源的状态和流转情况;应支持智能机柜资源管理、资产信息的手动刷新和自动刷新能力,具体包括以下方面:T/CESA BB012024 10 手动刷新:管理员或操作人员可以手动触发资产信息的刷新操作,通过手动刷新,可以及时更新柜内设备的状态、配置和其他相关信息,确保资产信息的准确性;自动刷新:系统应提供自动刷新机制,定期或根据设定条件自动更新资产信息,例如,可以设定一小时、四小时、每天、每周或每月进行自动刷新。5.1.2

31、空间设施管理 空间设施管理是指对机房、机柜等物理空间资产进行综合性管理和维护的过程。它涵盖了各种方面,包括设备、布局、环境、电力控制等。包括对机房、机柜、服务器、网络设备、存储设备等进行规划、配置、部署和维护。(1)机房 应具备机房空间规划和管理功能,支持对机房机柜位置进行添加、移动、编辑和记录操作;应具备机柜信息记录与维护功能,支持对机柜名称、编号、容量、电力需求等信息进行记录和更新操作;应支持以不同文件方式进行机房批量导入,实现一次性导入多个机房的信息:其中包括机房名称、健康状态、机房编号、所在省市、机房的长宽(单位:米)、承重(单位:千克/平方米)、创建时间、机柜数量、服务器数量、存储数

32、量、网络设备数量、安全设备数量等;应支持以不同文件的方式进行机柜批量导入,实现一次性导入多个机柜的信息:其中包括机柜名称、健康状态、机柜编号、机柜高度、创建时间、服务器数量、存储数量、网络设备数量、安全设备数量等;应具备机房各项指标汇聚与展示功能,如温度、功耗、气流、进风口温度和出风口温度等;应具备机房功耗策略设置功能,支持如动态功耗策略和最低功耗策略等。(2)机柜 应支持机柜内设备布局管理,涵盖计算、存储、网络、动力环境传感器等资源的添加、移动和编辑操作;应具备机柜各项指标汇聚与展示功能,如温度、功耗、气流、进风口温度和出风口温度等;应具备机柜功耗策略设置功能,支持动态功耗策略和最低功耗策略

33、;OCTC BB012024 11 应支持通过传感器或其他方式实时监测设备的插拔状态,并自动识别设备类型和位置信息;应支持记录每个设备的位置和历史移动轨迹;应支持通过传感器实时监测每个 U 位的温度、湿度和电力等参数。5.2 监控管理 监控管理是指利用硬件设备及技术手段,对计算资源、存储资源、网络资源等关键基础设施的各个部件的状态、性能、日志和告警进行实时监控、数据采集和分析,以实现对基础设施运行状态的全面掌握和管理。监控管理是数据中心和大型企业中非常重要的一个环节,可以帮助管理员及时发现和解决基础设施的故障和性能问题,保证业务的稳定运行。5.2.1 状态监控 状态监控是指通过硬件或软件工具对

34、计算资源、存储资源、网络资源等关键基础设施及其相关部件状态进行实时监控,以确保这些设备处于正常工作状态。(1)计算资源 应支持计算资源的上下电状态监控;应支持计算资源的网络状态监控;应支持服务器部件的状态监控,部件包括 CPU、GPU、内存、电源、风扇、网卡、硬盘、RAID卡等:CPU 的部件状态监控包含:CPU 温度检测、CPU 内部错误(IERR)、CPU 处理降速等;GPU 的部件状态监控包含:GPU 不在位检测、GPU 状态异常、GPU 利用率超出阈值、GPU温度超出阈值、GPU 风扇转速异常等;风扇的部件状态监控包含:风扇不在位检测、风扇冗余丢失、风扇转速异常等;内存的部件状态监控包

35、含:内存不在位检测、内存故障、内存 ECC 错误、奇偶性校验错误等;电源的部件状态监控包含:电源不在位检测、电源故障、电源冗余丢失、电源输入缺失、电源输入电压越界等;T/CESA BB012024 12 网卡的部件状态监控包含:网卡不在位检测、网卡故障检测、端口连通性检测、收发字节数阈值监控等;硬盘的部件状态监控包含:硬盘插拔检测、SSD 剩余寿命检测、硬盘驱动器故障等;RAID 卡的部件状态监控包含:RAID 卡不在位检测、RAID 卡温度检测、RAID 卡缓存故障等;其他状态监控包含:温度监控,如入风口、出风口温度异常监控,电压、电流监控,如整机/部件的输入欠压欠流、过压过流等。(2)存储

36、资源 硬件监控中的日志监控功能对于存储设备(包括统一存储和分布式存储)的状态监控至关重要,应支持以下部件和整机状态监控:应支持实时监控存储控制器的状态,包括控制器的工作状态、故障状态、性能指标等;应支持实时监控存储介质的运行状态,如硬盘、SSD 等,包括读写速度、故障状态、使用情况等;应支持实时监控缓存的状态,如缓存的工作状态、容量和使用情况等;应支持实时监控网络接口的状态,如网络接口的工作状态、故障状态、网络流量等;应支持实时监控系统电源的状态,如电源的工作状态、故障状态等;应支持实时监控系统风扇的状态,如风扇的工作状态、转速等;应支持实时监控环境传感器的状态,如温度、湿度等。此外,对于存储

37、设备的整机状态监控,应支持以下功能:应支持实时监控存储设备的整体性能状态,如 I/O 吞吐量、响应时间等;应支持实时监控存储设备的总容量和可用容量,以了解存储空间的使用情况;应支持实时监控存储设备的故障状态,及时发现并处理故障问题;应支持实时监控存储设备的配置信息,包括系统版本、设备名称、IP 地址等;应支持实时收集、分析存储设备的运行日志,以便在设备发生故障或异常时及时发现并处理。同时,对于分布式存储的状态监控,应支持以下额外功能:应支持实时监控每个节点的状态,包括节点的工作状态、故障状态等;应支持实时监控分布式存储的数据同步状态,以确保数据的完整性和一致性;OCTC BB012024 13

38、 应支持实时监控分布式存储的数据保护情况,包括备份和恢复状态等。(3)网络资源 应支持实时监控电源模块的工作状态、故障状态等;应支持实时监控风扇模块的工作状态、转速等;应支持实时监控交换机的各个端口的状态,如连接状态、传输速率、错误统计等;应支持实时监控路由器的各个端口的状态,如连接状态、带宽、错误统计等;应支持实时监控交换机/路由器的处理器的工作状态、使用情况等;应支持实时监控交换机/路由器的内存的使用情况、故障状态等;应支持实时监控网络接口模块的工作状态、故障状态等;应支持实时监控设备的整体性能,如吞吐量、延迟等;应支持实时监控设备与网络的连接状态,如连接状态、丢包率等;应支持实时监控设备

39、的故障状态,及时发现并处理故障问题;应支持实时监控设备的配置信息,如 IP 地址、设备名称等;应支持实时监控设备的安全状态,如防火墙规则、访问控制列表(ACL)的状态等。(4)供电设备 应支持实时监控设备的在线通信状态;应支持实时监控供配电进线电源的电压、电流、电能等参数,各支路的电流、功率、电能等参数,以及各支路的开关状态;应支持对监测到的各项参数设定阈值(包括上下限、恢复上下限),一旦供配电发生越限报警或故障,系统将自动产生报警事件,并第一时间发出电话拨号、手机短信、E-Mail、声光等对外报警;应支持生成曲线记录,直观显示实时及历史曲线,可查询特定时间段内的历史曲线及具体时间的参数值(包

40、括最大值、最小值),并可将历史曲线导出为文件,方便管理员全面了解供配电的运行状况。(5)制冷设备 制冷设备包含空调设施、液冷设施等。平台对冷却设备状态监控要求如下:T/CESA BB012024 14 应支持实时监控冷却设备的在线通信状态;应支持实时监控制冷设备的开关机状态;应支持实时监控空调机组、风扇、制冷、回送风温度和湿度传感器的运行状态,支持温度、湿度、告警复位、温度偏差、回风温度、除湿偏差、主控方式的设定,并可对空调实现远程开关机的控制,同时支持与其它子系统的联动控制,如当温度过高时自动启动空调进行制冷;应支持实时监控液冷设备的信息,包括但不限于冷板监控(漏液)、CDU 监控(运行模式

41、、流量、温度、压力)、连接系统监控(运行状态、环路状态)、冷却工质监控(腐蚀度、物性参数)、冷源监控(温度、压力、流量);应支持对监测到的各项参数设定阈值(包括上下限、恢复上下限),例如制冷设备发生越限报警或故障时,系统将自动产生报警事件,并立即发出电话拨号、手机短信、电子收邮件、声光等对外报警;应支持提供曲线记录,直观显示实时及历史曲线,可查询特定时间段内的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为文件,便于管理员全面了解制冷设备的运行状况。(6)环境设备 应支持实时监控设备的在线通信状态;应支持通过数据库进行微环境监控阈值设置,例如对环境温度、漏水、烟感、通风系

42、统的各项参数设定阈值,一旦发生越限报警或故障,系统将自动产生报警事件,并第一时间发出电话拨号、手机短信、E-Mail、声光等对外报警,以实现监控平台软件对微环境的实时监测;应支持根据不同时间来显示不同时期的温度/湿度曲线,如 24 小时、7 天、30 天等;应支持提供曲线记录,直观显示实时及历史曲线,可查询特定时间段内相应参数的历史曲线及具体时间的参数值(包括最大值、最小值),并可将历史曲线导出为文件,方便管理员全面了解环境设备的运行状况。(7)照明设备 应支持实时监控设备的在线通信状态;照明光源应采用安全电压等级供电的 LED 灯条,宜采用支架内嵌入安装方式;应支持灯带颜色告警联动指示功能,

43、不同告警显示不同颜色;OCTC BB012024 15 应支持告警等级及指示灯光颜色3 种,并与动环管理系统联动,无告警时通道灯为白光,紧急告警时通道灯为红光,且支持自定义告警联动。(8)消防设备 应支持实时监控设备的在线通信状态;应支持实时监测机房内的消防火警信号,一旦发生报警,系统自动产生报警事件,并第一时间发出电话拨号、手机短信、E-Mail、声光等对外报警。5.2.2 性能监控 性能监控通过采集计算资源、存储资源、网络资源等设备性能数据,对实时或历史数据进行分析和展示,它旨在帮助管理员了解设备的运行情况及变化趋势。(1)计算资源 应支持计算资源的单机或批量实时性能数据、历史性能数据的导

44、出;应支持用户自定义时间范围的历史性能数据导出,格式包括但不限于 CSV、PDF、HTML;应支持用户设置计算设备的性能数据采集频率,包括实时、每日、每周或自定义时间间隔;应支持显示所有性能采集任务的状态,如运行中、运行成功、运行失败等,对于失败的任务,应提供失败原因并支持重试功能;应支持查看性能采集任务的执行历史记录;应支持归一化负载计算方式,支持多种指标类型,包括 CPU、内存、I/O、网络、电源负载等;应支持设备实时负载分析;应支持系统瓶颈识别,指标包括但不限于 CPU、内存、磁盘 I/O、网络带宽等;应支持设备性能基线定义,确定正常工作负载下的标准性能水平;应支持计算资源指标的 Top

45、 N 排名,用户可自定义关注的设备和指标,Top N 指标包括但不限于整机功率、气流、设备温度、电源功率、CPU、内存、GPU、硬盘、网络等;应支持计算资源的整机功率的监控,支持实时性能数据、历史性能数据展示;应支持计算资源的气流的监控,支持实时性能数据、历史性能数据展示;应支持计算资源的设备温度的监控,包括入风口、出风口、CPU、硬盘等指标;应支持计算资源的电源功率的性能监控,包括输入功率、输出功率等指标;T/CESA BB012024 16 应支持计算资源的风扇/制冷设备监控,例如风扇转速、风扇占空比等指标;应支持计算资源的 CPU 性能监控,包括总 CPU 利用率,单核 CPU 利用率等

46、指标;应支持计算资源的内存性能监控,包括总内存使用率、SWAP 使用率等指标;应支持计算资源的 GPU 性能监控,包括 GPU 温度、GPU 功耗、GPU 显存使用率、GPU 利用率、GPU 频率、GPU 风扇转速百分比等指标;应支持计算资源的硬盘性能监控,包括硬盘读写次数、硬盘响应时间、读写速率等指标;应支持计算资源的网络性能监控,包括端口收发速率等指标。(2)存储资源 应支持存储资源的单机或批量实时性能数据、历史性能数据的导出;应支持用户自定义时间范围的历史性能数据导出,格式包括但不限于 CSV、PDF、HTML;应支持用户设置存储设备的性能数据采集频率,包括实时、每日、每周和自定义时间间

47、隔;应支持显示所有性能采集任务的状态,如运行中、运行成功、运行失败等,对于失败的任务,应提供失败原因并支持重试功能;应支持查看性能采集任务的执行历史记录;应支持归一化负载计算方式,支持多种指标类型,包括 CPU、内存、I/O、网络、电源负载等;应支持设备实时负载分析;应支持系统瓶颈识别,指标包括但不限于 CPU、内存、磁盘 I/O、网络带宽等;应支持设备性能基线定义,确定正常工作负载下的标准性能水平;应支持存储资源指标的 Top N 排名,用户可自定义关注的设备和指标,Top N 指标包括但不限于整机功率、气流、设备温度、电源功率、CPU、内存、硬盘、网络、控制器、节点、卷等;应支持存储资源的

48、整机功率的监控,支持实时性能数据、历史性能数据展示;应支持存储资源的气流的监控,支持实时性能数据、历史性能数据展示;应支持存储资源的设备温度的监控,包括入风口、出风口、CPU、硬盘、磁盘框等指标;应支持存储资源的电源功率的性能监控,包括输入功率、输出功率等指标;应支持存储资源的风扇/制冷设备监控,例如风扇转速、风扇占空比等指标;应支持存储资源的 CPU 性能监控,包括总 CPU 利用率,单核 CPU 利用率指标;应支持存储资源的内存性能监控,包括总内存使用率、SWAP 使用率等指标;OCTC BB012024 17 应支持存储资源的硬盘性能监控,包括硬盘读写次数、硬盘响应时间、读写速率、硬盘利

49、用率等指标;应支持存储资源的网络性能监控,包括端口收发速率等指标;应支持存储资源控制器性能监控,包括但不限于控制器 Cache 读命中、Cache 写命中、控制器Cache IO 等;应支持存储资源的节点 IO 性能监控,指标包括读 IO、写 IO 等;应支持存储资源的卷性能监控,指标包括卷总带宽、卷读带宽、卷写带宽、每秒 IO 次数等。(3)网络资源 应支持网络资源的单机或批量实时性能数据、历史性能数据的导出;应支持用户自定义时间范围的历史性能数据导出,格式包括但不限于 CSV、PDF、HTML;应支持用户设置网络设备的性能数据采集频率,包括实时、每日、每周和自定义时间间隔;应支持显示所有性

50、能采集任务的状态,如运行中、运行成功、运行失败等,对于失败的任务,应提供失败原因并支持重试功能;应支持查看性能采集任务的执行历史记录;应支持归一化负载计算方式,支持多种指标类型,包括 CPU、内存、I/O、网络、电源负载等;应支持设备实时负载分析;应支持系统瓶颈识别,指标包括但不限于 CPU、内存、磁盘 I/O、网络带宽等;应支持设备性能基线定义,确定正常工作负载下的标准性能水平;应支持网络资源指标的 Top N 排名,用户可自定义关注的设备和指标,Top N 指标包括但不限于整机功率、设备温度、电源功率、缓存、端口、CPU、内存、单板、会话、板卡等;应支持网络资源的整机功率的监控,支持实时性

展开阅读全文
相似文档                                   自信AI助手自信AI助手
猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 信息产业

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服