ImageVerifierCode 换一换
格式:PDF , 页数:20 ,大小:1.49MB ,
资源ID:1289470      下载积分:25 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/1289470.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     留言反馈    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,个别因单元格分列造成显示页码不一将协商解决,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(人工智能行业带来的颠覆:数据中心设计的挑战及相关指南.pdf)为本站上传会员【Stan****Shan】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

人工智能行业带来的颠覆:数据中心设计的挑战及相关指南.pdf

1、 人工智能带来的颠覆:数据中心设计的挑战及相关指南 能源管理研究中心 第 110 号白皮书 版本 1.1 作者:Victor Avelar Patrick Donovan Paul Lin Wendy Torell Maria A.Torres Arango 为本白皮书评分 摘要 从大型训练集群到小型边缘推理服务器,人工智能(AI)在数据中心工作负载中所占的比例日益增加。这意味着需要向更高机柜功率密度进行转变。人工智能初创企业、一般企业、托管服务提供商和大型互联网企业现在必须考虑这些密度对数据中心物理基础设施设计和管理的影响。本白皮书探讨了人工智能工作负载的相关属性和趋势,并介绍了由此带来的数

2、据中心挑战,并针对每个物理基础设施类别(包括供配电、制冷、机柜和软件管理)提供了应对此类挑战的指南。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 2 人工智能带来的颠覆:数据中心设计的挑战及相关指南 近年来,我们目睹了人工智能的飞速发展,它改变了我们的生活、工作以及与技术的互动方式。生成式人工智能(如 ChatGPT)的出现更是推动了这一发展。预测算法正在对医疗1、金融、制造2、交通3和娱乐等行业产生影响。与人工智能相关的数据需求也正在推动新的芯片和服务器技术的发展,致使非常高的机柜功率密度的出现。与此同时,市场对人工智能的需求十分巨大。以上所述因素的结合为设计和运营数据中心

3、以支持这一需求带来了新的挑战。人工智能增长预测 我们估计人工智能目前的电力需求为 4.3 GW,并预测到 2028 年它将以 26%-36%的年复合增长率(CAGR)进行增长,最终达到 13.5 GW 至 20 GW。这一增长速度是数据中心总电力需求年复合增长率(11%)的两到三倍,详见表表 1 1。其中一项重要的洞察是,随着更多经过训练的新模型开始进入生产阶段,推理4负载将随时间推移而增加。实际能源需求将在很大程度上取决于技术因素,包括连续多代的服务器、更高效的指令集、芯片性能的提升以及人工智能的持续研究。本白皮书介绍了人工智能的重要属性和趋势,这些属性和趋势对数据中心不同物理基础设施类别带

4、来挑战,包括供配电、制冷、机柜和软件管理等。我们还提供了如何应对这些挑战的指南5。最后,我们对数据中心的未来设计方向提出了一些前瞻性看法。本白皮书并不是关于将人工智能应用在物理基础设施系统。虽然下一代物理基础设施系统最虽然下一代物理基础设施系统最终可能利用更多的人工智能技术,但本文终可能利用更多的人工智能技术,但本文专注于如何利用专注于如何利用当前当前可获得可获得的的系统系统来支持来支持人工人工智能负载智能负载。1 Federico Cabitza 等人,可靠性、可用性、可维护性和安全性(rams)、猎犬和白盒:研究医疗诊断中的人机协作协议,人工智能在医学中的应用,2023 年,第 138 卷

5、。2 Jongsuk Lee 等人,汽车行业智能工厂的关键赋能技术:现状与 应用,国际精密工程与制造杂志,2023年,第 1 卷。3 Christian Birchler 等人,自动驾驶汽车软件中基于仿真的经济性测试选择,计算机编程科学,2023 年,第226 卷。4 定义参见“人工智能属性与趋势”部分。5 这些指南也适用于其他高密度的工作负载,如高性能计算(HPC)。与 HPC 应用的主要区别在于,HPC 往往是会一次安装到位,可能采用定制的 IT、供配电、制冷和/或机柜解决方案。相较之下,人工智能应用存在不断扩展的需求,需要在标准设备(IT 设备和辅助基础设施)加以扩展。施耐德电气的估算

6、2023 2028 数据中心总负载 54 GW 90 GW AI 工作负载 4.3 GW 13.5-20 GW AI 工作占总负载的百分比 8%15-20%训练与推理 AI 工作负载对比 20%训练,80%推理 15%训练,85%推理 集中与边缘 AI 工作负载对比 95%集中,5%边缘 50%集中,50%边缘 简介 表 1 数据中心人工智能负载概览。pOvNqNmOoOtMzRsRrPvMrO8ObP7NoMrRtRnOfQpOpPfQqRzRaQqQwPNZmRqMNZsPsN施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 3 人工智能带来的颠覆:数据中心设计的挑战及相关指

7、南 人工智能以下的四个属性和趋势是导致物理基础设施面临挑战的根本原因:人工智能工作负载 GPU 的热设计功耗(TDP)网络延迟 人工智能集群规模 人工智能工作负载 AI 工作负载一般分为两类:训练和推理。训练训练工作负载用于训练人工智能模型,如大语言模型(LLM)。我们在本文中提到的训练工作负载类型属于大规模 分布式训练(大量机器并行运行6),因为它对当前的数据中心提出了挑战。这些工作负载需要将海量数据馈送至配有处理器(即加速器)的专用服务器。图形处理器(GPU)是加速器的其中一种7。加速器在执行并行处理任务(如 LLM 训练过程中的并行处理任务)时效率极高。除服务器外,训练还需要数据存储器和

8、将之连接在一起的网络。这些元素可组合成一个机柜阵列,称为“人工智能集群”。它实质上是将集群当成一台计算机来训练一个模型。精心设计的人工智能集群中的加速器在大部分训练时间(从数小时到数月不等)内都以接近 100%的利用率运行。训练集群的平均耗电量几乎等于其峰值耗电量(峰均比1)。模型越大,需要的加速器越多。大型人工智能集群的机柜功率密度从 30 kW 到 100 kW不等,具体取决于 GPU 的型号和数量。集群的规模从几个机柜到数百个机柜不等,通常以所用加速器的数量来加以描述。例如,22,000 H100 GPU 集群使用约 700 个机柜,需要约 31 MW 的电力,平均机柜功率密度为 44

9、kW。请注意,此电力不包括制冷等物理基础设施需求。最后,训练工作负载将模型保存为“检查点”。如果集群发生故障或断电,它可以从中断点继续运行。推理推理是指将先前训练好的模型投入生产,以预测新查询(输入)的输出。从用户的角度来看,输出的准确性和推理时间(即延迟)之间需要权衡。如果我是一名科学家,我可能愿意支付更高的费用,在两次查询之间等待更长的时间,以获得高准确度的输出。而如果我是一个寻找写作灵感的撰稿人,我会想要一个能即时回答问题的免费聊天机器人。简而言之,业务需求决定推理模型的大小,但很少会使用完整的原始训练模型。相反,我们会部署一个轻量级版本的模型,以在可接受的准确率损失下缩短推理时间。推理

10、工作负载倾向于使用加速器来处理大模型,并且还可能严重依赖 CPU,具体取决于应用。自动驾驶技术、推荐型引擎和 ChatGPT 等应用可能都有不同的 IT 堆栈,并根据各自要求进行了“调优”。根据模型的大小,每个实例的硬件要求可能从一台边缘设备(如智能手机)到几个服务器机柜不等。也就是说,机柜密度可以从几百瓦到 10 千瓦 6 模型中的大量参数和token要求将处理工作负载的任务分散到多个GPU上,以缩短训练模型所需时间。7 其他加速器的例子还有张量处理单元(TPU)、现场可编程门阵列(FPGA)和专用集成电路(ASIC)。人工智能属性与趋势 施耐德电气能源管理研究中心 第 110 号白皮书 版

11、本 1.1 4 人工智能带来的颠覆:数据中心设计的挑战及相关指南 以上。与训练不同,推理服务器的数量会随着用户/查询数量的增加而增加。事实上,一款流行的模型(如 ChatGPT)推理所需的机柜数量很可能是训练所需的机柜数量的数倍,因为它们现在 每天的查询量高达数百万次。最后,推理工作负载通常为业务关键型负载,需要具备韧性(如 UPS 和/或地理冗余)。GPU 的热设计功耗(TDP)虽然训练或推理离不开存储器和网络,但现在我们重点关注 GPU,因为它约占人工智能集群功耗的一半8。每一代 GPU 的功耗均呈上升趋势。芯片的功耗(以瓦特为单位)通常用 TDP 表示。虽然我们在此只讨论 GPU,但 T

12、DP 不断增加的总体趋势也发生在其他加速器上。每一代 GPU 的 TDP 都在增加,这是 GPU 为增加运算量而设计的结果,目的是在更短的时间内以更低的成本训练模型并进行推理。表表 2 2 比较了三代Nvidia GPU 在 TDP 和性能方面的差异9。GPU TDP(W)10 TFLOPS1111(训练)通过 V100 实现的性能 TOPS1212 (推理)通过 V100 实现的性能 V100 SXM2 32GB 300 15.7 1X 62 1X A100 SXM 80GB 400 156 9.9X 624 10.1X H100 SXM 80GB 700 500 31.8X 2,000 3

13、2.3X 网络延迟 在分布式训练中,每个 GPU 都必须有一个网口 来建立计算网络结构。例如,如果一台人工智能服务器有八个 GPU,那么该服务器需要八个计算网口。这种计算网络结构支持大型人工智能集群中的所有 GPU 以高速(如 800 GB/s)协同通信。随着 GPU 处理速度的提高,网络速度也必须提高,以减少训练模型的时间和成本。例如,使用GPU 以 900 GB/s 的速度处理内存数据,而使用 100 GB/s 的计算结构,这样会降低GPU 的平均利用率,因为它需要等待网络来协调 GPU 的下一步工作。这就好比买了一辆 500 马力的自动驾驶汽车,而车载的快速传感器阵列却通过缓慢的网络进行

14、通信;汽车的速度受到网络速度的限制,因此无法充分利用发动机的动力。高速网线价格不菲。例如,InfiniBand 光纤的价格是铜缆的 10 倍。因此,数据科学家会与 IT 团队合作,尝试使用铜缆用于人工智能训练集群,但必须确保网络布线距离在 8 400W 时,NVIDIA V100 GPU 功耗在该集群中占比 55%,当 700W 时,H100 功耗占该集群功耗的 49%。9 虽然 GPU 是这些性能提升的关键,但其他系统的改进也是为了充分利用 GPU,如增加内存和 GPU 之间的通信。10 V110、A100、H100 11 TFLOPS-每秒万亿次浮点运算-以张量浮点 32(TF32)精度度

15、量矩阵乘法吞吐量,通常用于训练工作负载。V100、A100、H100 12 TOPS-每秒万亿次运算-以 8 位整数(INT8)精度度量整数数学吞吐量,一般用于推理工作负载。V100、A100、H100 表 2 各代 Nvidia GPU 的 TDP 和性能 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 5 人工智能带来的颠覆:数据中心设计的挑战及相关指南 可接受的延迟范围内。增加每个机柜的端口可以缩短布线距离,这样可以增加每个机柜的 GPU 数量,但是机柜功率密度将被提高。最终,机柜集群将庞大到以至于延迟迫使设计人员改用光纤,以至于成本增加。请注意,推理工作负载的 GPU

16、并行化难度较大,因此这种机柜功率密度关系通常不适用于推理13。人工智能集群规模 如上所述,训练大模型可能需要数千个 GPU 协同工作。鉴于 GPU 约占集群功耗的一半,GPU 数量成为估算数据中心功耗的一个有用替代指标。图图 1 1 估算了人工智能训练集群中 GPU 数量与数据中心功耗的函数关系,涉及三代 GPU(见表表 2 2)。为了更好地理解这些值,我们以一座 40,000 kW 发电厂为例,这些值相当于该发电厂能够为大约3.1 万户美国普通家庭供电。请注意,这三条趋势线并不等同于相同的生产力。也就是说,虽然使用 H100 GPU 的数据中心的功耗超过使用 V100 GPU 的数据中心,但

17、H100 数据中心的生产力提升远远超过其功耗增加。05,00010,00015,00020,00025,00030,00035,00040,00045,00005,00010,00015,00020,00025,000kW consumptionGPU quantityV100A100H100kW耗电量GPU数量 上述四个属性和趋势对机柜功率密度有着直接的影响。目前,大多数数据中心可支持大约 10 至 20 kW 的峰值机柜功率密度14。不过,在人工智能集群中部署数十或数百个大于 20 kW 的机柜,将给数据中心运营商带来物理基础设施方面的挑战。这些挑战可能只与供配电有关,也可能涉及两个甚至更

18、多的物理基础设施类别。这些挑战并非不可克服,但运营商应在充分了解相关要求的基础上进行建设和运营,不仅是 IT 方面的要求,还有物理基础设施方面的要求,尤其是对现有数据中心设施的要求。设施越陈旧,支持人工智能训练工作负载的挑战就越大。下文的主要章节将针对每个物理基础设施类别更详细地介绍这些挑战,并为克服这些挑战提供了指南。请注意,其中的一些推荐设计方法仅适用于新建数据中心,而其他方法则适用于新建和已有(改造)建筑。人工智能工作负载给供配电链路共带来六大挑战,包括开关柜、配电回路和机架式配电单元(rPDU)。13 利用软硬件并行性来加快深度学习推理,2020 年 4 月 14 Uptime Ins

19、titute,机柜密度正呈上升趋势,2022 年 12 月 供配电 图 1 数据中心功耗估计值与 GPU数量的函数关系 数据中心 PUE=1.3 请注意,本图表未显示生产力提升。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 6 人工智能带来的颠覆:数据中心设计的挑战及相关指南 部署 120/208 V 配电装置变得不可行 配电模块规格太小,浪费 IT 空间 部署标准的 60/63 A 机架式 PDU 变得不可行 弧闪危险增加,使运维工作变得复杂 负载缺乏变化,增加上游断路器脱扣的风险 机柜温度高,增加了故障风险和安全隐患 部署 120/208 V 配电装置变得不可行 120/

20、208 V 是北美数据中心历来使用的电压,适用于相对较低的机柜功率密度(每个机柜大约 23 kW)且服务器使用 120 V 电源线供电的情况。如今,对于人工智能集群等高密度负载,该电压显然过低。虽然仍然可以以 120/208 V 电压为这些负载供电,但这将带来挑战,这些挑战源于以下关系:功率等于电压乘以电流(P=V x A)。正如等式所示,电压越低,相同功率下所需的电流就越大。因此,线缆的载流量必须更大,才能在安全的条件下提供更大的电流。现以由(8)台 HPE Cray XD670 GPU 加速服务器组成的人工智能训练机柜为例,机柜功率密度共计 80 kW。在 120/208 V 电压下,需要

21、 5 个 60 安培线路为机柜供电(每个线路等于 120 V x 3 相 x 60 A x 80%降容修正系数=17,280 W=17.3 kW),冗余为 1N。如果需要 2N 的冗余(尽管对于人工智能训练负载并不常见),这一数字将翻倍到 10。如果每个机柜有 5 到 10 个线路,可以想象,分布在由 100 个机柜组成的人工智能集群中的电缆会有多么混乱。结果很可能是电源线临时大杂烩式安装,悬挂在机柜上方/附近,这可能会导致人为失误和气流阻塞等问题。因此,这是不切实际的部署方法。此外,安装和管理过多的线路还涉及成本问题。指南指南:由于电压加倍意味着功率加倍,现有的 120/208 V 数据中心

22、应将其配电系统改造为 240/415 V。新建数据中心应该在设计时考虑 240/415 V。有关此主题的更多信息,请参见第 128 号白皮书 数据中心高效交流配电。这就引出了下一个挑战,即如何部署 240/415 V 配电装置。需要注意的是,全球大部分地区都不存在此类挑战,因为许多国家都采用 230/400 V 的较高电压配电,这适用于满足人工智能型机柜的电力需求。配电模块规格太小,浪费 IT 空间 数据中心配电主要有三种类型:基于变压器的配电单元(PDU)、远程配电盘(RPP)和母线。配电模块规格代表每种配电解决方案的容量(kW)。即使配电电压提高到240/415V(IEC 国家为 230V

23、),传统的配电模块规格也太小,无法支持当今的人工智能集群容量。十年前,一个 300 kW(120/208 V 时为 833 A)的配电模块可支持 100个机柜(五排,每排各 20 个机柜,平均机柜功率密度为 3 kW)。如今,同样的配电模块的电量甚至无法支持 NVIDIA DGX SuperPOD 的最低配置(单排 358 kW 的 10 个机柜,每机柜 36 kW)。由于各种原因,在单排机柜上使用多个配电模块是不切实际施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 7 人工智能带来的颠覆:数据中心设计的挑战及相关指南 的。例如,PDU 和 RPP 所占面积至少要增加一倍。与单

24、个大容量配电模块相比,多个配电模块也会增加成本。指南指南:为满足高密度集群的需求,必须加大配电模块的规格。建议选择规格足够高的配电模块,以至少支持一整排集群。在 240/415 V 配电电压下,800 A 的配电模块规格是目前适用于所有三种配电类型的标准容量尺寸。可提供 576 kW(降容后为 461 kW)。部署标准的 60/63 A 机架式 PDU 变得不可行 即使在更高的电压下,使用标准 rPDU 提供足够的容量仍然是一大挑战。大多数决策者更喜欢现成的 rPDU,因为它们的交付周期更短、易于获得、性价比更高,而且有多家供应商可以选择。目前,最高容量的现成标准 rPDU 的额定电流为 60

25、 A(NEMA)/63 A(IEC)。表表 3 3 给出了不同额定电流和电压下 rPDU 的可用容量。由此可见,60 A 和 63 A 额定电流将单个rPDU 的容量分别限制在 34.6 kW 和 43.5 kW。这导致了如何以最佳方式处理大于此数值的机柜功率密度的难题。NEMA 40 A 60 A 100 A 125 A 150 A 175 A 120/208 V 11.5 kW 17.3 kW 28.8 kW 36.0 kW 43.2 kW 50.4 kW 240/415 V 23.0 kW 34.6 kW 57.6 kW 72.0 kW 86.4 kW 100.8 kW 请注意,这些数值

26、根据典型的规范要求降额到 80%。IEC 32 A 63 A 100 A 125 A 150 A 160 A 230/400 V 22.1 kW 43.5 kW 69.0 kW 86.3 kW 103.5 kW 110.4 kW 指南指南:对于机柜功率密度大于 34.6 kW(NEMA)和 43.5 kW(IEC)的情况,有两种措施可以采用。1.多个现成的标准 rPDU 2.额定电流大于 60 A 和 63 A 的定制化 rPDU 当前,大多数零 U rPDU 的高度约为 2 米(80 英寸)。使用这些标准产品,最多在一个风冷式机柜中安装 4 个 rPDU(例如,4 x 60/63 A rPD

27、U 为 138 kW/174 kW)。或者,如果需要液冷分液器(manifold),则可在单个机柜中安装 2 个 rPDU(例如,2 x 60/63 A rPDU 为 69 kW/87 kW)。这些 rPDU 可以组合使用以增加容量,也可用于冗余(如 2N)。标配 定制 表 3 基于断路器额定电流值和电压(相电压)的每个 rPDU 可用三相功率密度 上表:NEMA(比如:北美)施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 8 人工智能带来的颠覆:数据中心设计的挑战及相关指南 如果由于 rPDU 的数量增多而导致空间受限,建议采用定制的 rPDU。例如,如表表 3 3 所示,在

28、北美,可以使用 175 A 的 rPDU 为 100 kW 机柜供电,在欧洲,可以使用 150 A的 rPDU 为 100 kW 机柜供电。定制的 rPDU 可以配备工业连接器,也可以采用硬接线方式,让您可以灵活地选择插座的数量和类型。在额定电流较高的情况下,由于其物理尺寸原因,工业连接器在机架内安装和馈电时需要更大的工作量(参见图图 2 2)。请注意,当额定电流大于 60A 时,可能需要专业电工进行安装和操作。321 毫米(12.6 英寸)125 毫米(4.9 英寸)305 毫米(12 英寸)150 毫米(5.9 英寸)弧闪危险增加,使运维工作变得复杂 根据第 194 号白皮书数据中心 IT

29、 空间的弧闪注意事项,“弧闪”一词描述的是电流击穿空气形成短路电弧时的情况。发生弧闪时,电流穿过空气从一点流向另一点,在不到一秒钟的时间内释放出大量的能量(称为“入射能量”)15。这些能量以热、声、光和爆炸压力的形式释放出来,所有这些都可能造成伤害。一些具体的伤害可能包括烧伤、失明、触电、听力丧失和骨折。提高 rPDU 额定电流值的结果是,它们的导线直径更大,从而允许更大的故障电流通过rPDU。如果 rPDU 上的可用故障电流导致入射能量达到或超过 1.2 cal/cm2,则工作人员在未接受适当培训和未佩戴个人防护设备(PPE)的情况下不得进入该区域16。风险随着 rPDU 电流额定值的增加而

30、增加。数据中心人员的安全是必须解决的难题。指南指南:由于涉及的变量之多,建议首先进行弧闪风险评估,分析可产生的故障电流,以便为特定场地提供最佳解决方案。这项研究必须从中压开关柜一直分析到机柜层面。解决方案的手段包括:配置阻抗电压更高的上游变压器 使用线路电抗器(即电感器)来阻止短路电流的流动 使用 限流器 使用 限流断路器 有关应对弧闪危害的更多详情,请参见白皮书 弧闪的消除 和第 253 号白皮书 大型数据中心限制中压短路电流的益处。15 根据 NFPA 70E(2015),入射能量是指”在电弧事件中,在距离电弧源一定距离的表面上产生的热能量。”16 如需了解更多信息,请参见第 13 号白皮

31、书 降低带电插拔设备时的电气风险和第 194 号白皮书 数据中心 IT空间的弧闪注意事项。图 2 240/415 V 125 A 工业连接器与卷纸尺寸的对比。要单人完成如此大的接头连接是个挑战。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 9 人工智能带来的颠覆:数据中心设计的挑战及相关指南 负载缺乏变化,增加上游断路器脱扣的风险 数据中心不同工作负载通常会随机达到峰值。据统计,所有这些峰值同时出现的概率极低。因此,如果将所有单个工作负载的峰值相加,除以总平均功耗,典型的大型数据中心的峰均比会达到 1.5 到 2.0 或更高。这就是设计人员能够“超量使用”供配电和制冷系统的原

32、因。但正如“人工智能属性与趋势”部分所述,人工智能训练负载缺乏变化。这些工作负载可以在峰值功率下运行数小时、数天甚至数周。其结果是增加了上游大型断路器脱扣的可能性。这就像家中许多大负载同时运行时,主面板上的断路器脱扣一样。图图3 3 显示了当数据中心的负载转为 100%人工智能负载时,峰均比(也称为差异系数)的典型范围。指南指南:如果新数据中心 IT 机房的人工智能训练工作负载超过 60-70%,建议根据下游各馈线断路器的总和来确定主断路器的大小。换句话说,假设峰均比为 1,即平均功耗等于峰值功耗。不建议超量使用和基于多变的做法。对于现有数据中心,计算上游断路器可支持的人工智能总负载。例如,如

33、果人工智能工作负载集群上游有一个 1,000 A 主断路器,应确保人工智能负载总和不超过 1,000 A。机架温度过高,增加了故障风险和安全隐患 随着机柜功率密度的攀升和对运行效率的关注,IT 环境的温度越来越高。较高的工作温度可提高制冷系统的效率,但也会对元器件造成更大的压力。当元器件暴露在非额定温度下时,可能会导致以下情况:元器件元器件过早故障过早故障 尽管系统在第一天能按预期运行,但如果暴露在规定范围之外的条件下,元器件的预期寿命会大幅缩短。安全隐患安全隐患 使用不符合额定工作范围的电线可能导致线缆熔化等安全隐患。IEC 60320 是全球大多数国家公认的电源线连接国际标准。IEC 连接

34、器的额定温度较高。标准 C19/C20 连接器和高温 C21/C22 连接器的比较如表表 4 4 所示。母头 公头 限值 备注 标配 65C C20 常用作跳线,从机架式 PDU 向大功率 IT 设备供电。高温 155C C21 可与 C22 或 C20 连接器配接,在温度超过 C19 额定值时使用。100%Traditional Workload50%Traditional Workload50%AI Training Workload100%AI Training Workloadp g y 21.51图 3 从 100%传统混合负载转为100%人工智能训练负载的典型峰均比范围 表 4 2

35、50 V 和 16/20 A 的 IEC 60320 标准和高温连接器比较 C19 C20 C21 C22 100%传统工作负载 50%传统工作负载 50%人工智能训练工作负载 100%人工智能训练工作负载 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 10 人工智能带来的颠覆:数据中心设计的挑战及相关指南 指南指南:建议分析人工智能集群内的所有负载,以确保使用适当的连接器和插座。C21/C22 连接器在人工智能服务器等高密度计算负载中越来越常见。人工智能服务器通常配有这些高温额定值线缆/插座,但机柜上的其他设备可能没有,如机柜顶部交换机。必须了解设备的运行环境,并确保所有设

36、备(包括 rPDU 及其所有子组件)都达到相应的额定值。在指定 rPDU 时,不仅要考虑电压、电流值和插座数量,还要考虑其额定温度。市场上有适用于此类应用的高温额定值 rPDU。尽管它们的成本通常较高,但增加的成本通常低于潜在故障发生造成的成本。建议在机柜后部放置温度传感器(由 DCIM 监控),以验证工作条件是否符合预期。人工智能训练服务器集群的致密化正迫使其从风冷向液冷转变,以应对不断增加的TDP。虽然密度较低的集群和推理服务器仍将使用更传统的数据中心制冷方式,但我们认为数据中心运营商需要应对以下六大制冷挑战:风冷不适合机柜功率密度 20 kW 以上的人工智能集群 缺乏标准化设计和场地的限

37、制使液冷改造变得复杂 不确定的未来 TDP 增加了制冷设计淘汰的风险 缺乏液冷经验使安装、操作和维护变得复杂 液冷会增加 IT 机柜内漏液的风险 非常有限的冷却液选择限制了液冷的可持续性 风冷不适合机柜功率密度 20 kW 以上的人工智能集群 用于 IT 的液冷方式已存在半个多世纪,用于专业的高性能计算。风冷一直是主流选择,如果设计得当,采用热通道封闭,可支持约 20 kW 的平均机柜功率密度。单台 8-10U 人工智能服务器的功耗为 12 kW,很容易超过 20 kW 这一阈值。此外,由于网络延迟限制,大型人工智能集群中的服务器无法分散放置(以降低机柜功率密度),这也是一大挑战。在 TDP

38、不断增加的驱动下,采用液冷的人工智能训练服务器越来越多,有些甚至完全采用液冷技术。指南指南:较小的人工智能集群和推理服务器机柜(每个机柜的功率密度为 20 kW 或更低)可以采用风冷技术。对于这些机柜,应遵循良好的气流管理实践(如 盲板、通道封闭等),以确保制冷更有效与更高效。如果风冷系统仍然受到限制,将人工智能服务器分散到多个机柜上是降低机柜功率密度的策略之一。例如,如果一个群集有 20 个机柜,每个机柜的功率为 20 kW,那么将服务器分散到 40 个机柜上就可以将机柜功率密度降低到 10 kW。请注意,如果增加的网络布线距离降低了人工智能集群的性能,则可能无法将人工智能服务器分散到多个机

39、柜。制冷 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 11 人工智能带来的颠覆:数据中心设计的挑战及相关指南 当人工智能机柜功率密度超过 20 kW 时,应重点考虑使用液冷服务器。目前市面上有多种液冷技术和架构。冷板式液冷(有时也称为热传导或冷板)和浸没式液冷是两个主要类别。与浸没式相比,冷板式液冷是目前的首选,因为它与现有风冷技术的兼容性更好,也更适用于改造项目。如果可以选择,数据中心运营商应选择液冷服务器,以提高性能和降低能源成本,从而抵消投资溢价。例如,HPE Cray XD670 GPU 加速服务器的风冷能耗为 10 kW,而液冷能耗为 7.5 kW,原因是风扇功耗

40、和硅片的漏电流均有所降低。有关液冷技术的更多信息,请参见第 279 号白皮书 采用液冷技术的五个理由 和第 265 号白皮书适用于数据中心和边缘应用的液冷技术。请注意,按单位体积计算,液体捕获热量的能力更强,这使得液冷技术比风冷技术更能有效地转移热量。但是,如果流体停止流动,芯片温度的上升速度远快于风冷,从而导致更快的宕机。将循环泵连接到 UPS 上将有助于解决这一问题。缺乏标准化设计和场地限制使液冷改造变得复杂 与传统的冷冻水系统相比,冷板式液冷服务器对水温、流量和化学成分的要求更为严格。这意味着数据中心运营商无法让冷冻水系统中的水直接流经芯片的冷板17。虽然水质无疑是数据中心改造为液冷数据

41、中心所面临的挑战之一,但最大的问题是缺乏针对这种规模(即数百个机柜)的人工智能负载的标准化设计。制冷剂分配单元(CDU)有多种安装方式和位置选择18。它可以安装在机房四周的地板上,也可以安装在机柜行的末端,还可以机架式安装。连接机柜的供液管道有多种架构,制冷系统设备的位置选择也有多种,控制温度的方法同样也不少,等等。为了帮助直观地了解液冷系统的组成,图图 4 4 给出了不同的水回路和 CDU。对液冷系统进行改造也会对运行中的数据中心造成破坏,而且可能会遇到物理限制,如地面空间有限和缺乏足够的高架地板高度来铺设水管。即使 100%的服务器都采用冷板式液冷方式,仍需要额外的风冷来冷却网络交换机等其

42、他设备以及来自液冷服务器的热传导。简而言之,改造是一项挑战,因为设计方案繁多,有限的分析,可借鉴的大规模液冷部署也不多。需要注意的是,有些数据中心没有冷冻水,这使得改造更具挑战性。机柜机柜外部CDUITECDUITE冷水机组冷却水系统(CWS)设施水系统(FWS)技术冷却系统(TCS)冷却塔数据通信设备中心 17 让未经处理的水流过服务器的冷板会导致腐蚀、生物生长和结垢。所有这些都会影响 GPU 的传热性能,最终导致 GPU 性能瓶颈或关闭以防止损坏。18 CDU 将冷冻水回路与供应服务器的“清洁”水回路进行物理隔离。图 4 使用 CDU 进行液冷的数据中心 数据来源:ASHRAE,水冷服务器

43、:通用 设计、元器件 和流程,第 10 页 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 12 人工智能带来的颠覆:数据中心设计的挑战及相关指南 指南指南:建议数据中心运营商在部署液冷技术之前,对液冷负载和设施的现有条件进行设计评估。专家审查对于可能的设计方案评估和避免不可预见的建筑限制对成本的影响至关重要。例如,管道可能会阻碍高架地板下的气流或或者与线缆桥架干涉。如需了解更多信息,请参见第 133 号白皮书集成液冷人工智能工作负载的数据中心设计实践。不确定的未来 TDP 增加了制冷设计淘汰的风险 人工智能技术正飞速发展,下一代 GPU 很可能会具有更高的 TDP 和更高的制

44、冷要求。例如,目前搭载八个 GPU 的服务器,下一代可能需要 16 个。因此,数据中心根据当前负载设计的制冷架构可能不足以满足未来的负载需求。指南指南:建议在设计制冷系统时要考虑到风冷和液冷技术的兼容性,根据需要进行扩展,并支持不同代的加速器。例如,目前使用较高温度的冷机提供风冷解决方案,未来就可以轻松切换到较高温度的液冷方式。另一建议是在设计冷冻水管道系统时为未来的CDU 配备分接装置。此做法可支持 100%的冷板式液冷负载,并结合冷背板换热器用于风冷的补充。缺乏液冷经验使安装、操作和维护变得复杂 数据中心运营商对风冷系统相当熟悉,因为风冷系统已经使用了数十年,但液冷方式对于大多数运营商来说

45、仍很陌生。液冷系统采用冷板、分液器、盲插接头等组件。这些组件还需要额外的安装、操作和维护流程,而这些都是操作人员所不熟悉的。例如,冷板式服务器中的微通道更容易结垢,这意味着操作人员可能需要学习新的操作和维护流程来控制水源的化学物质。另一个例子是将水接入服务器,这会带来漏液的风险。指南指南:液冷设计在最大限度地减少安装、操作和维护工作方面起着举足轻重的作用。建议数据中心运营商在对支持液冷式服务器物理基础设施不熟悉的情况下,应邀请专家对其设计进行全面评估,并制定详细的标准操作流程(SOP)和日常操作流程(MOP)。这将最大限度地减少故障和人为失误,尤其是与漏液有关的故障和失误。液冷技术会增加 IT

46、 机柜内的漏液风险 冷板式液冷技术需要在服务器内的冷板中通水(如去离子水、醇溶液等)。漏液是个安全问题,会影响可靠性,因此必须在设计和采购阶段加以考虑。指南指南:建议与信誉良好的供应商合作,确保他们的系统经过严格的压力测试,从而将漏液风险降至最低。此外,服务器和机柜级的漏液检测有助于在出现严重漏液问题之前及时发现。与其采用传统的 CDU 泵送系统,不如考虑采用创新型防漏系统(LPS)的CDU。LPS 可将水回路保持在轻微真空(负压)状态,以消除 IT 设备内的漏液风险。浸没式液冷技术使用绝缘液,也能消除服务器内的漏液风险。这些都是人工智能服务器或集成供应商有可能提供的方案。最后,应制定应急操作

47、流程(EOP)以应对可能漏液事件的发生。施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 13 人工智能带来的颠覆:数据中心设计的挑战及相关指南 非常有限的冷却液选择限制了液冷的可持续性 与传统的风冷 IT 相比,液冷在环境可持续发展方面具有一定的优势,因为它可以减少能耗和用水量。这是由于 IT 服务器和制冷系统的能效更高,因为大部分甚至全部服务器风扇都被移除,而较高的水温可以增加自然冷却时长19。不过,某些液冷系统使用了对环境有害的人工合成类化学物质。例如,碳氟化合物流体,因为优秀的传热导性能而被广泛用作浸没式液冷技术中的绝缘液20。遗憾的是,部分碳氟化合物具有高达 8,000

48、 全球变暖潜能值(GWP)。相比之下,冰箱常用的HFC-134a 制冷剂的 GWP 仅为 1,430。此外,社会压力也促使制造商从制冷剂等产品中剔除 PFAS(全氟和多氟烷基物质)以减轻对环境的影响,采用 GWP 较低的制冷剂。可持续发展已成为大多数数据中心运营商的首要任务,这使得他们可选择的冷却液很少。指南指南:我们建议避免使用含碳氟化合物的流体。过去,冷板式系统和浸没式液冷系统都使用了这种制冷剂。如今,冷板式系统使用的是水,因此不存在这个问题。如果采用浸没式液冷,建议使用 GWP 为零的油基类绝缘液(不同于两相的人工合成流体)。不过,由于油基绝缘液的传热效果不如使用水的冷板式液冷,因此冷板

49、式液冷已成为当今首选的液冷架构。需要注意的是,供应商很可能会开发碳氟化合物流体的可持续替代介质。这将显著提高浸没式液冷的散热效率,并可能促使制冷架构发生变化。更多信息,请参见第 291 号白皮书 用于 IT 设备浸没式液冷的绝缘液比较。前几节中提到的一些供配电和制冷的挑战也会影响到 IT 机柜(如 IT 柜体或机箱)。我们看到以下四个由人工智能工作负载所带来的对机柜系统的挑战:标准宽度的机柜缺乏所需要的配电和制冷装置安装空间 标准深度的机柜缺乏较深的人工智能服务器和布线所需的空间 标准高度的机柜缺乏容纳所需数量服务器的空间 标准机柜缺乏足够的人工智能设备承重能力 标准宽度的机柜缺乏所需要的配电

50、和制冷装置安装空间 由于人工智能服务器深度越来越深,机柜背面安装 rPDU 和液冷分液器的空间越来越小。随着服务器功率密度的不断增加,在标准宽度机柜(即 600 毫米/24 英寸)的背面安装必要的配电和制冷分配装置将变得非常困难,甚至不可能。此外,狭窄的机柜很可能会因配电和网线而堵塞机柜背面的出风。19 当室外温度低于水温时,节能即可实现。DTC 服务器的回水温度远高于传统的冷却水回水温度。在这些较高的温度下,一年中有更多的时间实现水的自由冷却。20 浸没式液冷将所有的芯片甚至整台服务器浸没在介电流体中。机柜 施耐德电气能源管理研究中心 第 110 号白皮书 版本 1.1 14 人工智能带来的

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2025 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服