收藏 分销(赏)

2024年AIDC基础设施建设白皮书.pdf

上传人:宇*** 文档编号:4205858 上传时间:2024-08-23 格式:PDF 页数:63 大小:13.50MB
下载 相关 举报
2024年AIDC基础设施建设白皮书.pdf_第1页
第1页 / 共63页
2024年AIDC基础设施建设白皮书.pdf_第2页
第2页 / 共63页
2024年AIDC基础设施建设白皮书.pdf_第3页
第3页 / 共63页
2024年AIDC基础设施建设白皮书.pdf_第4页
第4页 / 共63页
2024年AIDC基础设施建设白皮书.pdf_第5页
第5页 / 共63页
点击查看更多>>
资源描述

1、 2 3 习近平总书记指出,要加快新型基础设施建设,推动数字经济和实体经济融合发展。随着数字经济时代全面开启,算力正以一种新的生产力形式,为各行各业的数字化转型注入新动能,成为经济社会高质量发展的重要驱动力。算力基础设施作为算力的主要载体,是支撑数字经济发展的重要资源和基础设施,对于实现数字化转型、培育未来产业,以及形成经济发展新动能等方面具有重要作用。AIDC 的建设得到了国家层面的明确支持与指导。2020 年,国家发改委将智能计算中心纳入新基建范畴,激发了各地投资热潮,AIDC 由此进入快速扩张期。2021 年,国家相继发布了多项规划,包括新型数据中心发展三年行动计划(2021-2023

2、年)、“十四五”国家信息化规划以及“十四五”数字经济发展规划,这些规划进一步推动了 AIDC 的有序发展。到了 2022 年,国家政策引导力度进一步增强,特别是“东数西算”项目的提出,加强了算力资源的统筹与智能调度。2023 年,中共中央、国务院发布的数字中国建设整体布局规划强调了系统优化算力基础设施布局的重要性,促进了东西部算力的高效互补与协同联动。随着政策支持力度的加强以及人工智能技术的迅速发展,对算力的需求持续增长,AIDC 的建设变得尤为关键。AIDC 不仅提供强大的计算能力,还支持数据服务和算法服务,为人工智能的应用与创新提供关键支撑。AIDC 的建设和发展已成为推动数字经济和智能化

3、升级的关键力量,也是实现国家人工智能战略和科技创新的重要举措。在中国,AIDC 作为新型基础设施的重要组成部分,正成为推动经济社会发展和科技进步的重要引擎。因此,超云数字技术集团有限公司联合宁夏西云算力科技有限公司,与时俱进,聚焦 AIDC 基础设施规划、建设、运营,编制了AIDC 基础设施建设白皮书,为 AIDC 基础设施建设提供参考。引言INTRODUCTION 1 1 AIDC 概述PART 1 2 AIDC 定义AIDC(Artificial Intelligence Data Center),即人工智能数据中心,是指集成了高性能计算能力、大数据处理能力、人工智能算法和云计算服务的综合

4、信息处理中心。作为新时代信息技术发展的关键基础设施,AIDC 能够为政府、企业、科研机构等各类用户提供强大的数据处理和智能分析能力,支持智慧城市、智能制造、科研计算等多样化的应用场景,是推动社会信息化和智能化转型的重要力量。AIDC 建设背景AIDC 的建设是应对当前及未来计算需求的关键举措,对于推动科技进步、经济增长和社会发展具有重要作用。随着技术的持续进步和应用场景的不断扩展,AIDC 的建设和运营正在不断进行优化和升级,以适应新兴的挑战和需求。AIDC的建设背景可以从政策支持、技术发展和应用需求等多个维度进行阐述。_政策背景在全球化和数字化的大潮中,众多国家将 AIDC 建设提升至国家战

5、略的高度。以中国为例,“十四五”规划和 2035 年远景目标纲要明确提出加快数字化发展,并将 AIDC 等新型基础设施的建设列为重点任务。国家层面发布的“十四五”国家信息化规划和“十四五”数字经济发展规划均强调了推动智能计算中心有序发展的必要性。政府为支持 AIDC 的建设和运营,出台了一系列政策,涉及资金支持、税收优惠、土地使用等方面。工业和信息化部联合其他五个部门印发了算力基础设施高质量发展行动计划,旨在推动算力基础设施的高质量发展。国家发展和改革委员会出台的智能计算中心规划建设指南为 AIDC 的规划建设提供了明确的方向。此外,北京、浙江、四川、广东、上海、山东等多个省市也相继发布了相关

6、政策规划,形成了央地协同推进 AIDC 发展的格局。_技术背景数字化转型的深入推动了对智能算力需求的大幅增长,预计未来 80%的经济活动将依赖于人工智能。AIDC 作为新型基础设施,其建设显得尤为迫切。人工智能技术的演进正从单模态智能向多模态融合迈进,AIDC 在这一过程中扮演着核PART 1|AIDC 概述 2 3 心角色,成为推动通用人工智能发展的关键力量。算力经济的兴起和人工智能技术的融合创新,使 AIDC 成为新基建的热点。AIDC 的建设不仅满足了日益增长的人工智能算力需求,而且在促进 AI 产业化、赋能产业 AI 化、支持治理智能化等方面发挥了重要作用。AIDC 的发展正在逐步构建

7、一个普适普惠的服务生态,包括算法应用的普及和算力服务的普及,这将为各行业的智能化升级提供助力。_应用背景AIDC 的创新发展对推动人工智能及相关产业的快速增长具有显著影响,成为经济增长的新引擎。据智能计算中心创新发展指南预测,“十四五”期间,城市对 AIDC 的投资有望带动人工智能核心产业增长约 2.9 至 3.4 倍,相关产业增长约 36 至 42 倍。智慧城市建设、科学研究以及传统产业的数字化和智能化升级,都对数据分析和智能决策支持提出了更高要求。AIDC能够提供必要的计算资源、支撑基础和技术支持,从而推动人工智能技术的广泛应用,并加速科研创新和产业升级。AIDC 的建设是数字化转型的加速

8、器和智能经济的基石,已成为推动社会进步和经济发展的大势所趋。4 PART?|AIDC?AIDC 建设分析PART 2 4 5 建设原则AIDC 的建设不仅仅是基础设施的搭建,需要综合考虑建设基础和当地的经济状态、产业特点等。AIDC 规划建设应遵循以下几个关键原则:提供公共服务 优化产业布局AIDC 旨在将智慧计算服务普及至基本公共服务,如水电一样,提供公共的算力、数据和算法服务。在建设规划中,应综合考虑国家重大区域发展战略、能源结构、产业布局、市场发展和气候环境等因素,对国家枢纽节点、省内数据中心、边缘数据中心、老旧数据中心及海外数据中心进行分类引导,以形成数据中心的梯次布局。加速产业升级

9、激发经济活力AIDC 致力于通过降低 AI 应用成本、提升算力效率,促进 AI 生态的对接和创新产业的聚集,加速产业的转型升级,以及数字经济与传统产业的深度融合,全面激发经济的智能活力。AIDC 以 5G、工业互联网、云计算、人工智能等技术的应用需求为牵引,整合多元数据资源,提供安全可靠的算力服务,赋能各行各业。技术领先 生态多元AIDC采用尖端AI芯片和面向新型AI场景的计算架构,基于 AI 模型提供高强度的数据处理和智能计算能力,构建技术领先、可持续迭代升级的高性能、高可靠的计算架构。AIDC 注重技术领先和多元算力生态的共同支撑,全面支持人工智能技术的应用和演进。绿色低碳 安全可靠AID

10、C 坚持绿色发展理念,推广绿色技术和产品,采用清洁能源,并致力于提高能源利用效率。AIDC 在推进发展的同时,也高度重视安全保障,通过强化网络和数据的安全管理体系,构建全面且稳固的安全防护架构。这些原则旨在推动 AIDC 的高质量发展,构建以 AIDC 为核心的智能算力生态体系,有效支撑各领域的数字化转型,为经济社会提供高质量的发展动能。6 PART?|AIDC?建设方式AIDC 建设的具体实施步骤会根据项目规模、地点、投资主体等变量而有所差异,但一般涵盖以下几个基本阶段。项目规划与可行性研究:开展市场调研以评估需求和潜在用户群体;明确 AIDC 的目标与功能,包括所需的计算能力、数据存储与处

11、理需求;执行技术和经济可行性研究,评估项目的可持续性与盈利模式。选址与环境评估:综合考虑能源成本、气候条件、网络基础设施等因素,选择最佳地点;进行环境影响评估,确保项目符合环保和可持续性标准。资金筹集与投资结构确定:依据项目需求确定资金来源,可能包括政府资助、企业投资、银行贷款等;制定投资结构,明确股权分配和投资回报机制。设计与建设:委托专业机构进行 AIDC 设计,确保技术领先和未来可扩展性;选定建筑和 IT 基础设施供应商;监督管理建设过程,确保建设质量和工程进度。设备采购与安装:根据设计规范采购所需的高性能计算设备、存储系统、网络设备等;执行硬件和软件系统的安装与配置。运营准备与人员培训

12、:组建运营团队,制定运营策略和管理流程;对运营人员开展专业培训,以确保 AIDC的有效管理。试运营与优化:启动试运营阶段,收集用户反馈,对服务进行优化;调整运营策略以更好地满足用户需求。正式运营与持续改进:AIDC 正式投入运营,提供计算服务;定期评估服务效果,并根据技术进步和市场变化进行必要的升级与改进。完成这些步骤需要跨学科的专业知识,涉及计算机科学、建筑学、项目管理、金融学和环境保护等领域,通常需要多学科专家和团队的紧密合作。12345678 6 7 应用场景AIDC 的应用场景极为广泛,覆盖了多个行业和领域,此处以智慧金融和智慧医疗为例,介绍部分应用场景。风险管理:利用大数据分析和人工

13、智能算法,金融机构能够更精准地识别和评估包括信贷风险、市场风险和操作风险在内的各类风险。这些技术有助于预测市场趋势、侦测欺诈行为、评估客户信用状况。算法交易:AIDC 可以支持资本市场的高频和算法交易策略的开发与执行。机器学习使交易系统能够从历史数据中学习,并实时作出交易决策。客户服务:AIDC 可以支持智能客服系统的构建,实现全天候客户服务,通过自然语言处理技术理解并响应客户的询问和需求。反洗钱和客户分析:人工智能技术强化了反洗钱和客户身份识别流程,通过分析大量客户数据可以快速识别可疑交易和行为。疾病诊断与预测:通过分析海量医疗数据和图像,辅助医生更准确地诊断疾病,如癌症、心脏病等,并预测疾

14、病的发展趋势。药物研发:应用机器学习和数据挖掘技术,可以加速新药的发现和开发,降低研发成本和风险。医疗影像分析:利用人工智能技术自动分析医疗影像,如 X 光、CT 扫描和 MRI 图像,协助医生迅速识别疾病的?兆。健康管理和预防:通过大数据分析,提供健康管理和预防性建议,助力公众改善生活方式,预防疾病的发生。这些应用场景展现了 AIDC 在金融和医疗行业中的深远影响。类似地,其他行业也在进行智慧化升级,但由于篇幅限制,此处不再详细列举。智慧金融智慧医疗 8 PART?|AIDC?AIDC 基础设施PART 3 10 11 通用计算资源池主要用于传统 HPC 业务,异构计算资源池则用于进行 AI

15、 训练推理等相关业务。异构计算节点采用的异构加速芯片多种多样,主要包括 GPU、FPGA、ASIC 等,主流的厂商有 NVIDIA、AMD、Intel,国内的加速芯片厂商主要有昇腾、天数、昆仑芯、寒武纪等。分布式存储资源池负责存储和管理大量的数据资源,为智算任务提供必要的数据支持。通用计算资源池则提供通用的计算能力,支持各种计算密集型任务的处理。数据传输网是 AIDC 中各个组件之间数据传输的通道,它确保数据在 AIDC 内的快速、准确传输,通常使用 RoCE 技术或者 IB 网络来实现低延时、无丢包的高性能网络通信,从而保障 AI 集群的高效率运行。运维管理中心则负责对整个AIDC 进行监控

16、和管理,确保系统的稳定运行。此外,AIDC 的逻辑拓扑还可能包括其他辅助组件,如安全管理模块、网络管理模块等,这些模块共同提升 AIDC 的安全性和可靠性。_AIDC 评价指标AIDC 评价指标是衡量 AIDC 性能、效率和绿色化程度的一系列标准,对于 AIDC 的规划、建设和运营至关重要。AIDC评价指标可以根据其衡量的内容分为以下几个类别:能源效率指标PUE(Power Usage Effectiveness):衡量 AIDC 能源效率的指标,反映 AIDC 用于 IT 设备的实际功率与总能耗的比例。计算公式为:PUE=总耗电/IT 设备耗电。注:PUE 值越接近 1,表示 AIDC 的能

17、源效率越高水资源效率指标WUE(Water Usage Effectiveness):衡量 AIDC 水资源使用效率的指标,反映数据中心总耗水量与 IT 设备耗电量的比值。计算公式为:WUE=(总耗水)/IT 设备耗电注:WUE 数值越小,代表 AIDC 耗水量越低 12 PART?|AIDC?环境影响指标CUE(Carbon Usage Effectiveness):衡量 AIDC 碳排放效率的指标,反映数据中心 CO2 总排放量与 IT 负载能源消耗的比值。计算公式为:CUE=总 CO2 排放量/IT 设备耗电注:CUE 数值越小,代表 AIDC 碳排放强度越低计算能力指标计算力(Comp

18、utational Power,CP):衡量 AIDC 计算能力的指标,包括 CPU 能力和 GPU 算力。计量单位是每秒执行的浮点运算次数(FLOPS)。计算公式为:CP=CPU 算力+GPU 算力注:数值越大代表综合计算能力越强网络传输能力指标运载力(Network Power,NP):衡量AIDC数据传输能力的指标,包括网络架构、网络带宽、传输时延、吞吐量等。存储能力指标存储力(Storage Power,SP):衡量 AIDC 数据存储能力的指标,包括存储容量、性能表现、安全可靠等方面。应用效率指标训效比(Training Efficiency Ratio):衡量 GPU 训练能力,基

19、于多种数据,引入训效比和训价比参数,其中,训效比更加面向未来。计算公式为:TER=GPU 训练能力/能源消耗注:数值越高,单位能源输出训练越高这些指标共同构成了一个全面的评估框架,用于评价 AIDC 在能源利用、环境影响、计算力、运载力和存储力以及综合服务能力等方面的性能。通过这些指标,可以对 AIDC 的设计、建设和运营进行优化,以实现更高的效率和更好的性能。12 13 通用计算设备_AIDC 计算设备需求在 AIDC 中,服务器上的应用主要围绕人工智能的需求展开,这些应用包括但不限于人工智能模型训练、模型推理、大数据分析等。人工智能模型训练服务器用于训练各种 AI 模型,包括深度学习、机器

20、学习和传统算法模型。这些模型可以应用于图像识别、语音识别、自然语言处理、推荐系统等多个领域。在训练过程中,服务器需要处理大量的数据和复杂的计算任务。模型推理(Inference)训练好的模型部署到服务器上,用于进行实时或批量推理。用户可以通过 API 或其他接口提交数据,服务器上的模型对这些数据进行处理,并返回预测或分析结果。大数据分析服务器对大规模数据集进行分析,以提取有价值的信息和洞察。这包括数据挖掘、统计分析、预测建模等,帮助企业和机构做出基于数据的决策。在整个流程中,服务器需要具备高性能的计算能力、充足的存储空间和快速的数据读写能力。此外,为了确保模型的稳定运行和高效服务,服务器还需要

21、具备良好的散热系统、稳定的电源供应和网络连接。随着模型规模的增大,对服务器的要求也越高,可能需要使用专门为深度学习优化的硬件和软件堆栈。_AIDC 计算设备选型原则随着人工智能和大数据技术的飞速发展,AIDC 作为支撑这些技术的重要基础设施,对服务器计算设备的需求日益增长。AIDC 扮演着智能算力的物理载体角色,需要高性能的服务器来处理海量数据,对其底层硬件设备的方方面面提出了极高的要求,针对其选型我们可以考虑以下几个关键要素。14 PART?|AIDC?一款先进的 AI 服务器需要搭配最先进的 CPU 芯片,先进的 CPU 芯片不仅能够提供强大的基础算力,而且其内置的 AI 加速技术更是能够

22、大幅度提高 AI 的计算效率。不但如此,先进的芯片还能支持更多的PCIe扩展和更大容量的内存,可为AI服务器提供更多的可能性。异构加速芯片是 AI 训练推理的核心算力来源,常见的异构加速芯片有 GPU、FPGA、ASIC,AI 训练中主要用到的是 GPU 架构的芯片。随着 AI 技术的发展,市场上各种各样的AI 加速产品层出不穷,其中 NVIDIA 的 GPU 产品在市场占据主流地位,AMD、Intel 也有自己的产品,国产 GPU 也涌现出了很多厂商,例如昇腾、昆仑芯、寒武纪、天数等。由于 AI 训练推理中会涉及大量的 GPU 之间的 I/O 交互,因此对 GPU 之间的通讯效率有着较高的要

23、求,为了解决该问题可以采用 PCIe Switch 来将多个 GPU 互联,根据连接方式的不同可以形成多种拓扑模式,可针对不同的 AI 算法通讯需求进行灵活调整优化。但是面对超大规模的 AI 训练,即便是 PCIe Gen5 的带宽也略显不足,为了解决该问题不同厂商提出了不同的解决方案,其中 NVIDIA 的 NVLink+NVSwitch 方式是当前市面上的主流方案,基于该方案可以大幅度提高 GPU 点到点之间的通讯带宽,最高可达 900GB/s。扩展性也是一款 AI 设备的重要要素,在 AI 训练推理中涉及多个节点并行时需要通过网络进行互联,对网络的延迟和带宽提出了很高的要求。这就需要 A

24、I 设备本身具有较高的扩展性来适配对应的网卡,当前主流的 AI 网络一般采用 NDR 网络,对应的需要 PCIe x16 的扩展插槽,基于现在主流的网络设计,需要在满足满配 8 张 GPU 的情况下仍能提供 45 个PCIe x16 的扩展插槽。散热也是一款 AI 设备的重要一环,现在 GPU 的功耗动辄 350W 以上,整机满配 8 卡并搭配高端 GPU 的情况下?会达到整机功耗 4000W 以上,对散热性能提出了极高的要求,良好的散热系统不仅能够提升整机的性能,而且能够保证整机长时间稳定运行综上所述,AIDC 对服务器计算设备的选择要求非常高,其高性能、高扩展和高功率散热方案等要求不仅反映

25、了当前技术发展的趋势,也体现了对未来计算需求的预测和准备。随着人工智能和大数据技术的不断进步,对服务器计算设备的需求将继续增长,AIDC 将成为推动科技创新和产业升级的重要力量。先进的 CPU强大的异构加速芯片快速的卡间交互丰富的扩展性良好的整机散热 16 PART?|AIDC?信创计算设备_AIDC 信创计算设备需求随着国家自主创新战略的深入推进,信息技术应用创新及其国产化升级替代已成为关键发展趋势。在 AIDC 的构建中,选择恰当的信创计算设备对于确保信息安全和提升计算性能至关重要。对于构成 AIDC 核心算力的 AI 训练和推理服务器设备,通常有以下关键需求:核心技术自主可控:AIDC

26、计算设备应优先考虑技术路线的先进性与自主性,以规避人工智能发展中可能出现的技术瓶颈。应采用技术领先且自主可控的解决方案,基于具有自主研发能力和自主知识产权的人工智能芯片、神经网络异构计算架构以及 AI 框架,构建高性能的人工智能计算集群。训练性能行业领先:选用行业内领先的人工智能计算芯片,配备高计算密度与高速互联计算网络,以实现在训练和推理性能上的行业领先水平。低碳节能高能效比:优先选择高能效比的芯片以及高效的风冷或液冷散热系统,致力于构建一个绿色、集约且低碳节能的人工智能算力平台。通过这些标准,AIDC 能够确保在提供高效计算服务的同时,也符合可持续发展和环境保护的目标。_AIDC 信创计算

27、设备选型经过多年的技术积累和市场验证,信创计算设备已经从最初的“基本可用”阶段,逐步演进到了“高效好用”阶段。在选择信创计算设备时,通常会依据核心处理器、业务类型等进行综合考量。处理器与加速卡选型在 AIDC 中,CPU 和 GPU、NPU 通常协同工作,利用各自的优势来处理不同的计算任务。这种异构计算模型能够提供更高的计算效率和性能,是现代数据中心的核心特?。就国产处理器的产品能力而言,国产 CPU 厂商正全力打造具有竞争力的“中国芯”,其中海光、鲲鹏、飞腾、龙芯、兆芯、申威为代表性企业,这些企业在技术路线和生态建设方面各有特点与优势。海光、兆芯具有 x86 内核授权,基于指令系统进行 So

28、C 集成设计,产品兼容性强,生态较为完善,配套软件及开发工具相对成熟。飞腾、鲲鹏处理器拥有 ARM 指 16 17 令集授权,基于指令集架构授权进行自主设计,自主化程度较高,也成为了 AIDC 基础设施的优选产品。国产 AI 加速卡厂商近年来持续发力,在该领域取得了快速进展,相关产品陆续发布,覆盖了训练和推理的需求,其中既有基于通用 GPU 架构的加速卡,也有基于 ASIC 架构的 NPU 加速卡,呈现出多元化的发展趋势。基于通用 GPU 架构的加速卡 GPGPU 是图形处理单元(GPU)的一种,对于 CUDA 等主流软件生态具有较好的兼容性。NPU 则是专门为加速机器学习算法,尤其是深度学习

29、模型的推理和训练而设计的处理器,它的出现极大地提高了深度学习任务的计算效率。当前国产 NPU 加速卡在产品性能和软件生态等方面与国际领先水平存在着一定的差距,但随着新一轮人工智能算力升级的浪潮以及国际局势的变化,国产 AI 算力芯片的发展步伐已经提前加快。国产 NPU 代表产品包括昇腾、寒武纪、昆仑芯、燧原等,可满足不同算力需求的训练、推理场景。训练服务器选型AIDC 训练型服务器专门用于人工智能模型的训练,它通常具备强大的计算能力和大量存储空间,以支持机器学习算法在大量数据上进行学习和优化。这种服务器的设计旨在提供高效、稳定和可扩展的训练环境,以满足不同规模和复杂度的 AI 模型训练需求。训

30、练型服务器的选型原则建议如下:强大的计算能力:为了加快训练速度,训练型服务器通常配备高性能的 CPU 和 GPU/NPU。GPU/NPU 尤其适用于深度学习等需要大规模并行计算的任务,因为它们能同时处理大量的计算任务。大规模存储:训练 AI 模型需要大量的数据集,这些数据集需要被存储在高速和大量的存储设备上。因此,训练型服务器通常配备高容量的硬盘或 SSD 存储,以及快速的数据访问速度。网络性能:为了支持数据的高效传输,训练型服务器需要有高速的网络接口,这对于分布式训练等场景尤其重要。散热和稳定性:高性能计算设备会产生大量的热量,因此,训练型服务器需要有高效的散热系统来保持设备在合适的温度下运

31、行,同时确保长期的稳定性和可靠性。推理服务器选型AIDC 推理型 AI 服务器专门为运行人工智能推理任务而设计和优化。推理任务是指使用已经训练好的 AI 模型对新数据做出预测或决策的过程。这些服务器通常配备了高性能的中央处理器(CPU)、图形处理器(GPU)、神经网络处理器(NPU)或其他专用硬件,以便快速、高效地处理推理工作负载。18 PART?|AIDC?推理型 AI 服务器的选型原则建议如下:高性能计算能力:为了快速处理复杂的推理任务,推理服务器通常配备有较为强大的计算资源。优化的体系结构:服务器硬件和软件都是为了提高 AI 推理性能而设计的,包括优化的存储、内存和数据处理路径。可扩展性

32、:推理型服务器通常可以扩展,支持更多的处理器、内存和存储,以适应不断增长的工作负载。稳定性和可靠性:这些服务器设计为在 AIDC 环境中长时间稳定运行,确保 AI 应用程序的持续可用性。_AIDC 信创计算设备解决方案信创计算训练节点可选用 AI 训练服务器,如超云 R3418 服务器(外观如图 3-5 所示),每台服务器搭载 2 颗 C86 处理器,支持 64 个计算核心,最高主频可达 2.7GHz,能够最大限度地提高多线程应用的并发执行能力;搭载 8 张高端国产双宽训练加速卡,可根据应用场景实现拓扑切换,全面支持国产 GPU 卡,可提供 1.2PFLOPS 算力,系统峰值功耗约为 3500

33、W。每台 R3418 服务器可提供 2TB 系统内存和 300TB 本地高速存储,支持全新 200G NDR IB 网络,面向深度学习训练等场景,打造智算时代最强适应性国产算力平台。图 3-5 R3418 产品外观图信创计算推理节点可选用 AI 推理服务器,如超云 R2428 服务器(外观如图 3-6 所示),基于全新一代国产 ARM 架构处理器开发的人工智能服务器,4U 空间内最高支持 128 个计算核心,主频 2.1GHz;可以部署 8 颗最高性能 GPU,可根据应用场景实现拓扑切换,可适应 AI 训练、AI 推理等应用场景。全面支持国产 GPU 卡,实现 CPU+GPU 全国产方案,18

34、 19 支持 16 条 DDR5 内存、7 个 PCIe 5.0+10 个 PCIe 4.0 扩展槽和大容量的本地存储资源,在提供强劲计算性能的同时,还能满足用户对带宽和存储的扩展需求。图 3-6 R2428 产品外观图 20 PART?|AIDC?存储设备_AIDC 存储需求 AIGC 数据处理过程分为 5 个阶段,分别是:数据采集/清洗、数据共享/交互、模型训练、模型推理、数据归档。各阶段的需求与功能特点,见表 3-1。表 3-1 AIGC 数据处理各阶段需求与功能特点阶段需求功能数据采集/清洗数据采集流入数据清洗标注数据共享导出智能归档多协议支持海量数据存储高吞吐(HDD+闪存模式)数据

35、共享/交互数据共享数据交互标准 POSIX 共享协议支持 HDFS、CSI、超高吞吐(HDD+闪存模式)模型训练数据集读取Checkpoint高带宽、低延迟、预读、全闪存模型推理模型部署验证低延迟、高带宽、全闪存数据归档海量数据存储低成本长期存储分层存储数据归档(磁带、对象存储、蓝光库)在数据采集/清洗阶段,采用面向存储海量数据的对象存储技术能够有效提升文件的读写效率,除了高速的访问能力外,同时具备存储海量数据的能力、弹性扩展的能力,为 AI 大模型的数据收集提供了有力支持。网络上收集的原始数据通常需要经过数据预处理,这包括多格式、多协议数据的清洗、去重、过滤和加工,以便用于 AI 模型训练。

36、在数据采集阶段,采用文件系统的方式实现数据清洗,使用 POSIX 方式访问存储可以提供高效的访问速度,从而提升数据清洗的整体效率。在数据共享/交互阶段,通过支持多种协议之间的转换,如 POSIX、HDFS、CSI 等,实现对存储的多个业务阶段之间进行快速共享和访问。采用软件定义系统,可以实现数据卸载技术,从而实现数据的快速复制和共享;通常会使用零拷贝、存储端拷贝等技术来实现数据的快速共享和交互。在模型训练阶段,通常使用文件系统来存储模型训练所需的数据。为了降低 IO 路径损耗,可以改写存储引擎,并配合 20 21 客户端实现并行文件存储,以实现高带宽低延迟的存储访问。对于大模型训练而言,训练参

37、数和数据集都会呈指数级增长,为了快速加载海量小文件数据集,降低GPU等待时间是至关重要的。当前主流的预训练模型已经拥有千亿级的参数,训练过程容易受到参数调优、网络不稳定和服务器故障等多种因素的影响,导致训练过程不稳定并可能中断。为了确保训练能够回退到之前的还原点而不是初始点,需要使用检查点(Checkpoints)机制。因此,存储的读写速度对于快速读写检查点(Checkpoints)文件至关重要,能够有效利用算力资源并提高训练效率。模型推理阶段,为了提供低延迟、高带宽的整体解决方案,通常会使用全闪存存储。在 AIGC 应用的推理阶段,企业面临着数据安全、可追溯性、内容审核和合规性等一系列挑战。

38、这些挑战不仅关乎技术的有效实施,还直接影响到企业的信誉和合法运营。对于存储而言,文件在推理阶段会针对较小的成果集进行快速的读取和写入,会产生对存储系统大量的数据访问,并且需对数据进行加密处理,以防止未授权访问。数据归档阶段,需要 AIDC 存储端实现海量、长期、经济的数据保存。存储端需要实现全生命周期的数据存储与管理,提供完备的解决方案。因此需要提供分层存储解决方案:由热数据变成温数据,由温数据最终形成冷数据长期存储。这个过程涉及热存储(SSD)、温存储(HDD)以及冷存储(磁带、蓝光)等一整套上下游存储介质的融合平台。_AIDC 存储选型设计AIDC 的存储是整个 AIDC 建设的重要部分,

39、因此要求系统建设方案拥有以下特性:高可靠性、经济性、先进性、高效性、可扩展性。高可靠性AIDC 的存储作为整个系统的重要部分,其高可靠性的要求成为至关重要的考量。其中分为数据安全性及系统稳定性两方面:数据安全性指数据本身的安全性,通过防止逻辑错误和物理错误两种方式进行保证。系统稳定性则代表系统高可用性,以保证业务连续性,因此,对象存储的稳定性直接影响系统的连续性。AIGC 数据处理各阶段安全性及系统稳定性技术选型,见表 3-2。22 PART?|AIDC?表 3-2 AIGC 数据处理各阶段数据安全性及系统稳定性技术选型阶段数据安全性系统稳定性数据采集/清洗海量存储:纠删码/副本;安全程度不同

40、,数据分层存储使用 VIP,节点损坏后,可以有效保证系统可用性数据共享/交互使用对象存储,文件系统/对象存储多种协议统一存储;标准 POSIX 共享协议支持 HDFS、CSI、超高吞吐(HDD+闪存模式)模型训练全闪存一般采用 RAID2.0 技术或纠删码/副本方式保证数据一致性用多控制器或多个节点+VIP 方式,节点/控制器损坏,VIP 自动切换模型推理全闪存一般采用 RAID2.0 技术或纠删码/副本方式保证数据一致性用多控制器或多个节点+VIP 方式,节点/控制器损坏,VIP 可自动切换数据归档使用分布式存储/集中式存储实现数据分层存储解决方案;使存储可以长期保存数据分层存储、数据归档(

41、磁带、对象存储、蓝光库)经济性经济性需从三个方面来考虑:首先建立对象存储过程中的初期投入费用,其次是系统建成后的维护费用,最后是对已有投资的保护。在追求存储、容灾系统具有高性能的同时,必须审慎考虑投资的合理性,精简选取需要的新技术。在建设的过程中,需考虑未来的升级能力,并确保项目经验丰富、服务水平可靠。不同存储介质的成本各异,光、磁、电存储各具特点,见表 3-3。表 3-3 不同类型存储介质的特点类型原理运行耗电典型设备特点优势磁性介质磁头+转速较高硬盘、磁带顺序 IO 较好,价格适中光学类介质光照刻录不耗电蓝光盘、光盘易长期保存半导体类介质NAND+主控中SSD、NVME随机 IO 性能优异

42、,价格贵磁性存储具有广泛的应用范围,顺序IO较好,价格适中,但能耗较高;电类介质(如NVME、SAS SSD)随机IO性能优异,但价格相对较高。光类存储采用物理刻录方式存储数据,具有防水、防腐?等特点,适用于长期保存,通常主流厂商的产品可保留至少 50 年。在数据归档阶段,需要将海量原始数据、处理过程数据和 Checkpoint 数据长期归档存储,其他四个阶段也可能涉及到将温数据转化为热数据的需求。AIDC 的存储设备的分层存储解决方案,可以有效解决热、温存储的自动分层技术,该 22 23 技术可透明的实现热数据和温数据的转换。当数据长时间未被调用时,系统会触发长期归档保存流程,将数据快速并发

43、的归档到磁带、蓝光存储等介质中,当数据被调取时,可以进行回调检索。这种方法可以让数据合理、低成本的存放在海量存储中,从而降低长期拥有成本。先进性在 AIDC 存储的设计过程中,严格遵循国际规范、标准,高性能分布式存储平台采用标准接口、规范和协议,并结合新兴技术如分层存储、软件定义存储、零拷贝、深度拷贝及存储端拷贝等技术,以保证高性能分布式存储其技术与方案的先进性。高性能分布式存储方案不仅要满足当前系统的需要外,还应为未来的业务量发展和数据高速膨胀打下良好的基础,使其方案有能力和已经建设应用架构完美结合,成为统一信息基础平台。在数据共享/交互阶段,引入了软件定义存储的数据卸载技术,保证数据安全、

44、快速共享;与此同时,软件定义存储实现 AIDC 存储快速扩展、性能提升。高效性AIDC 存储,需要满足 AI/AIGC 等应用的高带宽、低延迟的存储需求。超云的 AIGC 存储解决方案专注于 AI 大模型数据的采集清洗、训练、推理、数据治理全流程,提供更加高效、可靠的存储支持。采用全 NVME 的 SSD 作为数据存储,以提供高密度、高效率的读写速度。在模型训练和推理阶段,AIGC存储需提供极高的性能支撑,例如,在模型推理阶段,Checkpoint 即为 GPU 的显存,需在短时间内将显存内数据快速存储在共享存储上,防止遇到任一掉卡或者任一机器宕机,导致前期训练失效。即使有一卡写入慢,其他 I

45、O 也不应受影响,以维持 GPU 训练效率,存储需提供更高的带宽和更低的延迟。针对 AIGC 的 Checkpoint 记录、大视频文件读写、小图片读写等场景,通过分级存储、分布式元数据技术、多 MDS 等技术,实现 AIGC 场景下的高速读写。可扩展性在以?的存储使用中,扩容和扩展一直是难点,对存储的扩容和性能扩展的需求日益增强。同时,需考虑到在扩展时保证业务连续性。最终,使存储扩展变成一项简单工作,并避开高峰期,有效提升业务系统的效率。从 ChatGPT 到Sora,新一代人工智能的蓬勃发展,数据爆炸性增长,使存储的存力核心基础设施价值凸显。存储的弹性扩展能力是AIDC 存储选型原则的重要

46、考量,采用 Scale-out 存储架构可实现存储具备快速扩充能力,如图 3-7 所示,与集中式架构存储相比,分布式架构具备快速添加节点和线性扩展的能力。AIDC 存储采用去中心化设计,大幅简化了分布式存储系统管理的复杂度,同时显著提升了高可用性(HA)、容量与性能横向扩展(Scale-out)的能力。节点之间采用 peer-to-peer 通讯协议,实现了几乎无限的节点扩充性。元数据即时分布到每个节点,并通过多副本保护,避免了单一节点元数据故障问题。24 25 硬件层包括存储硬件和网络设备,存储节点采用标准 X86 架构平台,并能对不同的存储设备进行池化管理。通过高速网络将通用存储服务器中的

47、 CPU、内存、网络、磁盘、总线整合,形成一个统一存储器,保证存储总体性能高于计算处理能力与网络传输速度。存储软件管理层采用自主研发分布式文件系统,部署在集群存储的各个节点上,实现节点间的软件相互通信并协同工作,通过存储池虚拟化技术,将集群中所有存储节点的硬盘空间融合成统一命名空间。利用数据生命周期管理技术,根据文件元数据的属性(owner、ctime、mtime、path、name、访问热度等),将文件的数据放置在统一存储空间的不同的存储池中,从而映射到不同的存储硬件上。协议接口层是指 CS13000 与前端应用软件之间进行数据通信的接口。CS13000 支持 POSIX、CIFS、NFS、

48、FTP、HTTP、S3、Swift 等多种传输协议。CS13000 针对新一代应用高并发的特点,采用带外模式的大规模开放集群存储架构,通过多端口千兆、万兆和Infiniband 网络互连前端应用节点和后端存储及元数据节点,实现存储设备性能输出的最大化。带外模式的应用,消除了元数据通路与数据通路的相互干扰。元数据服务器和存储服务器的集群化,确保整个系统中不存在像 NAS 或者 SAN系统的性能瓶颈点,从而能够完全满足 AIGC 应用高并发的需求。26 PART?|AIDC?网络设备_AIDC 网络需求AI模型逐渐朝向大模型的方向开始发展,AI超大模型的参数已经达到千亿到万亿级别。国内也开启了AI

49、模型的“狂飙模式”,各种 AI 项目层出不穷,行业呈现“百模大战”的竞争格局。随着模型参数量的提高,其对算力和显存都提出了更高的要求。以 GPT3 为例,千亿参数需要 2TB 显存,当前的单卡显存容量不够。即便出现了大容量的显存,以现在单卡的算力也要 32 年才能完成训练。为了缩短训练时间,就需要采用多机多卡并行的方式,通过采用分布式训练技术,对模型和数据进行切分,进而并行加速,将训练市场缩短到周或天的级别。为了最大化分布式训练的效能,就需要构建出一个计算能力和显存能力超大的集群,来应对大模型训练中算力墙和存储墙这两个主要挑战。而联接这个超级集群的高性能网络直接决定了智算节点间的通信效率,进而

50、影响整个智算集群的吞吐量和性能。要让整个智算集群获得高的吞吐量,高性能网络需要具备低时延、高带宽、长期稳定性、大规模扩展性和可运维等关键能力。低延时:由于通讯延时的存在,分布式训练系统的整体算力并不是简单的随着智算节点的增加而线性增长,而是存在加速比,且加速比小于 1。通讯延时是指单次计算中不同卡之间的通讯导致的数据通讯延迟,因此降低卡间通信时间,是分布式训练中提升加速比的关键,需要重点考虑和设计。高带宽:在 AI 大模型训练场景下,机内与机外的集合通信操作会产生大量的通信数据量。流水线并行、数据并行及张量并行模式需要不同的通信操作,这要求网络具有单端口高带宽、节点间可用链路数量多以及网络总带

展开阅读全文
部分上传会员的收益排行 01、路***(¥15400+),02、曲****(¥15300+),
03、wei****016(¥13200+),04、大***流(¥12600+),
05、Fis****915(¥4200+),06、h****i(¥4100+),
07、Q**(¥3400+),08、自******点(¥2400+),
09、h*****x(¥1400+),10、c****e(¥1100+),
11、be*****ha(¥800+),12、13********8(¥800+)。
相似文档                                   自信AI助手自信AI助手
百度文库年卡

猜你喜欢                                   自信AI导航自信AI导航
搜索标签

当前位置:首页 > 研究报告 > 其他

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服