1、 金融数据中心 人工智能算力建设指引 北京金融科技产业联盟 2023 年 8 月 IV 前前 言言 人工智能基础设施作为“新基建”的重要组成部分,是数字化走向智能化的核心力量,是金融机构智慧再造的关键载体。近年来,我国发布多项政策文件,进一步明确人工智能的发展规划,对人工智能算力建设指出方向。2021 年底,中国人民银行发布金融科技发展规划(20222025 年),提出抓住全球人工智能发展新机遇,以人为本全面推进智能技术在金融领域深化应用,着力打造场景感知、人机协同、跨界融合的智慧金融新业态,实现金融服务全生命周期智能化。人工智能算力数据中心是以数据中心为基础的人工智能基础设施。具体来说,人工
2、智能数据中心是在超算中心和云计算数据中心大规模并行计算和数据处理的技术架构基础之上,通过大数据和深度学习技术保障其高效、安全运营,以人工智能专用芯片为计算算力底座,融合公共算力服务、数据开放共享、智能生态建设、产业创新聚集“四位一体”的综合平台,可提供算力、数据和算法等人工智能全栈能力,是当前人工智能快速发展和应用所依托的新型算力基础设施。“数据、算法、算力、开放平台”是人工智能基础设施的核心内容,其中算力包括 AI 芯片、AI 平台、智能计算中心等产品,提供高性能、低成本、绿色的计算能力是算力建设的关键目标。本报告阐述了国内外人工智能算力建设情况,梳理了当前金 V 融数据中心人工智能算力建设
3、面临的挑战,从整体上提出人工智能算力数据中心的架构,围绕基建、硬件及软件基础设施给出了人工智能算力建设指引,并进一步分析了传统与新型算力、数据中心算力与边缘算力、算力与网络等关键技术的协同建设问题,探索了人工智能算力数据中心绿色低碳运维模式,最后通过成功案例展望未来,以期为金融机构数据中心建设人工智能算力基础设施提供指引与参考。关键词:关键词:人工智能、AI 算力、人工智能算力数据中心、AI 使能软件、AI 开发框架 VI 目目 录录 第一章 发展背景和研究目标.1 一、发展背景.1(一)国家政策及“十四五”规划要求.1(二)金融科技发展的基础支撑.4(三)国内外当前 AI 算力建设情况.4
4、二、研究目标.9 第二章 面临的挑战和难点.10 一、整体看.10(一)数据中心 AI 算力发展不均衡.10(二)数据中心 AI 计算能力不足.10(三)数据中心 AI 算力连接和协同能力不强.10(四)数据中心 AI 算力调度不灵活.11 二、分层看.11(一)数据中心选址问题(L0 层).11(二)能耗及供电问题(L1 层).12(三)AI 算力底座与周边设备及网络的问题(L2 层).12(四)支持不同业务场景的 AI 应用问题(L3 层).13 第三章 建设指引.14 一、人工智能算力数据中心架构.14(一)总体架构.14(二)分层布局.15 二、基建基础设施层(L0-L1).20 三、
5、硬件基础设施层(L2).20(一)AI 芯片.20(二)AI 服务器.21(三)AI 计算子系统.22 四、软件基础设施层(L3).22 VII(一)芯片使能软件.22(二)AI 开发框架.23(三)使能软件.23 第四章 建设协同.30 一、整体原则.30 二、传统算力与新型算力协同.30(一)算力产品特征.30(二)算力协同建设.32 三、数据中心算力与边缘算力协同.37 四、算力与网络协同.39(一)广域算力网络架构.40(二)广域算力网络关键技术.43(三)数据中心算力网络关键技术.44(四)算力网络协同关键技术.46(五)算力网络数字化能力.47 第五章 运维和节能管理.49 一、运
6、维管理.49(一)人员组织.49(二)日常运行维护.50 二、节能管理.50 第六章 成功案例和未来展望.53 一、成功案例.53(一)工商银行基于高性能网络的中高算力集群探索.53(二)蚂蚁集团 AI 算力端云协同发展实践.54(三)网商银行基于卫星遥感的 AI 算力服务农村金融实践.56 二、未来展望.57(一)AI 算力的建设需求快速提升.57(二)AI 算力的金融价值不断凸显.58 参考文献.60 1 第一章 发展背景和研究目标 一、发展背景(一)国家政策及“十四五”规划要求 人工智能基础设施是“新基建”的重要组成部分,是数字化走向智能化的核心力量,是金融机构智慧再造的关键载体。“数据
7、、算法、算力、开放平台”是人工智能基础设施的核心内容,其中算力包括 AI 芯片、AI 平台、智能计算中心等产品,提供高性能、低成本、绿色的计算能力是算力建设的关键目标。近年来,我国发布多项政策文件,进一步明确人工智能的发展规划,对人工智能算力建设指出方向。人工智能已上升为国家战略,人工智能的发展迎来重大机遇。表 1 汇总了近年来国家和相关部委发布的人工智能及算力相关政策。表 1 人工智能及算力相关政策 时间时间 内容内容 2017 年 3 月 国务院总理李克强 2017 年政府工作报告,指出要加快培育壮大包括人工智能在内的新兴产业,“人工智能”首次被写入了国家政府工作报告。2017 年 7 月
8、 国务院出台新一代人工智能发展规划,提出三步走的战略目标。2017 年 12月 工业和信息化部印发促进新一代人工智能产业发展三年行动计划(20182020 年),明确了到 2020 年人工智能在推动战略性新兴产业总体突破、推进供给侧结构性改革、振兴实体经济、建设制造强国和网络强国方面的重大作用和具体目标。2 时间时间 内容内容 2018 年 3 月 国务院总理李克强在十三届全国人大一次会议作政府工作报告时表示,要加强新一代人工智能研发应用,在医疗、养老、教育、文化、体育等多领域推进“互联网+”。2018 年 5 月 习近平总书记在两院院士大会上指出,“要推进人工智能同实体经济深度融合,做大做强
9、数字经济。”2018 年 12月 中央经济工作会议,重新定义了基础设施建设,把 5G、人工智能、工业互联网、物联网定义为“新型基础设施建设”。2019 年 3 月 国务院总理李克强在2019 年国务院政府工作报告中明确提出深化人工智能等研发应用。紧扣国家发展战略,加强新一代信息基础设施建设。2019 年 7 月 中央政治局会议,强调要加快推进信息网络等新型基础设施建设。2020 年 3 月 中共中央政治局常务委员会召开会议再次强调“新基建”,要求加强人工智能等新型基础设施建设。2020 年 4 月 国家发改委首次明确“新基建”范围,强调数据中心、智能计算中心就是算力基础设施的代表。2020 年
10、 7 月 国家标准化管理委员会、中央网信办、国家发展改革委、科技部、工业和信息化部印发 国家新一代人工智能标准体系建设指南,指导人工智能标准化工作有序开展。2020 年 10月 科技部印发国家新一代人工智能创新发展试验区建设工作指引(修订版),明确要布局建设 20 个左右国家人工智能创新发展试验区。2020 年 11月 2020 年 11 月 17 日,国家信息中心信息化和产业发展部发布智能计算中心规划建设指南,对智能计算中心的概念、内涵、技术架构、投建运模式等进行全面解读。3 时间时间 内容内容 2021 年 3 月 国务院发布中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年
11、远景目标纲要,提出要强化国家战略科技力量,加强原创性引领性科技攻关。新一代人工智能作为重要的科技攻关领域,重点投入前沿基础理论突破,专用芯片研发,深度学习框架等开源算法平台构建,学习推理与决策、图像图形、语音视频、自然语言识别处理等领域创新。2021 年 5 月 国家发展改革委、中央网信办、工业和信息化部、国家能源局联合印发全国一体化大数据中心协同创新体系算力枢纽实施方案,明确在京津冀、长三角、粤港澳大湾区、成渝,以及贵州、内蒙古、甘肃、宁夏等地布局建设全国一体化算力网络国家枢纽节点(以下简称“国家枢纽节点”)。在金融行业,银保监会于 2019 年发布关于推动银行业和保险业高质量发展的指导意见
12、,提出既要充分利用人工智能强化业务管理,改进服务质量,降本增效,又要发挥人工智能在打击非法集资、反洗钱、反欺诈等方面的积极作用。在相关宏观政策的指导下,各地结合自身区域特点和行业发展状况因地制宜出台相关政策推动智能金融的特色化发展,相关行业标准规范逐步完善。2021 年,中国人民银行发布 人工智能算法金融应用评价规范(JR/T 02212021),规定了人工智能算法在金融领域应用的基本要求、评价方法、判定准则。金融行业以智能化为目标,提升金融数字化水平,通过业务流程自动化降低人力成本,4 通过解决信息不对称问题弥合数据信息差,通过个性化的千人千面提供普惠金融服务,从而实现业务的增长、风险成本的
13、降低、运营成本的改善。(二)金融科技发展的基础支撑 金融科技发展提出人工智能、大数据分析等场景,响应金融监管政策的要求。2021 年 12 月,中国人民银行印发金融科技发展规划(20222025 年),提出“坚持发展与监管两手抓,推动金融科技在实体经济的沃土中落地生根。大数据、云计算、人工智能、区块链等技术金融应用成效显著。金融服务覆盖面逐步扩大,优质金融产品供给不断丰富,金融惠民利企水平持续提升。”人工智能作为金融机构数字化转型的重要手段,助力金融行业在产品设计、市场营销、风险控制、客户服务以及其他支撑性业务领域和场景中实现整体升级。金融科技发展规划(20222025 年)在“智慧为民”基本
14、原则中,提出“抓住全球人工智能发展新机遇,以人为本全面推进智能技术在金融领域深化应用,强化科技伦理治理,着力打造场景感知、人机协同、跨界融合的智慧金融新业态,实现金融服务全生命周期智能化,切实增强人民群众获得感、安全感和幸福感”,加快金融服务智慧再造,提升数字绿色的服务体系中的智能应用水平。(三)国内外当前 AI 算力建设情况 1.1.国内外算力规模发展国内外算力规模发展 5 2020 年全球算力总规模达到 429EFlops1,增速达到 39%,其中基础算力规模为 313EFlops,AI 算力规模为 107EFlops,超算算力规模(换算为 FP32)为 9EFlops。预估未来五年全球算
15、力规模将以超过 50%的速度增长,到 2025 年整体规模将达到3300EFlops。全球算力竞争激烈,基础算力方面以中国和美国为第一梯队,其中美国占 43%份额,中国占 26%份额。智能算力方面,中国智能算力占算力的比重由 2016 年的 3%提升至 2020 年41%,以人工智能算力数据中心为代表的 AI 算力基础设施发展迅猛。2020 全球计算力指数评估报告显示“全球计算力水平top5 行业分别是互联网、制造、金融、政府和电信”,金融行业综合排名进入前三。2.2.金融业务应用系统需求金融业务应用系统需求 在新一轮科技革命和产业变革的背景下,金融科技蓬勃发展,人工智能、大数据、云计算、物联
16、网等信息技术与金融业务深度融合,为金融发展提供源源不断的创新活力。同时 2020 全球计算力指数评估报告显示“金融行业信息化和数字化起步较早,金融行业因对算力的稳定性、可靠性、实时性、安全性等方面要求较高,对于算力的投资规模处于行业领先水平且比较稳定。从全球来看,金融行业是人工智能算力投资最大的传统行业,据IDC数据,全球 AI 算力支出的 24.9%来自金融行业,人工智能作为金融行业数字化转型过程的关键部分,被广泛用于反欺诈、风险 1 EFlops:百亿亿次,Flops 指的是每秒浮点运算次数,E 代表的是一百京,一个 EFLOPS(exaFLOPS)等于每秒一百京(=1018)次的浮点运算
17、。6 管控、合规管理、运营流程、自动化客服、智能 CRM 和量化交易等领域,辅助金融企业降低成本、提升效率和提高客户体验”。人工智能应用对算力最大的挑战来自数据中心的模型训练。具有海量参数的模型训练几乎完全依赖于核心数据中心的算力支撑。比如 2020 年微软发布的智能感知计算模型 Turing-NLG,参数量高达到 175 亿;OpenAI 发布的 GPT-3 模型,参数量更达到 1750 亿,是 GPT-2 的 100 余倍。由于其庞大的参数体量,在给人工智能应用提供便利的同时,对 AI 算力提出了更高的要求。尤其是在金融行业数字化转型的浪潮中,人工智能的算法越来越依赖于算力的发展。3.3.
18、国内金融业国内金融业AIAI典型业务场景典型业务场景 人工智能与金融行业深度融合,金融行业数字化、智能化改革已经初见成效,金融人工智能整体呈现业务智能价值创造,全面覆盖产品设计、市场营销、风险控制、客户服务等主流业务场景。从技术价值来看,人工智能技术正逐步解决行业痛点问题,在实现业务流程自动化、弥合信息差、构建普惠金融方面发挥着关键作用,已经在获取增量业务、降低风险成本、改善运营成本、提升客户满意度方面进入价值创造阶段。从应用场景来看,以机器学习、机器视觉、生物特征识别、知识图谱等技术赋能的金融行业,衍生出智慧网点、量化交易、智能投顾、智能风控等多个典型场景。表 2 列举了 AI 算力金融行业
19、应用的十大典型业务场景。7 表 2 AI 算力金融行业应用的典型业务场景 场景名称场景名称 描述描述 智慧网点 场景:场景:标配“无人、无证、无卡”,提供普惠金融服务、财富管理服务、智慧金融服务、国际业务等服务。技术:技术:依托身份识别、数字人、人脸识别、语音识别等技术提供服务。数字员工 场景:场景:模拟人工完成图像识别、关键信息提取、数据录入、报表生成、行为分析、合规分析、结果决策等。技 术:技 术:光 学 识 别 技 术 OCR(Optical Character Recognition)、RPA(Robotic Process Automation)技术、数字人、NLP(Natural
20、Language Processing)技术、图像分类。智能客服 场景:场景:广泛应用于各类金融机构,提供 24 小时不间断问答服务。技术:技术:依托自然语言理解、语音识别、RPA、知识图谱、NLP 等技术提供智能交互服务。量化交易 场景及技术:场景及技术:依托先进的数学模型替代人为的主观判断,量化交易有很多种,包括跨平台搬砖、趋势交易、对冲等。跨平台搬砖是指当不同目标平台价差达到一定金额,在价高的平台卖出,在价低的平台买入。智能身份识别 场景及技术:场景及技术:人脸识别、声纹识别、静脉识别、指纹识别等。8 场景名称场景名称 描述描述 智能投研 场景:场景:B 端金融机构用户,整合各类研报数据
21、。并自动撰写研报,给出机构投资意见。技术:技术:智能投研依赖知识图谱和深度学习技术的进一步发展,通过智能数据收集、清洗、分析,实现对投资标的的发展趋势判断与风险预测。智能投顾 场景:场景:通过一系列智能算法综合评估用户的风险偏好、投资目标、财务状况等基本信息,并结合现代投资组合理论为用户提供自动化、个性化的理财方案。其实质是利用机器模拟理财顾问的个人经验。技术:技术:核心环节包括用户画像、大类资产配置(投资标的选择)、投资组合构建和动态优化等。智能营销 场景:场景:聚焦存贷款产品营销、信用卡分期、理财产品、节假日关怀等。技术:技术:依托推荐引擎和机器学习技术,通过分析用户数据并聚类用户特征,做
22、到“千人千面”的智能推送。利用知识图谱和自然语言处理等技术建立客户画像,实现精准的营销定位与需求挖掘。智能风控 场景:场景:聚焦金融业交易等风险防控场景,如支付、信贷,反洗钱等。技术:技术:依托机器学习和知识图谱等技术,通过数据驱动风险管理与运营优化。智能反欺诈 场景:场景:主要集中在支付和金融账户登录等场景。技术:技术:包括人脸识别、声纹识别、指纹识别、虹膜识别、光学识别等。9 二、研究目标 本课题的研究目标分为两方面。一是一是基于当前金融机构积极探索和建设新型人工智能业务系统及人工智能算力数据中心的情况,广泛吸取金融行业目前较为优秀的建设经验和解决方案,编制研究报告,为金融机构数据中心建设
23、人工智能算力基础设施提供指引与参考。二是二是在完成研究报告的基础上,进一步编制相关标准,以规范金融数据中心人工智能算力基础设施建设。10 第二章 面临的挑战和难点 一、整体看(一)数据中心 AI 算力发展不均衡 在当今金融业庞大的数据处理量面前,数据中心规模总量和能耗总量不断增长,而且 AI 算力业务天然存在波动,存在部分能耗闲置现象。数据中心特别是西部地区一些数据中心算力资源未能充分利用的问题也常被业内专家提及。我国东部算力资源紧张与西部算力需求不足的问题并存,区域数字基础设施和应用空间布局亟待优化。数字化时代的今天,“东数西算”备受瞩目,他与“南水北调、西电东送、西气东输”一样,成为国家级
24、的超级工程,也是解决算力发展不均衡的基本国策。(二)数据中心 AI 计算能力不足 伴随数据的激增和算法的日益复杂,算力将成为决定人工智能发展上限的重要因素。人工智能算力数据中心能耗总量较大,且保持不断增长。以人工智能专用芯片为计算算力底座,在其上开发的 AI 框架、AI 应用呈现出多样化、复杂化、碎片化的态势。电力的潜能已经全被释放,算力的潜能随着数据的产生和数字化的进展,还会持续释放。合理架构网络,优化算法,运用新技术使得软硬件不断推陈出新,使算力不断指数级提升,从而满足智能应用的多元化需求。(三)数据中心 AI 算力连接和协同能力不强 在全产业数字化转型的大形势下,新兴技术应用成为算力提
25、11 升最主要的驱动力,尤其是人工智能带动的 AI 算力需求。政府、企业一同建设,集约化不够,利用率有限,成本居高。并且算力服务器成本居高不下,尤其 AI 算力服务器。如果建成人工智能算力数据中心,实现设备网络共享,降低成本,可以发挥我国的制度和行业优势。如何实现人工智能算力数据中心间互联,分支边缘算力互联,第三方算力协同互联,AI 算力物联终端互联,这是一个体系化的布局。政策性设计为基础,其中资源匹配、网络部署、算力对接等都是本课题研究的重点。(四)数据中心 AI 算力调度不灵活 在国家碳达峰、碳中和的目标下,实现在不同数据中心间算力协同调度、削峰填谷、精细化能耗控制的要求。算力的灵活调度尤
26、为重要。数据每丢失千分之一,吞吐量就会下降 50%,浪费算力资源。一方面,对网络提出要求,尽量实现无损网络。另一方面,通过自动混合并行、全局内存管理、可视化调优以及分布式推理等核心技术,强化对人工智能网络的灵活调度,以提升人工智能算力数据中心的调度协同水平。二、分层看2(一)数据中心选址问题(L0 层)新建或改扩建的人工智能算力数据中心位置,一方面受地方政府规划局限,另一方面还要考虑当地政府对 PUE3等的绿色环保 2 人工智能算力数据中心分层布局详见第三章第二部分 人工智能算力数据中心架构。3 Power Usage Effectiveness 的简写,是评价数据中心能源效率的指标,是数据中
27、心消耗的所有能源与 IT 负载消耗的能源的比值。PUE=数据中心总能耗/IT 设备能耗,其中数据中心总能耗包括 IT 设备能耗和制冷、配电等系统的能耗,其值大于 1,越接近 1 表明非 IT 设备耗能越少,即能效水平越好。12 要求。当前人工智能算力数据中心的建设现状主要为政府主导建设和头部企业自行建设。为加快推动数据中心绿色高质量发展,建设全国算力枢纽体系,落实国家“东数西算”工程,统筹围绕国家重大区域发展战略,根据能源结构、产业布局、市场发展、气候环境等,建议人工智能算力数据中心在国家枢纽节点布局建设,发展数据中心集群,引导数据中心集约化、规模化、绿色化发展。国家枢纽节点之间进一步打通网络
28、传输通道,提升跨区域算力调度水平。(二)能耗及供电问题(L1 层)人工智能算力数据中心远远高于一般数据中心对于电力能耗的需求,需要向当地电力供应部门申请电力配额,以解决供电等突出问题。另外,传统数据中心在改扩建过程中,传统机柜电力不足以支撑能耗巨大的 AI 算力服务器,需要液冷等更高能效的设备,在提升算力的同时降低对电力能耗的需求。对已建成的传统业务设施改扩建过程,为确保金融业务的平稳过渡和无缝衔接,需要经验丰富的公司执行。(三)AI 算力底座与周边设备及网络的问题(L2 层)人工智能、HPC(High Performance Computing,高性能计算)、元宇宙等新兴应用需要大量数据吞吐
29、和运算能力,GPU(Graphics Processing Unit,图形处理单元)随着性能的提升,功耗也在显著提升,服务器等 IT 设备,特别是 AI 服务器的功耗呈上升趋势(AI 服务器单台能耗甚至要突破 10kW),数据中心面临能耗 13 和散热的挑战。通过云网融合,整合云、数据中心资源和优质网络资源,把连接和计算整合在一起,从而提升 AI 算力水平,攻克“数据上不来,算力下不去”的难题。(四)支持不同业务场景的 AI 应用问题(L3 层)AI 框架及主流框架纷繁多样,金融机构需要时间提升对框架和工具的使用能力,对金融机构的服务也具有一定挑战。在设计具体场景的 AI 业务软件系统时,由于
30、开发人员缺少相关标准和应用接口的参考,因此对特定行业计算系统的适应性、可裁剪性、可伸缩性等细节特性的考虑不充分,缺少在各种严苛条件下系统的可靠性、可服务性以及对整体软硬件系统性能影响的考虑,这就加大了 AI 算力业务落地的成本。14 第三章 建设指引 数据中心 AI 算力指标包含 4 大核心要素:通用计算能力、高性能计算能力、存储能力、网络能力。数据中心 AI 算力的建设应满足 3 大要求:一是 AI 算力建设对电力动力等的要求。二是数据中心 AI 算力软硬件技术要求,包括核心 AI 处理器架构、AI 训练产品性能、集群互联系统能力、AI 主流软件适配能力、软件平台和工具的完备性、主流机器学习
31、和深度学习网络支撑能力等。三是 AI 算力和通用算力协同建设及改造指引,包括以 AI算力建设作为主算力的 AI 计算集群软硬件建设要求,与通用计算集群、网络及存储集群的软硬件协同建设的要求。一、人工智能算力数据中心架构 计算是人类能力的延伸,算力的建设与社会的发展需求紧密结合,在不同历史阶段出现了超级计算中心、云计算数据中心、人工智能算力数据中心等不同形态的算力基础设施。人工智能算力数据中心是当前人工智能快速发展和应用所依托的新型算力基础设施。(一)总体架构 人工智能算力数据中心借鉴了超级计算中心和云计算数据中心大规模并行计算和数据处理的技术架构,但以人工智能专用芯片为计算算力底座。人工智能算
32、力数据中心由基建基础设施、硬件基础设施、软件基础设施及行业应用等组成。为了能高效、清晰地对人工智能算力数据中心建设展开研究,15 把人工智能算力数据中心建设划分成 5 层,总体架构如图 1 所示。图 1 人工智能算力数据中心总体架构 土建层(土建层(L0L0),包括地基和建筑体。基础设施层(基础设施层(L1L1),包括 IT 运行环境、风火水电及运维管理。硬件基础设施层(硬件基础设施层(L2L2),包括 AI 芯片及服务器等硬件设备。软件基础设施层(软件基础设施层(L3L3),包括应用软件、开发框架、软件平台和数据。行业应用层(行业应用层(L4L4),包括智能识别、智能投顾、智能客服等金融行业
33、应用。L0 和 L1 相关度较大,统称为基建基础设施层。(二)分层布局 人工智能算力数据中心分层布局如图 2 所示,其中与人工智能算力建设相关的部分包括基建、硬件及软件基础设施 3 层。行业应用行业应用 软件基础设施软件基础设施 硬件基础设施硬件基础设施 基建基础设施基建基础设施 人工智能算力数据中心人工智能算力数据中心 16 金融行业应用智能识别智能投顾智能客服智能营销量化交易智能风控人工智能算力数据中心软件基础设施行业算法:AI与金融业务融合金融市场:AI与数据要素流动数据管理智能诊断模型开发数据标注自动学习大规模AI训练预置算法云边端部署芯片使能资源云化算力调度AI开发框架多租户隔离云边
34、端协同使使能能软软件件AI系统软件GPUNPUFPGAASIC存储子系统网络子系统规划设计机房土建L0L1L2L3L3L3L4AI计算子系统弹性共享云平台基基础础软软件件硬件基础设施基建基础设施TPU风火水电IT运行环境运维管理 图 2 人工智能算力数据中心分层布局 1.1.基建基础设施层(基建基础设施层(L0L0-L1L1)基建基础设施层包括人工智能算力数据中心规划设计和为中心提供空间、电力、水源、冷量、防火等基本条件的机房土建、风水火电、IT 运行环境及运维管理建设等底层设施。2.2.硬件基础设施层(硬件基础设施层(L2L2)硬件基础设施层是人工智能算力数据中心的核心基础,由AI计算子系统
35、、存储子系统、网络互联子系统组成,如图 3 所示。17 图 3 硬件基础设施架构图(1 1)AIAI芯片。芯片。依据承担的功能,AI芯片可划分为训练和推理芯片。训练芯片涉及海量数据和大规模计算,对算法、精度、处理能力要求非常高,当前仅适合在中心端部署。推理芯片更加注重综合能力,包括算力能耗、时延、成本等因素,支持计算机视觉、视频处理、自然语言处理和搜索推荐等推理应用场景,可部署在中心端、边缘或终端侧。目前GPU、NPU(Neural network Processing Unit)、FPGA(Field Programmable Gate Array)、ASIC(Application Spe
36、cific Intergrated Circuits)等是AI芯片行业的主流技术路线。(2 2)AIAI计算子系统。计算子系统。AI计算子系统一般由高密度、集成化机柜式设计的集群基础单元组成,每个集群基础单元包括若干AI服务器,每台AI服务器均搭载AI芯片,在芯片和服务器之间通过互联网络传递人工智能网络模型的梯度参数更新等数据。各集群基础单元可支持约40kW的散热功耗,实现低PUE数据中心能源效率。硬件 基础 设施 AIAI 计算子系统计算子系统 AI 集群基础单元 GPU NPU FPGA ASIC AI 服务器 供电 制冷 AI 集群 基础 单元 AI 集群 基础 单元 存储 节点 存储子
37、系统存储子系统 网络互联子系统网络互联子系统 数据中心交换机 数据中心交换机 数据中心交换机 18(3 3)存储子系统。)存储子系统。存储子系统提供高性能、高可靠、高扩展性和易备份的分布式存储。存储子系统部署存储节点,提供对象存储、块存储等存储服务,为人工智能训练平台提供高吞吐,大带宽的样本原始数据。(4 4)网络互联子系统。)网络互联子系统。网络互联子系统为整个AI硬件基础设施层各子系统间提供互联互通支撑。3.3.软件基础设施层(软件基础设施层(L3L3)软件基础设施层包含基础软件、AI 使能4软件、行业算法和AI 市场,如图 4 所示。图 4 软件基础设施架构图(1 1)基础软件)基础软件
38、 (a a)芯片使能软件。)芯片使能软件。芯片使能软件构建于 AI 芯片驱动层之上,是人工智能软件加速库(算子)集合,为深度学习提供必不可少的计算优化功能。各大芯片厂商都推出了针对自身芯片进行优化的使能库,如对于以 GPU 和 NPU 为基础的两类 AI 芯片,其 4 使能,其英文为“Enable”,使能软件是增强原有系统或基础软件能力的一种软件,使其具备更多新的能力。软件 基础 设施 行业算法行业算法:AIAI 与行业业务融合与行业业务融合 AIAI 市场市场:AIAI 与数据要素流动与数据要素流动 数据管理 智能诊断 模型开发 数据标注 自动学习 大规模 AI 训练 预置算法 云边端部署
39、芯片使能软件 资源云化 算力调度 AI 开发框架 多租户隔离 云边端协同 使能软件使能软件 基础软件基础软件 弹性共享 AIAI 系统软件系统软件 云平台云平台 19 芯片使能软件的代表分别是 CUDA(Compute Unified Device Architecture,计 算 统 一 设 备 架 构)和 CANN(Compute Architecture for Neural networks,神经网络计算体系结构)。(b b)AIAI 开发框架。开发框架。AI 开发框架封装卷积运算、激活函数、损失函数计算、优化器使用等基本操作,提供人工智能网络模型开发环境。主流 AI 开发框架包括 M
40、indSpore、TensorFlow、PyTorch 和 PaddlePaddle 等。(c c)云平台。)云平台。基础软件中还包括云平台,对计算、存储及网络资源进行统一调度和管理,提供统一的算力支持。(2 2)使能软件)使能软件 人工智能算力数据中心面向大规模分布式模型训练、全流程人工智能应用支撑,需要对大规模算力资源进行管理和调度。使能软件基于硬件基础设施的组网特点实现对算力资源的统一管理、调度和监控,进行细粒度的资源实时分配,支持海量任务的智能自动调度、任务管理、数据加载和预处理,支持大规模人工智能计算场景,并能够提供丰富的人工智能场景应用和API 服务,使用户能够在该平台上进行一站式
41、人工智能开发和应用部署。软件 API 服务主要包括提供智能语音语言类和计算机视觉服务。智能语音语言类服务主要提供语音识别、语音合成、声纹识别、语音听转写等在线服务,计算机视觉类服务主要提供物体检测、人脸识别、人脸检测、图像识别、光学字符识别等服务。20 产业侧使能软件包括华为的modelArts、百度的AI studio、第四范式的 sageEE、寒武纪的 CAIP 算力平台、新华三的傲飞AMPHA、亚马逊的 AWS sageMaker 等。(3 3)行业算法)行业算法和和 AIAI 市场市场 行业算法通过行业知识的积累,预置各样经验,从而更快、更高效地为行业赋能。AI 市场则支持数据和 AI
42、 模型的有效流动和共享。二、基建基础设施层(L0-L1)在数据中心选址方面,除符合国家标准 GB 50174 的 4.1.1、4.1.2 和附录 A 中选址相关技术要求和使用需求外,还应符合JR/T 0265 中 7.2 规划及布局的基本要求。在数据中心环境、建筑与结构、空气调节、电气、电磁屏蔽、网络与布线系统、智能化系统、给水排水、消防与安全方面,除符合国家标准 GB 50174 第 5 章至第 13 章及附录 A 相关技术要求外,还应符合 JR/T 0265 中第 7.3 章节至 7.11 章节的基本要求。三、硬件基础设施层(L2)(一)AI 芯片 1.1.AIAI芯片架构芯片架构 (1)
43、应采用适合的AI芯片架构,提供高AI算力和能效比。(2)应支持高速互联技术。(3)应支持高度集成化、模块化和冗余设计。21 2.2.AIAI加速芯片加速芯片 (1)应支持专用的矩阵乘法运算加速单元和向量乘加运算加速单元。(2)应支持片上配备高速缓存,加速数据存取与多核通信。(3)应提供 FP32、FP16、TF32 浮点运算精度。对于推理卡,FP32 不小于 20TOPS 或 FP16 不小于 250TOPS;对于训练卡,FP32 不小于 64TFLOPS 或 FP16 不小于 280TFLOPS,TF32 宜不小于 128TFOPS。(4)推理卡应具备 INT8 定点运算能力,宜不小于 25
44、0TOPS。(5)应支持内存、算力等资源的切分和良好的隔离。(6)应具有 PCIE 或 OAM 接口,以便与主机 CPU 进行高速数据传输。(7)包含专用加解密运算单元,应提供可信的 AI 运算环境。(二)AI 服务器 AI 服务器根据形态可分为通用型 AI 服务器和模组型 AI 服务器,根据功能又可分为 AI 训练服务器和 AI 推理服务器。1.1.通用通用型型AIAI服务器服务器 通用型 AI 服务器需要支持承载不同形态的加速卡的算力需求,主要采用 CPU+AI 加速卡为主体的服务器架构。在自主可控背景的影响下,服务器需要支持 AI 加速卡,如寒武纪 MLU 加速卡,燧原、华为等厂商的 G
45、PU 加速卡和华为的 NPU 加速卡。数据中心训练型 AI 服务器机型一般建议支持 8 张双宽 GPU 卡。推理 22 型服务器根据 GPU 卡的密度需求不同,数据中心建议使用支持 8张及以上双宽或单宽 GPU 卡的 4U 机型,边缘数据中心可选择支持 4 张及以上的双宽或单宽 GPU 卡的 2U 机型。2.2.模组型模组型AIAI服务器服务器 模组型 AI 服务器主要目的是为支持多加速卡间互联,从而获得更高的卡间带宽,提升训练性能。模组型 AI 服务器主要用于数据中心的 AI 训练场景。(三)AI 计算子系统 1.可以实现同一服务器的卡间、跨服务器间的高速数据通信能力,并进行横向和纵向扩展。
46、2.有专用的卡间互联高速接口,满足训练和推理过程中卡间大数据量交换传输的需求。3.具备常见的分布式集合通信原语实现,支持主流分布式框架。4.支持集群通过高速通信协议进行横向和纵向扩展。5.存储子系统应满足高效AI算力子系统的要求。6.网卡配置应满足AI算力子系统对带宽、ROCE5及TCP网络等的需求。四、软件基础设施层(L3)(一)芯片使能软件 1.提供基于C和Python语言的算子开发接口,使用户具有自 5 ROCE(RDMA over Converged Ethernet),是在 InfiniBand Trade Association(IBTA)标准中定义的网络协议,允许通过以太网络使用
47、 RDMA。23 定义算子开发的能力,如英伟达CUDA、寒武纪bang C/bang Python、华为CANN等。2.具备容器镜像部署能力,方便开发生产环境的快速部署。3.AI产品可以使用k8s进行算力资源的运维管理,并提供AI产品主要指标的监测能力。4.提供高性能推理引擎,完备的深度学习调优、调试、监控工具,加速深度学习模型的开发流程。(二)AI 开发框架 1.1.开发框架兼容能力开发框架兼容能力 (1)提供 AI 主流软件适配能力,支持国内外主流深度学习框架。(2)宜 支 持MindSpore、TensorFlow、PyTorch、PaddlePaddle、Horvod 等至少 1 种深
48、度学习或分布式框架。(3)宜支持麒麟、CentOS 等至少 1 种国内外操作系统。2.2.主流机器学习和深度学习主流机器学习和深度学习支撑能力支撑能力 支持常见的视觉分析、NLP 和语音识别功能。视觉分析宜支持 resnet50、yoloV5 等神经网络,NLP 宜支持 bert、Transformer等神经网络,语音识别宜支持 tacotron2、waveRNN、FlySpeech等神经网络。(三)使能软件 1.1.数据接入数据接入 数据接入是人工智能开发平台的基础环节,根据项目需求,24 平台按照不同方式接入不同类型的数据,并在此基础上开展后续环节。主要功能包括:(1)支持接入不同类型的数
49、据,包括结构化数据(如数据库表)和非结构化数据(如文本、图像、视频及音频等格式)。(2)支持本地数据接入、各类接口协议接入等数据接入方式。(3)支持接入数据的参数配置。2.2.数据预处理数据预处理 经过清洗、转换等操作,数据预处理部分可以解决数据可能存在的质量问题(如不一致、无效、缺失、重复等),将数据加工为模型开发能够直接使用的形式,并在此基础上开展后续环节。主要功能包括数据清洗(如去重、异常值检测、缺失值填充等)、数据转换、数据增强。3.3.数据标注数据标注 数据标注是认知数据特征的重要过程,标注质量与模型效果息息相关,平台应提供面向不同类型数据(如文本、图像、视频及音频等)的人工标注及自
50、动标注工具,并提供可灵活扩展的团队标注和智能标注模式。4.4.数据数据管理管理 数据管理是人工智能开发平台的支撑环节,平台应支持用户对其权限内的数据进行统一管理,并以数据集的形式服务于后续环节。主要功能包括:25(1)支持创建、删除、修改、查看及导出等数据集操作。(2)支持数据集信息展示和查询,如名称、原始数据、标注信息、标签等。(3)提供权限与版本管理、拆分与合并等数据集管理功能。5.5.数据分析数据分析 数据分析支持使用统计方法分析数据并提取有效信息,及时发现数据特征或分布上的问题,从而有针对性地优化处理。主要功能包括:(1)不同类型的数据预览,如结构化、半结构化、非结构化的数据。(2)数