ImageVerifierCode 换一换
格式:PDF , 页数:27 ,大小:1.08MB ,
资源ID:1320041      下载积分:25 金币
验证码下载
登录下载
邮箱/手机:
验证码: 获取验证码
温馨提示:
支付成功后,系统会自动生成账号(用户名为邮箱或者手机号,密码是验证码),方便下次登录下载和查询订单;
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

开通VIP
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.zixin.com.cn/docdown/1320041.html】到电脑端继续下载(重复下载【60天内】不扣币)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  
声明  |  会员权益     获赠5币     写作写作

1、填表:    下载求助     索取发票    退款申请
2、咨信平台为文档C2C交易模式,即用户上传的文档直接被用户下载,收益归上传人(含作者)所有;本站仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。所展示的作品文档包括内容和图片全部来源于网络用户和作者上传投稿,我们不确定上传用户享有完全著作权,根据《信息网络传播权保护条例》,如果侵犯了您的版权、权益或隐私,请联系我们,核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
3、文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为仲裁依据,平台无法对文档的真实性、完整性、权威性、准确性、专业性及其观点立场做任何保证或承诺,下载前须认真查看,确认无误后再购买,务必慎重购买;若有违法违纪将进行移交司法处理,若涉侵权平台将进行基本处罚并下架。
4、本站所有内容均由用户上传,付费前请自行鉴别,如您付费,意味着您已接受本站规则且自行承担风险,本站不进行额外附加服务,虚拟产品一经售出概不退款(未进行购买下载可退充值款),文档一经付费(服务费)、不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
5、如你看到网页展示的文档有www.zixin.com.cn水印,是因预览和防盗链等技术需要对页面进行转换压缩成图而已,我们并不对上传的文档进行任何编辑或修改,文档下载后都不会有水印标识(原文档上传前个别存留的除外),下载后原文更清晰;试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓;PPT和DOC文档可被视为“模板”,允许上传人保留章节、目录结构的情况下删减部份的内容;PDF文档不管是原文档转换或图片扫描而得,本站不作要求视为允许,下载前自行私信或留言给上传者【Stan****Shan】。
6、本文档所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用;网站提供的党政主题相关内容(国旗、国徽、党徽--等)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。
7、本文档遇到问题,请及时私信或留言给本站上传会员【Stan****Shan】,需本站解决可联系【 微信客服】、【 QQ客服】,若有其他问题请点击或扫码反馈【 服务填表】;文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“【 版权申诉】”(推荐),意见反馈和侵权处理邮箱:1219186828@qq.com;也可以拔打客服电话:4008-655-100;投诉/维权电话:4009-655-100。

注意事项

本文(中国联通新一代AI计算基础设施白皮书.pdf)为本站上传会员【Stan****Shan】主动上传,咨信网仅是提供信息存储空间和展示预览,仅对用户上传内容的表现方式做保护处理,对上载内容不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知咨信网(发送邮件至1219186828@qq.com、拔打电话4008-655-100或【 微信客服】、【 QQ客服】),核实后会尽快下架及时删除,并可随时和客服了解处理情况,尊重保护知识产权我们共同努力。
温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载【60天内】不扣币。 服务填表

中国联通新一代AI计算基础设施白皮书.pdf

1、中国联通新一代 AI 计算基础设施白皮书中国联通新一代 AI 计算基础设施白皮书中国联通新一代 AI 计算基础设施白皮书目录目录一、AI 计算基础设施的发展简介.3(一)AI 计算基础设施是人工智能快速发展的实现基础.3(二)人工智能产业对 AI 计算基础设施的算力需求激增.4(三)国家产业政策积极鼓励发展新型 AI 计算基础设施.5二、运营商应积极布局新一代 AI 计算基础设施.5(一)运营商建设新型 AI 计算基础设施的需求.5(二)新一代 AI 计算基础设施的功能架构简介.6三、新一代 AI 计算基础设施发展的关键技术突破点.9(一)高性能计算能力.91.处理器性能.92.并行协同策略.

2、103.分布式通信.11(二)异构并行计算能力.13(三)安全可信能力.14(四)资源弹性调度能力.16(五)绿色低碳计算能力.18四、AI 计算基础设施商业模式简析.18五、展望未来.19参考文献.21缩略语.23中国联通新一代 AI 计算基础设施白皮书-1-前 言人工智能是当今世界发展的重要领域之一,对推动人类科技经济发展起着加速作用。人工智能产业化落地也是推动我国战略新兴产业实现融合集成、促进我国科技高水平自立自强、提振数字经济高质量发展的重要推动力。随着新技术的不断演进,人工智能发展呈现出应用场景多元化拓展、数据体量爆发式增长、算法模型参数量指数级增加的发展态势,这对支持大规模 AI

3、计算的基础设施提出更高的性能要求。高性能的 AI 计算基础设施应支持大规模、多任务的算法模型训练与推理部署,满足高并发、高弹性、高精度的计算需求;具备兼容异构底层硬件的生态对接能力以实现上层应用和底层硬件的解耦;还需提供安全可信的计算环境以保障数据隐私;并且能够合理地分配计算资源以实现绿色低碳目标。中国联通作为数字信息基础设施运营服务国家队,携手产业链凝聚共识,突破 AI 计算基础设施的发展瓶颈,为 AI 服务于千行百业提供灵活高效的计算基座发布此中国联通新一代 AI 计算基础设施白皮书。白皮书分析了当前 AI 计算基础设施的发展趋势以及规模化部署面临的挑战,系统性地介绍了 AI 计算基础设施

4、的发展背景、总体架构、关键技术、商业模式和未来展望,呼吁产业链携手共建标准化的、开放的 AI 算力生态,加快输出具有中国经验的标准化体系。中国联通新一代 AI 计算基础设施白皮书-2-编写组成员编写组成员(排名不分先后):叶晓煜、郭熹、程新洲、贺鸣、马瑞涛、王鑫、李贝、徐乐西、赵慧英、谢志普、秦守浩中国联通新一代 AI 计算基础设施白皮书-3-一、一、AIAI 计算基础设施的发展简介计算基础设施的发展简介(一)(一)AI 计算基础设施是人工智能快速发展的实现基础计算基础设施是人工智能快速发展的实现基础人工智能(Artificial Intelligence)起源于 20 世纪五六十年代,历经符

5、号主义、连接主义和行为主义三次浪潮的相互交织发展,到如今作为一项新兴的通用技术,正推动着社会生活与各行各业的巨变。数据、算力、算法是人工智能发展的三要素,也被誉为数字经济时代发展的三驾马车。其中,数据是生产资料,海量优质数据是驱动算法持续演进的基础养料;算法是生产关系,是处理数据信息的规则与方式;算力是生产力,体现为数据处理与算法训练的速度与规模1。作为人工智能三大基础要素之一,算力是决定 AI 产业变革的关键承载基础。回顾人工智能的演进历程,就曾多次遇到因基础设施运算能力不足而无法突破技术瓶颈的案例,例如深度学习早在上世纪80 年代就已被人工智能专家提出,由于训练深度学习模型需要循环迭代上千

6、次,当时的计算机的运算性能不足以支撑上千次的迭代,导致深度学习模型的发展经历数年寒冬。直到 21 世纪高性能计算硬件的出现,加速了人工智能的训练迭代速度,使得大规模的数据训练效率大大提升,才极大地促进了人工智能的快速发展。现阶段 AI 基础设施的概念已不仅仅是承载计算的硬件设备,其范围已经扩展到高速互联网络、资源管理与调度、分布式策略、计算框架、训练/推理相关应用等一套完整的 AI 基础服务体系。大力发展中国联通新一代 AI 计算基础设施白皮书-4-新型的 AI 计算基础设施可以有效推动技术资源向创新领域集聚,助力实现智能产业化与产业智能化协同并进。中国联通作为数字信息基础设施运营服务的国家队

7、,需要在构建新一代 AI 计算基础设施方面找到着力点,联合产业链各方一同推动 AI 计算基础设施的自主创新。(二)人工智能产业对(二)人工智能产业对 AI 计算基础设施的算力需求激增计算基础设施的算力需求激增近年来,人工智能产业对 AI 基础设施运算能力的需求更是显性化激增,具体表现在以下三个方面:一是 AI 场景的复杂多样化提升了对 AI 计算基础设施算力通用性的需求。人工智能技术正在加速与千行百业的融合并因此创造出了丰富的行业应用场景,据国际数据公司(IDC)测算,我国人工智能行业应用不断深入,已有 58%的企业在使用人工智能,远远高于全球平均水平2,领跑全球。而复杂多样的 AI 场景落地

8、必将依托 AI 基础设施提供的通用性运算能力;二是5G、AI、大数据、云计算、物联网等技术的加速发展将会带来大量的数据。预计到 2025 年,中国的数据量将达到 486 万亿亿字节3,海量数据的计算分析必然离不开高性能的 AI 计算基础设施;三是 AI模型越来越庞大,模型的参数规模也在快速增长,随着量级从千亿级到万亿级的发展,模型的结构也将越来越复杂。OpenAI 发布的一份关于 AI 算力增长趋势的分析报告显示自 2012 年以来,AI 训练所需算力每3.5个月增长一倍(对比摩尔定律翻倍需要18个月),自2012年以来,该指标已增长 30 万倍以上4。由此可见,在复杂场景、海中国联通新一代

9、AI 计算基础设施白皮书-5-量数据、超大模型的需求背景下,各个行业对于 AI 计算基础设施算力的需求迫切增长。(三)国家产业政策积极鼓励发展新型(三)国家产业政策积极鼓励发展新型 AI 计算基础设施计算基础设施在 2021 年底,中央网络安全和信息化委员会印发“十四五”国家信息化规划,着重提出要着力夯实数字基础设施建设水平,部署了建设泛在智联的数字基础设施体系任务,适度超前部署下一代智能设施体系,深化公共设施数字化、智能化转型升级。2022 年底,中共中央、国务院印发了扩大内需战略规划纲要(20222035年),也再次明确前瞻布局创新基础设施。支持有条件的地方建设区域性创新高地,适度超前布局

10、建设重大科技基础设施,强化共性基础技术供给。由此可见,数字经济时代,作为产业智能化底座的 AI计算基础设施方面的竞争力予国家和产业的战略价值。截至 2022 年我国算力总规模达到 180EFlops5,全球占比约 33%,保持 50%以上的高速增长,远超全球平均水平。面向 AI 计算基础设施的智能算力占比由 2016 年的 3%提升至 2020 年的 45%6,预计未来新增算力中 AI 算力规模增速将进一步扩大。二、二、运营商应积极布局新一代运营商应积极布局新一代 AIAI 计算基础设施计算基础设施(一)(一)运营商建设新型运营商建设新型 AI 计算基础设施的需求计算基础设施的需求2022 年

11、 11 月,OpenAI 基于大规模预训练模型 GPT-3.5 和自然语言生成技术发布了大模型 ChatGPT,实现多轮对话问答。据估中国联通新一代 AI 计算基础设施白皮书-6-算,GPT-3 训练一次的成本约为 140 万美元,对于一些更大的大型语言模型(LLM),训练成本介于 200 万美元至 1200 万美元之间。在推理方面,以 ChatGPT 在 2023 年 1 月的独立访客平均数 1300万来计算,其对应芯片的需求量大约为 3 万多片英伟达 A100 GPU7。面对大模型发展带来的算力需求,建设面向 AI 的新一代计算基础设施成为关键的一环。电信运营商作为 ICT 基础设施算力的

12、建设者和运营者,拥有全国跨域网络互通、云网融合统一纳管的资源优势,也担当着使能全社会数智转型主力军的重任,因此在人工智能产业飞速发展的过程中,也应抓住新机遇加快构建新一代 AI 计算基础设施,为千行百业提供高性能的智能算力。运营商未来在构建新一代 AI 计算基础设施时,将通过引入异构计算的方式,打造高性能并行、异构兼容、安全可信、绿色低碳能力的新架构,满足用户高并发、高算力的需求。重点考虑:对大规模算力集群的组网,需满足超高带宽、超低时延、超高稳定性的网络质量要求;对硬件资源的整合,实现异构 AI 芯片的融合,并根据业务场景的需求灵活调度计算资源;针对对大规模模型的分布式训练,可根据任务选择所

13、需资源类型和算力规模,创建集群组网并匹配相应的并行计算模式。(二)(二)新一代新一代 AI 计算基础设施的功能架构简介计算基础设施的功能架构简介新一代的 AI 计算基础设施,可以分为 AI-IaaS 层、AI-PaaS 层中国联通新一代 AI 计算基础设施白皮书-7-以及 AI-SaaS 层,总体架构如图 1 所示。图 1新一代 AI 计算基础设施功能架构AI-IaaS 层主要包括异构 AI 算力资源、云化管理和网络互联功能,为上层的 AI-PaaS 以及 AI-SaaS 层提供计算能力、数据处理能力以及超大模型的训练和推理能力。异构 AI 算力资源包括通用算力CPU 以及不同种类的智能算力如

14、 GPU、NPU 等。由于传统的 CPU计算基础设施无法承载 AI 大模型完成高性能计算,而智能算力芯片有大量计算单元和超长流水线,更适合处理大量类型统一的数据并行计算,因此多元异构 AI 芯片成为提升算力的关键要素。云化管理主要完成对于异构 AI 算力的虚拟池化、集群调度以及容错容灾管理。网络互联旨在为构建大规模智能算力集群提供高性能算力网络,基于远程直接数据存取(RDMA)、IPv6、智能 ECN(明确的拥塞通知)、高中国联通新一代 AI 计算基础设施白皮书-8-精度拥塞控制(HPCC)等技术构建超大带宽、超低时延和高稳定性的无损网络,实现数据、模型、应用服务等多要素的共享、流通与调度。A

15、I-PaaS 层是 AI 计算基础设施的中台联动层,包括了集合通信、异构资源管理、异构并行训练引擎、分布式策略和兼容多种计算框架等能力。集合通信提供了跨不同类型加速设备的通讯支持,完成异构算力节点之间的数据交换,能够发挥所有芯片的效能。异构资源管理实现了异构计算芯片的融合,完成了资源的统一调度和监控。异构并行训练引擎根据业务场景的需求灵活调度计算资源,实现异构算力集群环境下高效的并行分布式训练。分布式策略实现根据任务所需资源和算力资源情况,自适应选择并行计算策略。AI 计算框架向下调用底层 AI 芯片、向上承载算法模型,是执行计算任务的关键部分,AI-PaaS层支持Pytorch、Tensor

16、Flow、PaddlePaddle、MindSpore等多种计算框架,实现计算统一的标准接口和工具包,集成算法的封装、数据的调用以及计算资源的使用。AI-SaaS 层是具体的服务应用层,包括可视化的用户服务界面、各类应用的开发和管理界面等,用户在 AI-SaaS 层也可以对底层AI-IaaS 进行可视化的纳管,同时还包括面向人工智能应用的在线开发、并行训练、迁移学习、联邦学习、模型仓库、模型压缩、AutoML、MLOPs 等功能。面对人工智能算法开发场景,具备从在线开发、并行训练功能的基础上引入自动机器学习和迁移学习等技术解决模型中国联通新一代 AI 计算基础设施白皮书-9-的设计和重训练等问

17、题,加快并优化模型的学习效率,降低 AI 技术的应用和迁移成本。通过联邦学习解决计算节点之间的数据差异,数据不出域即可实现基于全局数据的模型训练,发挥数据资产的最大效能以赋能生产。通过 MLOPs、模型仓库、模型压缩实现工具体系、开发流程、模型管理全生命周期的高效耦合,赋能企业更高效地利用AI 创造价值。三、三、新一代新一代 AIAI 计算基础设施发展的关键技术突破点计算基础设施发展的关键技术突破点新一代 AI 计算基础设施应具备以下五项关键能力:高性能计算能 力(High Performance Computing)、异 构 并 行 计 算 能 力(Heterogeneous Computi

18、ng)、安全可信能力(Secured andTrusted)、资源弹性调度能力(Elastic Resource Scheduling)以及低碳绿色计算能力(Green Computing)。(一)高性能计算能力(一)高性能计算能力1.1.处理器性能处理器性能现阶段主流方案都采用 AI 加速芯片来处理深度学习的模型训练任务。相较于 CPU,GPU 拥有大量的算术逻辑单元(ALU)和带宽,并支持半精度、单精度或双精度的浮点运算,在各种精度下都可实现更高的 FLOPS(每秒浮点数运算次数),从而提升深度学习模型的训练的速度和精度8。NPU 采用“数据驱动并行计算”的架构,专门为深度神经网络计算而设

19、计,具有更高的性能和更低的能耗。此外,中国联通新一代 AI 计算基础设施白皮书-10-AI 加速芯片都配有独立的内存,由比系统总线更高带宽的通讯连接方式与 AI 加速芯片互联,可存储训练样本数据和模型数据,进一步提升速度。由于受到高端芯片进口的限制和制约,大力推动国内高性能 AI加速芯片的研发是突破这一瓶颈的关键因素。目前国内持续涌现华为、寒武纪、燧原科技等新兴 AI 芯片,正逐步提升与英伟达高端 GPU 的竞争的实力。补足这些差距需要芯片制造、芯片设计、算力服务运营,乃至用户的通力合作,加之国家层面的政策性支持,逐步打造完善的国产化 AI 生态,以推动行业的持续发展。2.2.并行协同策略并行

20、协同策略当模型规模较大或者训练样本数据量较大时,模型训练会非常耗时,可能经过长时间的训练之后才发现模型构建、超参数选择、样本处理等环节需要调整,然后重新开始,如此反复。因此,大模型的训练一般都会使用分布式并行的方式来提高训练效率。根据任务的特点,并行策略可分为数据并行、模型并行和流水线并行等。数据并行模式适用于样本量大但模型规模不大的情况。数据并行中每个计算节点拥有完整的模型参数,将数据切分并分发到各计算节点进行本地训练,然后汇聚各节点的梯度并更新模型参数,再将参数广播到各个节点上做下一轮更新。数据并行的实现方式也有很多,从传 统 的 Parameter Server 架 构 到 更 高 效

21、的 All-Reduce 和中国联通新一代 AI 计算基础设施白皮书-11-Ring All-Reduce 架构等。模型并行适用于模型规模较大的情况,是将神经网络模型拆分成不同部分并分发到各计算节点。每次前向计算和反向传播时,前一部分模型所在节点的输出即为后一部分模型所在节点的输入,串行的将所有节点进行连接完成一次参数的更新。流水线并行结合了数据并行和模型并行,将训练数据中的每一个小批次划分为多个微批次,并在模型并行的每一层中再进行数据并行。并行策略的选择一方面要结合训练任务的特点,另一方面还要结合集群的结构与网络情况,复杂度高的并行策略对网络的压力非常的大,一旦网络的拥塞达到一定程度就会出现

22、节点间相互等待的状况,将极大的降低计算效率。未来 AI 计算基础设施服务应可以根据任务的情况,灵活的构建集群结构和弹性的资源分配,也就是说用户只需要表明要使用何种并行策略,系统即可自动的创建相应结构的逻辑集群,用户不再关心该如何创建集群资源等基础设施等层面的问题。3.3.分布式通信分布式通信分布式系统所采用通讯方式极大的影响着系统的整体性能。传统方式下集群由以太网进行互联,AI 加速卡通过 PCIe 到服务器 HOST(CPU)端再通过网卡进行数据交换。为了降低多卡之间互联通信代价高的问题,大多数 AI 加速芯片制造商都提出了直连的通讯解决方案。并行训练过程中跨服务器的 AI 加速芯片(DEV

23、ICE)之间的数据通讯由单独的参数面交换设备组网互联,数据不需要经服务器中国联通新一代 AI 计算基础设施白皮书-12-HOST 端(CPU)通过以太网络互通,绕开了系统总线及 I/O 通讯瓶颈,大大提升了训练过程中的通讯效率。图 2新一代 AI 计算基础设施通信架构新一代 AI 计算基础设施通信架构如图 2 所示,AI 服务器的DEVICE 之间通过 Infiniband、RoCE 等远程直接内存访问(RDMA)技术独立组网,用于模型参数的数据交换。RDMA 通讯是一种直接内存访问技术,它可以让一个计算机直接访问另一个计算机的内存,而不需要经过操作系统的处理,这样可以提高网络的吞吐量和降低延

24、迟,极大的提升了并行训练效率。现阶段 RDMA 组网需要专用的网卡和交换机,如果组建一个超大规模的模型参数交换网络是非常昂贵的。未来,还需要不断的进行技术突破与革新,实现 AI 高速网络的提质降本增效,推动 AI 基础设施的发展。中国联通新一代 AI 计算基础设施白皮书-13-(二)异构并行计算能力(二)异构并行计算能力根据IDC官方数据,智能算力GPU市场份额几乎被英伟达垄断,占据 95%以上市场份额9。在智能算力市场几乎被英伟达垄断的宏观背景下,运营商已具备的 AI 算力也基本全部为英伟达芯片,主要包括 T4、A100 和 V100 等。与此同时,在先进 AI 芯片进口受限的背景下国内 A

25、I 芯片的持续涌现,逐步引入信创 AI 芯片已成为趋势,底层算力的异构状况在所难免。另一方面,目前以 ChatGPT 为代表的通用大模型的应用,也驱动着对超大规模 AI 计算集群的需求。但是运营商已有算力分布在各地且性能各异,不能满足大模型训练所需的集中算力规模需求。如何通过技术手段整合现有跨域 AI 算力资源并支持异构并行计算,成为了不得不面对的问题。异构并行能力指的是 AI-PaaS 平台可以兼容不同品牌和型号的AI 加速芯片并可创建异构集群进行并行计算。现阶段,PaaS 平台可以适配不同品牌和型号的 AI 加速卡,但无法实现异构的并行计算。用户在使用资源时需要事先指定使用何种类型的资源,

26、并且只能在该资源池内创建任务,跨品牌的资源无法实现并行计算。实现异构并行计算的难点在于各 AI 芯片厂商所支持的算子库、通信库、计算框架,计算精度等方面都存在差异,导致模型无法移植、AI 加速芯片间无法进行通讯。一种解决方式是在 AI-PaaS 平台侧建立“转译”机制,拉齐各异构 AI 芯片体系的算子、加速指令、通信中国联通新一代 AI 计算基础设施白皮书-14-步调等,使得模型参数与计算框架指令可在异构 AI 芯片之间进行传递并统一执行。另一种方式是创建 AI 芯片通讯、算子、计算框架等关键技术环节的标准体系,使 AI 芯片生态各层级之间相互解耦并遵循统一标准,从而实现异构并行能力。计算性能

27、差异上的异构,需通过并行策略上的优化来降低性能的损失。例如数据并行时,根据各节点处理能力强弱的标签来分配各节点样本量的大小,以保证各节点在相近的时间内完成每轮的梯度计算,避免高算力节点的等待与闲置。针对模型训练的异构并行计算现阶段还存在较大的不确定性,也不一定能胜任所有类型的训练任务,这些也都有待于进一步的研究与探索。未来的 AI 模型规模会越来越大,如何利用好异构 AI 算力、整合 AI 计算资源将会是运营商抢占的下一个制高点。(三)安全可信能力(三)安全可信能力AI 计算基础设施的安全可信要求贯穿数据采集、传输、存储、治理、计算、应用的全生命周期。深度学习需要大量的样本数据用于模型的训练,

28、样本可能涉及不同种类的敏感数据,例如用户个人信息、通话/对话记录、企业经营数据、基础研究实验数据等。因此,如何保证数据安全必定是 AI 基础设施建设中重要的考虑因素。联邦学习是一种使用多方数据进行协同训练的机器学习方式,也是对安全性最为敏感的方式。(联邦学习架构见图 3)为了确保各方数据隐私的安中国联通新一代 AI 计算基础设施白皮书-15-全,它采用多个分布式的边缘设备或服务器在不共享本地数据样本的情况下训练一个全局模型。图 3 联邦学习架构图虽然在联邦学习本身就是一种保证数据安全的共享机制,但仍然存在风险,其中最具有代表性问题就是梯度泄露问题。梯度泄露是在联邦学习中参与方之间通过交换梯度信

29、息进行协作训练时,可能会暴露或泄露自己的本地数据信息,从而导致数据隐私和安全的威胁。比如获取方能通过交互数据中包含的梯度信息反向计算还原样本数据的部分信息,从而导致数据泄露。联邦学习基于多方计算的已有研究,利用多方计算的密码学方法来保护数据和模型的隐私和安全,以及确保训练过程和结果的正确性和可信性。针对联邦学习中存在的各种攻击威胁,主要几种解决方案包括10:(1)差分隐私(DP),在原始数据或模型参数中添加随机噪声,中国联通新一代 AI 计算基础设施白皮书-16-从而使数据无法恢复以保护数据属主的隐私。(2)同态加密(HE),重点在于对密文计算后的结果再解密和直接对明文计算的结果一致,在保证数

30、据隐私性的前提下可将密文计算委托给第三方完成。(3)安全多方计算(MPC):让多方参与者可以在不泄露各自数据的情况下,协同完成某个计算任务。通常以两方安全协议与多方秘密共享协议为基础,再结合同态加密技术实现对数据的保护。(4)可信执行环境(TEE):利用硬件支持,为计算任务的执行提供一个隔离和安全的环境。虽然通过一些安全机制可增加反推样本信息的难度,但很难做到绝对安全。未来,新一代 AI 基础设施的安全机制的完善有待于对网络安全、数据安全、算法安全等多领域进行更加深入的研究,以确保在各种场景下 AI 应用的安全与可信。(四)资源弹性调度能力(四)资源弹性调度能力AI 计算基础设施中的 AI 芯

31、片成本极高,占整个基础设施一半以上的成本。并且当前国产化 AI 芯片虚拟化能力存在局限性,物理资源只能以独占式的分配方法提供给用户实例使用,无法实现动态调整和灵活调度,导致底层资源无法被充分利用。如在 AI 推理场景下,单用户、单任务运行在独立AI加速卡上,卡算力使用率往往不到20%,会造成大量的资源浪费以及与之相关的电费、运维费用的额外开支。中国联通新一代 AI 计算基础设施白皮书-17-因此为了有效提升 AI 加速芯片的使用效率,需要对底层 AI 芯片硬件资源进行虚拟化处理。将 AI 芯片的固定物理资源通过虚拟化、池化技术灵活拟合为虚拟的逻辑单元,为不同的任务匹配合理的虚拟计算资源(如图

32、4 所示),这样可以有效的避免算力与任务不匹配而导致资源浪费问题。图 4不同计算任务匹配差异化的虚拟资源AI 芯片的虚拟池化能力是将单张 AI 芯片的计算能力通过虚拟化技术划分为多个更小的逻辑单元,由此可将不同的推理任务分配到这些逻辑单元中进行并行运算,以按需分配方式为小粒度应用提供计算资源,实现多用户对单块 GPU 资源的共享,此类场景适用于计算量较低但并发量较大的 AI 推理任务。在虚拟化能力的基础上,对 AI 芯片计算资源的合理编排也是新一代 AI 计算基础设施中必不可少的能力,例如根据任务规模自动评估并匹配合理的计算资源,优化逻辑、运算、存储资源的配比,合理中国联通新一代 AI 计算基

33、础设施白皮书-18-设计任务排队机制等都是运营商在面向用户提供公共 AI 基础设施服务时需要进行精细化管理的内容。(五)(五)绿色低碳计算能力绿色低碳计算能力绿色低碳计算是未来算力网络发展的一大趋势。当前 AI 智算中心的绿色低碳节能方案主要采用液冷或风冷配套设施来对服务器进行散热、冷却,从而降低 PUE 数值,或者逐步引入可再生能源、清洁能源来扩大绿色电源接入。为了控制 AI 智算基础设施或 AI 智算中心的能源消耗,从根本上来讲还是需要降低 IT 系统本身的单位任务能耗,即提高大规模 AI 模型在并行训练过程中的算力效率。在保证用户业务需求、模型训练精度的基础上,优化计算资源分配效率,根据

34、上层任务的差异化需求,对服务器算力资源进行分层弹性调度。AI 计算基础设施 SaaS 层需要集成绿色低碳管理系统,该系统应具备评估各任务所需的时间、资源、能耗及费用能力,并建立合理的能耗优化算法和任务排队机制,提升 AI 基础设施的整体利用率,降低单位能耗。四、四、AIAI 计算基础设施商业模式简析计算基础设施商业模式简析人工智能需要的计算资源昂贵,伴随着 ARVR、元宇宙、全息视频等 To C 应用的繁荣,AI 计算基础设施的应用需求也逐步从 B 端走向 C 端。因此,电信运营商作为数字信息基础设施运营服务的国家队,在构建 AI 计算基础设施时,需要集约化建设、服务化供给,针对 B中国联通新

35、一代 AI 计算基础设施白皮书-19-端以及 C 端用户分别提供差异化的商业供给模式,为不同的 AI 应用提供高精度与低精度、通用与专用的计算服务能力。在进行 AI 计算中心的规划时也应深入考虑当地区域的产业发展需求,匹配契合度更高的 AI 计算资源供给模式,方可打造高质量、可持续发展的 AI 计算基础设施产业体系。在国内产业链,可以对外提供 AI 计算服务的公司已不在少数,但是不同品牌的 AI 计算平台之间也存在差异化的能力与优势,因此电信运营商在构建新一代 AI 计算基础设施商业平台时,一是可以发挥云网深度融合的优势,自建自营全国跨域的 AI 计算基础设施,直接面向 To C 或者 To

36、B 用户提供 AI 计算服务。电信运营商可以提供分时、分区域的 AI 基础设施资源服务为不同地域、不用类型的 C 端、B 端 AI 应用需求提供服务,从而降低了运营成本和能耗。另一方面,电信运营商也可以以“搭台唱戏”的角色汇聚其他的 AI 计算服务商的能力,与其他 AI 科技企业一同构建联合运营的商业模式,为客服提供 AI 计算服务。五、五、展望未来展望未来为面向未来大模型快速发展带来的潜在算力需求,运营商应该积极承担建设新型 AI 计算基础设施,在算力侧、平台侧、模型侧、应用侧进行全方位一体的布局,为用户提供低门槛、高性能的 AI 模型研发与应用能力。中国联通新一代 AI 计算基础设施白皮书

37、-20-在算力侧,整合已有的分散资源,进一步引入新的信创 AI 芯片,逐步向“通用算力+智能算力+超算算力”的异构模式发展,适度超前构建超大规模、超高带宽、超低时延组网的算力集群,满足 AI 训练、AI 推理等大规模计算需求。在平台侧,聚焦异构并行计算技术,从硬件、软件、软硬协同等层面进行多方优化,对下完成高效、便捷的异构算力管理,对上提供弹性、可靠的计算业务资源调度能力,实现模型构建、分布式训练、部署开发全流程的支持。在模型侧,自主掌控大模型的关键技术,构建电信特色大模型及及行业领域大模型,对内集约化赋能各专业线规模化的降本提质增效,对外为千行百业的客户提供先进的 AI 落地方案和能力。在应

38、用侧提供可视化的友好操作界面,降低模型研发和应用的门槛,便于用户聚焦垂直领域的业务逻辑和数据,通过预置的 API、模块化代码等资源实现个性化 AI 应用。同时运营商应构建开放合作生态,汇聚行业领先企业的力量,创新算法赋能服务的模式,基于新型 AI 计算基础设施提供弹性的智能算力、便捷的建模工具、多样的模型训练和推理服务、丰富的算法应用,满足内外部人工智能业务的规模应用发展需求。人工智能是引领未来的战略性技术,是全球新一轮信息产业发展和产业竞争的核心驱动力,人工智能全面创新发展也对 ICT 基础设施中国联通新一代 AI 计算基础设施白皮书-21-提出了新的需求。电信运营商作为数字信息基础设施运营

39、服务的国家队,大力发展新型的 AI 计算基础设施可以有效推动技术资源向创新领域集聚,助力实现智能产业化与产业智能化协同并进。因此,电信运营商需要在构建新一代 AI 计算基础设施方面找到着力点,联合产业链各方一同攻关当前 AI 计算基础设施中的技术难点,实现科技创新的自立自强。借助 AI 计算基础设施的核心支撑,通过人工智能人才带来创新力量,培育规模化的 AI 应用市场,推动我国成为人工智能的超级大国。参考文献参考文献1令才科技.算力升级为企业数字化转型提供新动能EB/OL.2022-10-27.https:/ andcomputeEB/OL.2018-05-16.https:/ AI 计算基础

40、设施白皮书-22-ch/ai-and-compute.5国家互联网信息办公室.数字中国发展报告(2022 年)EB/OL.2023-04-27.http:/ 需要多少算力EB/OL.2023-02-13.http:/ 年)R/OL.2022-07.https:/ AI 计算基础设施白皮书-23-缩略语缩略语英文缩写英文全称中文全称AIArtificial Intelligence人工智能ALUArithmetic and Logic Unit算术逻辑单元AutoMLAutomatic Machine Learning自动机器学习CPUCentral Processing Unit中央处理器DP

41、Differential Privacy差分隐私ECNExplicit Congestion Notification明确的拥塞通知FLOPSFloating Point Operations PerSecond每秒浮点运算次数GPUGraphics Processing Unit图形处理器GPTGenerative Pre-trainedTransformer生成预训练变压器HEHomomorphic Encryption同态加密HPCCHigh Precision CongestionControl高精度拥塞控制IaaSInfrastructure as a Service基础设施即服务I

42、CTInformation and CommunicationsTechnology信息和通信技术IPv6Internet Protocol Version 6互联网协议第 6 版中国联通新一代 AI 计算基础设施白皮书-24-LLMLarge Language Model大型语言模型MLOpsMachine Learning Operations机器学习运维MPCSecure Multi-party Computation安全多方计算NCCLNVIDIA CollectiveCommunicationLibraryNVIDIA 聚合通信库NPUNeural network Processing Unit神经网络处理器TPUTensor Processing Unit张量处理单元PaaSPlatform as a Service平台即服务PCIePeripheral ComponentInterconnectExpress高速串行计算机扩展总线标准RDMARemote Direct Memory Access远程直接数据存取SaaSSoftware as a Service平台即服务TEETrusted Execution Environment可信执行环境

移动网页_全站_页脚广告1

关于我们      便捷服务       自信AI       AI导航        获赠5币

©2010-2024 宁波自信网络信息技术有限公司  版权所有

客服电话:4008-655-100  投诉/维权电话:4009-655-100

gongan.png浙公网安备33021202000488号   

icp.png浙ICP备2021020529号-1  |  浙B2-20240490  

关注我们 :gzh.png    weibo.png    LOFTER.png 

客服