交互式人工智能对广域网流量及智算网络技术的影响分析.pdf

资源描述

1、2024/04/DTPT收稿日期：2024-02-281 概述1.1 人工智能是数字化平台的灵魂1950年，“人工智能之父”阿兰图灵发表了计算机器与智能，最先讨论了计算机与智能的关系，并提出认定机器智能的“图灵测试”。“人工智能”的概念在美国达特茅斯学院研讨会上被首次提出，由此其发展正式拉开序幕。在70多年发展历程中，人工智能演进出计算机视觉、机器学习、深度学习、模式识别、知识工程、自然语言处理等众多关键技术。过去10年中，新一代信息技术应用不断为各行各业注入新活力，形成了以人工智能、云计算、5G为代表的核心科技力量。根据2022年国务院印发的 “十四五”数字经济发展规划，包括AI算法、算

2、力在内的数字经济核心产业增加值将在2025年达到13.8万亿元，并通过这13.8万亿元的数字经济核心产业，带动各产业间的数字化转型，推动数字技术与实体经济深度融合，让数字经济成为促进公平与效率更加统一的新经济形态。1.2 人工智能是网络经济时代新的生产力在商用领域，交互式人工智能可以提高运营效率、降低劳动成本、提高服务质量、重塑工作方式。交交互式人工智能对广域网流量及智算网络技术的影响分析Analysis of Impact of Interactive Artificial Intelligence onWAN Traffic and Intelligent Computing Networ

3、k Technology关键词：人工智能；大模型训练；多模态；智算中心doi：10.12045/j.issn.1007-3043.2024.04.004文章编号：1007-3043（2024）04-0020-06中图分类号：TP393.2文献标识码：A开放科学（资源服务）标识码（OSID）：摘要：主要分析了以 ChatGPT为代表的交互式人工智能对广域网网络流量及智算中心网络技术的影响。首先，分析了交互式人工智能对广域网南北向流量、东西向流量的影响，并结合东数西算、云网融合、算力网络的发展提出了其在国内的3个发展阶段。其次，分析了交互式人工智能的训练池和推理池对数据中心网络建设的影响，通过比较

4、IB和RoCE 2种技术路线的差异，给出可能的技术选择。最后，给出了对交互式人工智能未来发展的一些思索和探讨。Abstract：It mainly analyzes the impact of interactive artificial intelligence represented by ChatGPT on wide area network(WAN)trafficand intelligent computing center network technology.Firstly，the impact of interactive artificial intelligence on

5、 the north-southand east-west traffic of WAN is analyzed，and three development stages in China are proposed based on the development ofeast-west computing，cloud network integration，and computing power networks.Secondly，the impact of training andinference pools of interactive artificial intelligence

6、on data center network construction is analyzed.By comparing thedifferences between IB and RoCE technology routes，possible technology choices are given.Finally，some thoughts anddiscussions on the future development of interactive artificial intelligence are provided.Keywords：Artificial intelligence；

7、Large model training；Multi-modal；Intelligent computing center贺超1，廖若凡1，张桂玉2，马季春2（1.华南师范大学，广东佛山 528000；2.中讯邮电咨询设计院有限公司，北京 100048）He Chao1，Liao Ruofan1，Zhang Guiyu2，Ma Jichun2（1.South China Normal University，Foshan 528000，China；2.China InformationTechnology Designing&Consulting Institute Co.，Ltd.，Beij

8、ing 100048，China）贺超，廖若凡，张桂玉，马季春交互式人工智能对广域网流量及智算网络技术的影响分析本期专题Monthly Topic引用格式：贺超，廖若凡，张桂玉，等.交互式人工智能对广域网流量及智算网络技术的影响分析 J.邮电设计技术，2024（4）：20-25.20邮电设计技术/2024/04互式人工智能可以解放双手、改变工作模式，用机器取代繁琐、高成本的操作，让流程更高效；改善人机交互方式，为客户提供更个性化的服务，改善现有产品和服务质量；重塑员工工作方式，提升办公效率。2022年11月，OpenAI发布ChatGPT，将其定义为优化对话语言模型（Optimizing La

9、nguage Models forDialogue），仅用2个月就创造了APP用户过亿的新记录。作为一种现象级的交互式人工智能，ChatGPT具有强大的对话能力和生成能力，可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求，这意味着ChatGPT能够颠覆搜索行业，且在智能客服、游戏、虚拟人等领域也将得到广泛应用。具备知识、计算、推理组合能力的人工智能，已经成为网络经济时代的新生产力。数据通信网络是互联网重要的物理载体，研究交互式人工智能技术对数据通信网络的影响，对数据通信网络的建设和演进非常重要。2 交互式人工智能对广域网流量的影响2.1 交互式人工智能对广域网南北向流量的影响广域

10、网南北向流量一般指用户对应用的访问流量，本文主要分析用户访问ChatGPT的网络流量。通过与第三方插件的交互，ChatGPT能够为用户提供多种功能，包括：查询世界各国语言词汇、短语；查询实时股票、航班、酒店信息，规划差旅；访问各大电商、数据比价；支持个人或企业将私有数据（文档、笔记、邮件等）发给ChatGPT。个人与ChatGPT交互过程如图1所示。广域网南北向流量发生在2个环节：一是用户提交问题（即图1中）；二是ChatGPT返回答案（即图1中）。ChatGPT回答字数限制为15 000个字符，提问字数限制为300个字，每个用户每天限制调用次数为1 000次。根据相关调研结果，平均每用户每次

11、交互的字数为 34 M。向 ChatGPT提问“请介绍中国的地理特征”，通过抓包分析，ChatGPT给出了约 300个汉字的答复，一次提问发生的数据量不到3 MB（见图2）。ChatGPT平均一次提问单向数据量为3 MB；每天每用户平均提交10次提问；因ChatGPT的活跃用户全球均有分布（美国 11.72%，印度 10.67%，日本 4.29%，法国3.98%），可以按一天的业务均匀分布在24 h进行计算；作为OpenAI开发的生成式AI聊天机器人，ChatGPT在短短不到一年的时间里，平均每月吸引了15亿的访问量，2023年2月，ChatGPT平均每天的访问用户数为35 000 000。基

12、于上述基础数据，可以估算出ChatGPT交互的南北向流量为（35 000 0003 M108）/（246060）=97.2 Gbit/s。从2022年11月底向公众开放至今，ChatGPT画出了一道令人惊叹的用户增长曲线；但种种迹象显示，随着初见通用大模型的惊艳逐渐褪去，ChatGPT访问图1ChatGPT交互流程图2交互过程抓包数据会话APIChatGPT服务器输出输入输出输入登录开启会话退出登录用户审核APIWireshark Endpoints 2.pcapngEthernet 1847.110.177.8147.122.37.7558.213.14.16247.110.142.43IP

13、v4 48IPv6 36TCP 179UDP 142PacketsAddressBytesTx PacketsTx BytesRx PacketsRx BytesCountry141 4859891559419078 k8957 k10121 k72 k7 662323512 199 k6 9341 643271 9942 272 k5914 k贺超，廖若凡，张桂玉，马季春交互式人工智能对广域网流量及智算网络技术的影响分析本期专题Monthly Topic212024/04/DTPT流量的爆炸式增长开始接近触及瓶颈的时刻。根据网络流量数据网站SimilarWeb的最新研究，2023年4月份，C

14、hatGPT的桌面端和移动设备访问总量上升到17.6 亿次，较 3 月增长 12.6%。虽然有基数变大的因素，但相较于 2023 年 1 月（131.6%）、2 月（62.5%）和 3月（55.8%）的环比增速，增长明显放缓。结合上述分析，ChatGPT以及其他交互式人工智能产生的广域网南北向流量，以2023年2月份的97.2Gbit/s 的百倍计算，为 10 Tbit/s 级别，在全球互联网1 000 Tbit/s的体量中占比极少（约1%）。用户通过访问ChatGPT增加的网络流量，即南北向流量较小。2.2 交互式人工智能对东西向流量的影响本文中，东西向流量指数据中心间的流量。交互式人工智能

15、的东西向流量发生在2个环节，分别为训练侧训练样本的生成以及训练完成后的推理侧同步。a）训练侧训练样本的生成。可以分为3种情况，具体如下。（a）如果训练样本（语料）来自集中的特定样本库或专业公司（AI训练师），且一次百TB甚至PB级的数据训练本身耗时需以月为单位，可视为没有增量的东西向流量。（b）如果训练样本（语料）来自互联网的AI数据爬虫，为构成新一轮训练所采集的数据也不是很大，与搜索引擎服务的爬虫带宽规模类似。（c）据统计，以 10 TB 数据量为例，当带宽达到10G时，数据传输仅需3 h，而采用100M带宽传递时则需要12天，影响较大。因此，随着用户对智算业务需求的逐渐增加，采用短时大带宽

16、传递数据样本成为了新的东西向网络需求。不同数据量对应不同的网络传输带宽，具体如表1所示。b）训练完成后模型需要同步到推理侧。此时，传输对带宽的占用不大。可以看到新的业务需求对广域网东西向流量还是有一定影响的。2.3 多模态媒介升级带来的广域网流量变化模态是指一些表达或感知事物的方式，每一种信息的来源或者形式都可以称为一种模态。多模态是从多个模态表达或感知事物，主要研究模态包括“3V”：文本（Verbal）、语音（Vocal）、视觉（Visual）。人机交互采用文本、语音、图像、视频等不同的方式时，网络速率需达到对应级别才可以获得良好的交互体验，具体如表2所示。媒介形式从文本到 XR，每次跃迁时

17、网络速率都有数量级的提升。当前以ChatGPT为代表的人工智能属于文本到文本（T2T）的交互方式，随着交互式人工智能的渗透发展，出现了更丰富的转换交互方式，比如文本到图像（T2I），文本到音频（T2A）、文本到视频（T2V）、文本到 3D（T2D）、视频到音频（V2A）、视频到文本（V2T）等。这些丰富的转换方式，将导致不同媒介流量在互联网流量分布中的占比发生变化，从而推动总流量的增长。据 Sandvine 统计，2022年上半年，除视频和游戏类数据外，其他数据约占互联网流量的30%。排除互联网用户增加、视频分辨率提升等影响因素，如果交互式人工智能将基于文字、图片和数据文件的信息传递模式“升级

18、”到视频类，那么由于媒介的不同，必将使网络流量总量提升。另外，由于人工智能在工业和商业领域的发展，Cloud和VPN相关的流量也将增长。交互式人工智能的多模态媒介升级将推动互联网总流量的增加，其中各类视频流量占比将进一步增长，也将推动整个网络流量的进一步增长。2.4 国内交互式人工智能发展对网络建设的影响结合国内大模型、人工智能的发展状况，以及国家东数西算战略、运营商云网融合及算力网络发展战略，运营商的交互式人工智能网络建设布局可以分为3个阶段。a）起步期。业务特征以2C2H消费型、低频文本非即时交互为主，对时延不敏感；大模型训练和推理均集中部署；广域网流量无爆发式增量。b）发展期。2B生产型

19、流量渐成规模，以高频音视频非即时交互为主，时延不敏感；大模型训练和推理集中部署，接入前端分布式部署；广域网流量特征体现为用户数量激增；网络建设主要目标为骨干网流表1不同数据量对应不同的网络传输带宽表2不同媒介形式所需网络速率级别媒介形式网络速率级别文本1 kbit/s级语音10 kbit/s级图像100 kbit/s级视频10 Mbit/s级XR100 Mbit/s级数据量10 TB100 TB1 PB带宽100M12天121天1 243天1G29 h12天125天10G3 h29 h12天贺超，廖若凡，张桂玉，马季春交互式人工智能对广域网流量及智算网络技术的影响分析本期专题Monthly T

20、opic22邮电设计技术/2024/04量增加、用户数据隔离等。c）成熟期。生产型流量超过消费型流量，以高频富媒体即时交互为主，时延敏感；大模型训练集中部署，推理节点需要分布式部署；广域网流量特征体现为用户数量继续增大，集中训练后的模型需要同步到多个分布式推理节点；网络建设需要满足模型同步的流量、用户到推理节点间的流量的要求。3 交互式人工智能对智算中心网络技术的影响人工智能工作过程分训练和推理2个环节，对网络的要求和影响也不尽相同。3.1 推理池对网络的要求和影响以ChatGPT为代表的生成式AI，其推理环节所需的算力相对较小，对服务器间的交互没有提出特别的要求，其逻辑拓扑如图3所示。推理池

21、的网络架构可以沿用通用数据中心的架构并进行建设（见图4）。3.2 大模型训练对网络的要求和影响图3推理池网络架构图5训练池网络架构出口层网络大模型训练AI服务器（GPU）AI服务器（GPU）文件存储共享存储高速互联网络对象存储存储网络管理网络出口层网络推理服务器（CPU或GPU）文件存储共享存储普通互联网络对象存储存储网络管理网络推理服务器（CPU或GPU）推理SPINEBorder-Leaf外部网络LeafLeafLeafLeaf图4推理池网络组网设计以 ChatGPT 为代表的生成式 AI，采用大模型训练，训练所需的算力需求通常较大（超过100台AI服务器），训练参数量也较大（百亿以上），

22、服务器间需要超高速通信协同，其逻辑拓扑如图5所示。大模型训练对网络提出的关键需求如下。3.2.1 高速互联训练池中的每个 AI 服务器上部署多个 GPU，GPU 间通过 NVLink 实现互联（见图 6），互联速率大于400 Gbit/s。AI服务器之间的互联如图7所示。AI服务器通过InfiniBand或以太网互联，单个服务器支持1.6 Tbit/s出口带宽；Leaf交换机和Spine交换机之间采用高密度400G互联，并逐渐演进到800G互联。另外英伟达新推出的 NVSwitch 互联方案支持GPU间900 Gbit/s互联带宽，支持256个GPU直连。贺超，廖若凡，张桂玉，马季春交互式人工

23、智能对广域网流量及智算网络技术的影响分析本期专题Monthly Topic232024/04/DTPT3.2.2 高效负载均衡训练POD组网方式如图8所示，其中AI服务器、Leaf交换机、Spine交换机之间通过多链路聚合构成等价链路，相互连通。为满足服务器1.6T的出口带宽要求，需采用高负载均衡策略来保障每一条链路的传输效率，避免负载不均导致的网络传输效率下降。传统负载均衡策略不再适用，需采用新型 DLB（Dynamic Load-Balance）等高效负载均衡算法。3.2.3 低时延及零丢包a）低网络延迟。为保障大模型训练的高频计算及数据传输效率，网络传输延迟需要从原有的毫秒级降至微秒级，

24、避免GPU因等待数据传输导致算力效率下降。低时延对网络的要求为：基于传统的TCP网络演进到远程直接内存访问（RDMA）网络；更进一步，为满足低成本的要求，从InfiniBand演进到RoCE（RDMAOver Converged Ethernet）。b）零丢包。在 AllReduce、AllGather、ReduceScatter等通信模式中，若网络丢包率大于0.001，网络有效吞吐将急剧下降，因此需要网络保持无损零丢包质量。零丢包对网络的要求为：基于动态PFC/ECN水线自动调优进行拥塞控制，消除网络拥塞，实现智能无损。3.3 无损网络技术选择InfiniBand和RoCE是构建智算中心高速

25、、低延时、零丢包网络的2种技术路线。InfiniBand通过交换机在节点之间直接创建一个专用的受保护通道，并通过InfiniBand适配器管理和执行的RDMA和发送/接收卸载，方便了数据和消息的移动。适配器一端通过PCIe接口连接到CPU，另一端通过InfiniBand网络端口连接到 InfiniBand 子网。与传统 TCP/IP 网络通信协议相比，InfiniBand提供了更高的带宽和更低的时延。RoCE是基于融合以太网的RDMA，采用传统以太网的部分下层协议，并在其基础上实现Infiniband的部分上层协议。2种技术路线的比较如表3所示。从网络性能、成本、生态健康程度多方面比较来看，快

26、速发展的RoCE方案为智算中心网络建设的更好选择。4 待继续研究的问题4.1 人工智能的“新摩尔定律”英特尔的创始人 Gordon Moore 在 1965 年提出了著名的摩尔定律：在价格不变的情况下，芯片中的晶体管数量每18个月翻一倍。摩尔定律并不是物理规律，而是一种对人类科技进步趋势的洞察。图7AI服务器间互联方式图8训练POD组网方式GPUPCIe SwitchGPUNIC 1NIC 2NIC nNV SwitchNVLinkDGX A100200G200GGPUPCIe SwitchGPUNIC 1NIC 2NIC nNVLinkDGX A100200G200GLeaf SwitchS

27、pine Switch400GSPINE-1SPINE-2SPINE-3SPINE-NLeafLeafLeafLeaf1238GPUGPUGPUGPU1238GPUGPUGPUGPU1238GPUGPUGPUGPU等价链路400G200GNIC训练POD400G100G图6AI服务器内多个GPU互联方式NVLinkPCIeQPINICCPUNICPCle SwitchesGPUGPUGPUGPUNICCPUNICPCle SwitchesGPUGPUGPUGPU贺超，廖若凡，张桂玉，马季春交互式人工智能对广域网流量及智算网络技术的影响分析本期专题Monthly Topic24邮电设计技术/20

28、24/04同样，AI飞速发展的背后，算力是一个可明确衡量的指标，也是必不可少的条件。2023年2月OpenAI首席执行官Sam Altman在社交媒体提出“新版摩尔定律很快就要来了，宇宙中的智能每 18个月翻一倍”。这一方面得益于芯片技术的持续进步，另一方面AI算法的效率也可以达到每16个月翻一番。多模态媒介的升级依赖于算力的发展，但二者之间的关联尚待研究。对于数据通信网络而言，AI时代流量增速是否比过去20年更快，网络和网元容量增长能否满足业务需求，仍需要继续研究。4.2 AIGC与CDN互联网内容生产方式经历了专业生产内容（Professionally Generated Content，

29、PGC）-用户生产内容（User Generated Content，UGC）-AI 生成内容（AI Generated Content，AIGC）的过程。PGC的特点是专业、内容质量有保证，如Web1.0和广电行业中专业人员生产的文字和视频。UGC伴随Web2.0概念产生，特点是用户可以自由上传内容、内容丰富。AIGC的特点是自动化生产、高效，生成的内容媒介更加丰富，如文字、图片、音频、视频甚至3D模型和代码等。传统的内容分发网络（CDN）面向PGC和UGC场景，通过多区域多层级架构，将内容从源站推/拉至用户边缘，使用户就近获得所需内容，从而降低成本，提升用户体验。CDN服务模式是

30、“一对多”的，内容相对静态；而AIGC的服务模式是“一对一”的，内容则是相对动态的，内容的生成和分发是合一进行的。业界需要研究这种新业务模式的特征和需求，考虑从CDN向内容生成和分发网络（CG&DN）发展演进。4.3 广域网RDMA随着生成式人工智能大模型和智能计算应用的高速发展，面向广域RDMA的确定性网络技术成为近期智算中心互联的研究热点。RDMA 具备高通量传输、零复制、硬件卸载的特性，避免了操作系统内核参与数据报文的处理，节省了大量的 CPU 资源。广域RDMA可实现端到端低时延和高吞吐量传输，能够满足算力网络、大数据传输和浪涌型I/O高并发、低时延类应用。国内外相关试验表明，当广域网

31、带宽超过万兆（10 Gbit/s）时，相较于传统TCP，广域RDMA具备显著的性能优势，但在长距离、大规模、复杂组网的广域环境下，仍会面临技术、网络运营、应用部署、确定性保证、拥塞控制算法等多方面的挑战，还需要进一步研究和突破。5 展望人工智能等创新技术正在深入影响和变革网络产业形态，网络从消费型互联网向生产型互联网转变。为满足日益丰富的新业务、新场景对基础网络能力提出的需求，通信网络需不断突破创新、增强服务化能力，构建面向未来的新网络。参考文献：1 德勤.生成式人工智能对企业的影响和意义 EB/OL.2024-01-03.https：/ 国务院.国务院关于印发“十四五”数字经济发展规划的通知

32、 EB/OL.2024-01-12.https：/ technical reportR/OL.2024-01-03.https：/arxiv.org/pdf/2303.08774.4 韦乐平.电信业的未来与去电信化的思考 J.现代电信科技，2013，43（3）：1-6.5 LI J Y，LI Z Y，LU R，et al.LiveNet：a low-latency video transportnetwork for large-scale live streamingC/Proceedings of the ACMSIGCOMM 2022 Conference New York：Associ

33、ation for ComputingMachinery，2022：812-825.6 WANG S，GAO K H，QIAN K，et al.Predictable vFabric on informative data plane C/Proceedings of the ACM SIGCOMM 2022 Conference New York：Association for Computing Machinery，2022：615-632.7 刘韵洁，黄韬，汪硕.关于未来网络技术体系创新的思考 J.中国科学院院刊，2022，37（1）：38-45.表3数据中心无损网络技术选择对比对比项网

34、络性能建设成本管理成本网络设备产业生态带宽时延/s无损InfiniBand1.6T/服务器，100400G/网卡5完备3倍以上中IB交换机英伟达独家RoCE1.6T/服务器，100400G/网卡10持续完善，待规模工程验证低高以太交换机多厂家，生态健康作者简介：贺超，华南师范大学博士在读，主要研究方向为人工智能、深度学习、多模态情感分析等；廖若凡，华南师范大学本科在读，主要研究方向为机器学习、医疗影像分割等；张桂玉，毕业于吉林大学，正高级工程师，主要从事智能云网相关专业规划、研发、技术创新等工作；马季春，毕业于解放军信息工程大学，正高级工程师，主要从事智能云网相关专业规划、研发、技术创新等工作。贺超，廖若凡，张桂玉，马季春交互式人工智能对广域网流量及智算网络技术的影响分析本期专题Monthly Topic25

展开阅读全文