1、数据通信网络加速AI,AI改变网络迈向智能世界白皮书2023序言人工智能正在重塑整个人类社会。我们预计人工智能的行业渗透率将从2021年的7%增长到26年的30%。随着大模型加速行业智能化的转型,到2030年渗透率将超过50%,提升10倍。人工智能的快速发展,将进一步推动行业数字化转型,为网络创新提供了新机遇。企业加速上云,广域网络敏捷性和安全性亟需提升:一方面,全球企业上云比例已高达70%,混合分布式多云成为主流,上云和云间流量快速增长,企业希望通过一张弹性、敏捷的网络灵活、按需的连接多云以释放云端效率。另一方面,能源、交通、金融等传统行业进入快速云化转型期,对网络提出差异化的承载诉求,网络
2、需要提供基于业务诉求的定制化质量保障能力。为做好企业业务云化的有效支撑,网络需要向弹性敏捷,安全可靠演进。AI算力激增,带来数据中心网络变革:ChatGPT等激发了AI的快速普及和增长,到2026年,AI行业渗透率将达到30%。从2023到2030年,AI算力将增长500倍。AI训练所用的计算量呈指数增长,带宽需求平均每3.5个月便会翻倍,远超摩尔定律定义的18个月。AI算力激增将带来全球数据中心网络建设需求增长以及网络技术变革。0.1%的网络丢包会带来50%的计算性能下降,如果要100%释放算力,需要构建高吞吐、零阻塞的数据中心网络。园区网络代际升级,进入体验为王的时代:行业数字化转型需要建
3、立高速、稳定的园区网络环境。园区网络连接范围正在快速扩大,从办公到生产,从联接人到联接物,未来5年,园区接入终端数将增加3倍,园区网络需要提供泛在的网络连接,并基于办公业务和生产业务提供隔离能力;园区业务正在快速变革,移动办公和视频会议成为园区的两大主流发展趋势,园区内80%的流量将是音视频流量,园区网络进入体验为王的时代。这些都需要对原有网络进行升级换代,例如,从Wi-Fi 4/5到Wi-Fi 6/7,从千兆到万兆接入。网络复杂性急剧提升,智能化加速网络自治:随着云计算和物联网等技术的不断发展应用,万物互联、万物感知、万物智能的智能社会逐步推进。企业网络从辅助办公到支撑生产,从静态配置到按需
4、调整,从单域管理到全网协同,网络的边界不断拓宽,网络的质量属性日益增强,网络的运维模式正在发生质的改变。AI应用于网络可以帮助网络突破人工运维的效率瓶颈,让网络具备高度的自动化和智能化能力,即实现网络的自动驾驶,为企业数字化业务创新和敏捷运营铺就基石。网络攻击无处不在,需构筑一体化安全防御体系:随着业务上云,传统网络边界被打破,给网络安全带来了更大的挑战和更多的不确定性。2022年,85%的企业都经历过网络攻击,全球网络攻击数增长42%,平均每11s就会发生一次勒索攻击。网络攻击可直接引起企业业务中断,敏感数据泄露,甚至巨额的经济损失。为有效防范网络攻击,建立“云网边端”一体化的安全防御体系是
5、关键。数据通信产业正在变革,网络提升AI训练效率,让算力无所不及,AI也将彻底改变网络,让智能无处不在。目录趋势3:数字化转型深入,园区网络进入以体验为中心时代03趋势4:从点级走向系统级,AI改变网络进入规模部署拐点04趋势5:一体化、服务化、智能化成为网络安全建设新特点0502趋势2:AI大模型爆发,正在推动数据中心网络发生根本性变革趋势1:多云成为新常态,弹性、可靠、可视的网络创新正在加速011多云成为企业数字化新常态企业多云新常态:企业出于成本节约、数据安全、不同云间的技术整合等多方面考虑,开始逐渐从过去的上IaaS、PaaS和SaaS,发展到私有云、行业云、边缘云、分布式云等各种形态
6、,企业基于自身业务诉求,灵活利用各种不同形态的云服务,将正确的工作匹配到正确的云服务,将多项工作负载分散在不同云平台上运行,就是企业上多云。Flexera 2023 云业务报告显示,在受访企业中,已有87%的企业正在使用多云服务,多云成为企业数字化转型新常态;传统行业上云加速:随着云计算、大数据和人工智能的发展,云服务作为助推业务创新、企业升级的动力覆盖到了越来越多的领域。企业为了紧追技术变革,寻求新的发展机遇,纷纷向“云”敞开了怀抱,云服务的实践者从互联网行业开始逐步向工业、教育、医疗、政府、能源、金融等传统非数字原生行业迈进,数字化转型的带动效应开始显现。以工业领域为例,麦肯锡预计,到20
7、25年,传统行业的业务上云比例将大幅提升;行业上云以分布式混合多云为主:行业上云发生在企业不断追求更高的效率、性价比和业务增长的背景下,而混合多云结合了公有云和私有云的优点,既保障了企业数据的安全性,又提供灵活的云架构,受到企业的青睐。同时,大量新兴业务应用需要海量数据分析和计算能力,多层级、分布式的云计算建设模式成为行业的主流方向,如金融行业“两地三中心”,能源行业的分布式数据中心叠加公有云服务的架构等;来源:麦肯锡2021年中国云计算调研各行业的IT工作负载分配每个行业所有受访者的平均百分比本地服务器私有云936552137422732418464624265023314648183419
8、4536252946343630372835402931工业旅行/物流零售/快消金融制造医疗保健酒店、餐饮房地产汽车教育TMT电子商务到2025年的IT负载变化平均变化,百分比公有云62662014881391211961412610514112248到2025年,行业业务上云比例将大幅提升来源:Flexera 2023 State of the Cloud Report96%公有云76%私有云24%72%混合云多公有云72%的受访客户使用混合云来源:Flexera 2023 State of the Cloud Report87%多云72%混合云13%多公有云2%多私有云11%单公有云2%单
9、私有云2023年,87%受访企业已采用多云2匹配多云战略,企业多云网络建设进入高峰期网络成为多云战略核心需求:云业务的开展需要强大的网络能力支撑,网络资源的优化同样要借鉴云计算的理念。随着多云战略的快速落地,异构联接、复杂的网络管理、E2E业务体验保障以及安全防护,都要求网络基础设施要更好的适应云计算应用的需求,并能更好的优化网络结构,以确保网络满足行业云业务要求。行业数字化专网建设进入高峰期:金融:金融业务规模快速增长和分布式架构转型,对承载金融业务的广域网络提出了新需求。金融广域网作为金融云和金融网点间的连接通道,是金融业务高效、稳定运行的基石。金融机构以满足多地多中心及分支机构的互联互通
10、需求为基础,正在加速构建高速、智能、弹性的广域网络。在中国,已经有包括中国建设银行、交通银行等20多家金融机构进行多云网络重构;能源:多地多中心的分布式多云架构成为能源行业云化战略,生产、管理、经营数据全面上云,要求网络、算力以及数据的高效灵活调度。数字化生产,前端数据采集和后端实时智能化分析,前后端联动实现智能化作业,要求能源数据网提供确定性体验的网络保障能力。电力、油气等能源领域已经基于数字化发展需求,开始进行多云网络的建设;政府:政务云是一朵物理分散、逻辑集中的云,面向全国各地各部门提供统一的云服务。政府多云网络打通各政府部门的壁垒,实现资源融通,满足不同部门不同业务的差异化承载诉求,实
11、现多级联动、服务智能、集约建设、全面覆盖;实时可视:网络、业务、体验多维可视业务隔离:数据安全,确定性体验保障弹性敏捷:多云按需连接,多云协同行业多云网络特征2019年到2023年,中国已有300+行业客户进行多云网络建设3运营商抓住企业上云风口,多种模式展开多云网络创新传统运营商网络无法满足行业多云业务诉求:随着架构在网络基础上的云计算及其应用的快速发展,云计算对于网络的要求正从简单的提供专线接入向弹性敏捷、业务隔离、体验可靠的多云网络演进。但传统运营商网络注重建设和运维,在业务网络开通速度,灵活调整,智能化等方面,运营商传统大网无法满足企业需求。运营商开始进行多云网络创新:运营商拥有庞大的
12、网络基础设施,这对运营商来讲既是优势,可以基于网络基础设施面向企业提供各类业务,但同时也成为一种负担,当业务出现新诉求时,运营商因为庞大的网络资产负担,网络转型需要逐步进行。上云专线模式,叠加套餐增加盈利:传统组网或互联网专线向上云专线和多云互联专线转变,部署SD-WAN等实现上云专线敏捷开通。基于POP资源池,提供任意接入方式的网关能力。POP点通过传统专线实现与云的按需连接。SD-WAN+专线连接到多云,并不是真正的多云网络,无法提供端到端的连接、安全、可视等能力。多云汇聚模式,抢占统一采购入口:运营商新建多云汇聚骨干网络,实现本地不同云资源的预连接,并基于Overlay网络,提供一站式多
13、云连接及增值服务。运营商提供从企业到骨干网的端到端SRv6能力,实现企业多云网络的自动化编排,以及多云协同。运营商建设多云汇聚平台,通过与第三方云平台的API接口对接,实现第三方云服务的转售,使能商业模式创新;行业专网模式,价值客户体验保障:行业办公、生产上云,金融、政府、教育等高价值行业出于安全性的考虑,业务要求和公用业务隔离,业务体验对网络质量要求高,不能因为网络中的其他突发业务导致体验受损。运营商为了满足行业客户需求,在SRv6云骨干基础上部署网络切片,或基于客户诉求建设行业物理专网。上云业务SLA通过对租户网络业务流量和性能指标的实时分析呈现,一方面让租户可实时感知自己专线的服务质量,
14、支撑SLA商业变现。同时,可通过集中监控各租户的业务SLA,及时发现上云网络流量、性能指标劣化等事件,进行提前优化和有针对性的维护,提升云业务体验;模式1:增加上云专线,捆绑套餐增加盈利4G/5GL99.99-100%双平面网络4G/5GM4G/5GS企业连接业务连接总线99.99%99.99%99.99%99.99%数据中心工厂企业分支模式3:高价值客户建设专属网络,确保数据可靠互联网企业专网政务行业专网教育行业专网医疗行业专网安全云服务NCE智能管控多云云管理云网运营系统(能力开放平台/政企门户/租户APP)云骨干县域环网城市环网区级环网教育卫健政府企业天翼云AWS私有云医疗云政务云教育云
15、模式2:建设多云汇聚平台,统一多云入口多云聚合门户企业订购多云汇聚网络智能管控层多云对接新型城域网边缘云网络能力服务化开放边缘云云骨干微软云4运营商云弹性网络4大特征M级带宽颗粒池化分钟级租户流量预测秒级智能决策和调度秒级弹性带宽调整弹性网络架构弹性网络服务层弹性网络服务目录及开放API流量决策调度层全网和节点两级流量均衡调度弹性资源抽象层节点级带宽颗粒抽象和管理弹性网络使能用户基于使用量按需购买弹性流量包BW固定带宽费用弹性带宽*持续时间*单位带宽费用总费用500MpbsTime基础带宽16T5 Gpbs流量突发业务对传统专线的商业模式提出挑战:传统上云专线供应模式为固定时间内固定带宽,无法
16、应对企业临时性大带宽业务:购买专线带宽不足,导致业务体验受损,或者长期维护大带宽专线,导致成本过高;临时性大带宽业务包括大带宽实时通信和周期性数据搬迁两类业务。大带宽实时通信即时性强,主要由事件造成,持续时间数小时或几天不等,无法通过随意拉长通信时间解决带宽不足问题,只能损失即时的通信体验;周期性数据搬迁业务实时性不强但总耗时有要求;弹性上云专线,满足企业潮汐业务带宽诉求:弹性计算在云计算领域已经相当成熟,从消费者角度看弹性服务带来的是满足其任务诉求的最优成本的服务产品,真正实现PAYG,既满足任何业务场景要求又买的起、不浪费的高性价比产品,从供应商角度看,弹性服务本质是资源的高效管理,使其发
17、挥最大效能;弹性上云专线引入云计算的弹性理念,将网络带宽资源池化,并基于对租户业务流量进行实时感知与预测,实现全网带宽资源的灵活调度,保障上云专线业务体验;弹性专线保障用户体验,助力网络资源变现:通过弹性专线,企业在保留一个固定带宽专线的同时,基于业务情况,临时增加带宽或购买流量包,并在临时增加带宽或流量包上提供和固定带宽专线一致的质量保障,真正实现按需购买、按量付费。运营商则可以充分运用空闲带宽资源,最大化网络价值;关键特征1:弹性敏捷,多云算存资源可调度5行业业务上云,对安全隔离、可靠性提出更高要求。为了在同一张网络上满足不同业务的安全隔离和差异化保障需求,业界提出网络切片的概念。资源与安
18、全隔离:IP网络切片隔离的目的,一方面是从服务质量的角度,需要控制和避免某个切片中的业务突发或异常流量影响到同一网络中的其他切片,做到不同网络切片内的业务之间互不影响。这一点对于垂直行业尤其重要,如智能电网,这类行业对于时延、抖动等方面的要求十分严苛,无法容忍其他业务对其业务性能的影响。另一方面是从安全性角度,某个IP网络切片中的信息不希望被其他用户访问或者获取,这时需要为不同切片之间提供有效的安全隔离措施,如金融、政府等专线业务;差异化SLA保障:网络切片使运营商从单一的流量售卖服务,逐步向面对不同行业、不同业务提供差异化服务进行转变,以切片商品的方式为租户提供差异化服务。按需、定制、差异化
19、的服务将是未来运营商提供业务的主要模式,也是运营商新的价值增长点;高可靠保障:高价值业务和uRLLC业务要求IP网络提供高可用性网络,毫秒级故障恢复已经成为IP网络的基础要求。基于SRv6的网络切片提供针对IP网络中任意故障点的本地保护技术,如TI-LFA(Topology-Independent Loop-free Alternate,与拓扑无关的无环路备份路径)、中间节点保护等,利用这些技术可以极大地提高保护成功率,增强IP网络切片的可靠性。并且,各网络切片内的链路故障倒换能够控制在切片内进行,不影响其他业务切片;关键特征2:业务隔离,关键上云业务质量可保障一网多用,体验可保障 分片即子网
20、,资源独享 分片内SRv6灵活计算最优业务路径灵活分片,差异化SLA 基于固定带宽或收敛比的端到端网络分片 不支持分片的局部网络可以直接透传切片提供最高的资源隔离和体验保障VPN网络专线网络互联网切片网络物理专网分享/多用户专享/单用户业务隔离和体验保障越来越好,成本越来越高资源共享越来越高,成本越来越低网络切片为行业提供专网式上云体验智能电网切片智慧医疗切片6关键特征3:实时可视,端到端业务质量可监控网络不可视,运维效率低:企业网络的复杂性将指呈数级增加:由于混合办公的趋势,互联分支增多,接入位置也随之增多;办公网与物联网融合,联接数量激增;云化与新应用对网络性能的要求更高、变更频繁;网络设
21、备的种类多、厂家多,设备管理量规模化扩大;网络保障从基于联接到基于体验,要求更高。与此同时,运维保障工程师的数量却不会线性增加,甚至不增加,这就意味着要用少量的人去做更多的事情。因此,网络运维的痛点更加凸显出来,没有一张统一的视图感知企业网络的健康状态,用户网络体验差,故障投诉多,异常恢复的效率低等,远远跟不上企业数字化转型的步伐;多维可视化,实时感知网络变化:网络可视化拥有实时、动态、高清的全网资源可视能力,通过大数据计算引擎、AI、搜索算法、路由仿真和验证算法等关键技术,实现多维可视、路径导航、搜索定位、确定性应用体验保障等,提供网络质量实时可视、定界定位和自愈能力,帮助客户从传统的静态拓
22、扑运维模式切换到动态高清的电子地图运维模式,即通过网络数字地图来看直观感知网络,大大提高网络运维效率;性能拓扑,质量劣化清晰可见区域流量/质量地图,逐层下钻分析网络TOPN,快速发现网络瓶颈环比、对比、同比分析,提前发现网络隐患应用交互拓扑监控应用流量路况监控ACK时延TCP重传TCP握手时间零窗口连接数连接重置交互拓扑可视网络传输性能主机服务性能应用随流检测时延检测丢包检测出入端口可视吞吐量分布指标联动分析流量路况可视路况质量可视节点负载分析一体化监控故障诊断智能分析流拨测流抓包主动链路监控全链路故障诊断审计/核查网络随流检测日至关联分析异常根因定位网络故障预测网络容量预测故障影响分析7行动
23、建议:针对多云网络建设,聚焦弹性敏捷、业务隔离、实时可视数字孪生已经在行业中得到广泛应用,网络数字孪生已经成为业界共识,网络数字孪生结合人工智能、大数据等技术,实现业务体验劣化、网络故障等问题的预测,主动实施网络优化,可以让企业和运营商更好的掌握网络、业务质量。增加网络可视化能力SRv6、网络切片等网络技术,在简化上云网络复杂度,保障上云业务体验等方面均取得效果,企业和运营商在进行云网协同建设过程中,应该考虑引入新技术,享受技术红利;积极引用网络新技术运营商通过转售第三方合作伙伴云服务、提供弹性专线能力,一方面可以更好的满足企业客户上云对网络的诉求,还可以更好的释放网络资源优势,实现营收增长;
24、持续探索商业模式创新顺应当前行业云网诉求高涨趋势,升级上云网络、建设多云生态等,逐步推动云、网深度协同,降低业务上云难度,提升上云业务体验;增加云网投资8目录趋势3:数字化转型深入,园区网络进入以体验为中心时代03趋势4:从点级走向系统级,AI改变网络进入规模部署拐点04趋势5:一体化、服务化、智能化成为网络安全建设新特点0502趋势2:AI大模型爆发,正在推动数据中心网络发生根本性变革趋势1:多云成为新常态,弹性、可靠、可视的网络创新正在加速019生成式AI市场收入预测(2020年-2032年)30%25%20%15%10%5%0%2032203020282026202420222020$1
25、,400$0$1,200$1,000$800$600$400$200$14$23$40$67$137$217$304$399$548$728$897$1,079$1,304收入($B)生成式AI/总技术支出(%)生成式AI收入生成式AI在总技术支出中的占比来源:Bloomberg Intelligence4%5%6%7%9%10%11%3%12%全球大模型参数量变化趋势100000100001000100101来源:iResearchGPTBERT-largeGPT-2T5MegatronGPT-3Switch TransformerERNIE-3PaLMHunyuanPaLM-EPangu大
26、模型发布时间大模型参数(亿)2018201920202021202220232024全球AI支出增幅远超数字化转型及GDP35.0%30.0%25.0%20.0%15.0%10.0%5.0%0.0%-5.0%2020202120222023202416.9%29.0%26.6%27.9%26.3%3.0%3.0%2.9%5.7%-3.3%16.2%10.6%16.9%17.6%17.0%AI支出增幅DX支出增幅GDP增幅来源:IDC,世界银行,2022AIGC催生万亿产业市场新价值,全球算力基础设施建设提速大模型爆发,AIGC时代到来:2022年11月,随着Open AI发布ChatGPT,A
27、I产业迅速进入以大模型为技术支撑的AIGC(Artificial Intelligence Generated Content,简称生成式AI)时代,开辟了人类生产交互的新纪元,也引爆了AI时代的内容生产力革命。根据Bloomberg Intelligence的最新报告显示,到2032年,生成式AI市场的营业收入从2022年的400亿美元将增长到1.3万亿美元,年均复合增长率达到42%;AIGC将在全行业引发深度变革:AIGC正在加速渗透到各行各业,但总体而言,AIGC主要影响内容创作和人机交互,行业线上化程度和内容在价值链中的占比越高,AIGC对其颠覆效应越明显。比如电商、游戏和广告行业线上
28、化程度高,且内容质量直接决定其价值创造,因此AIGC应用在这些领域能够产生最大化的价值;全球算力基础设施建设提速:2018年6月Open AI的GPT模型参数量已经突破1.17亿,模型参数量开始亿级别的飞跃式发展,平均每3-4个月即呈现翻倍态势,由此带来的训练算力需求也“水涨船高”。计算力指数平均每提高1点,国家的数字经济和GDP将分别增长3.5和1.8,算力正成为影响国家综合实力的关键要素,算力基础设施建设成为国家数字经济高质量发展的战略举措。IDC数据显示,全球企业在AI基础设施及服务的投资,有望到2025年突破2000亿,增幅远超企业数字化转型(DX)和国内生产总值(GDP);10网络性
29、能决定算力效率,传统网络无法满足AI需求0.1%的丢包会造成50%的算力损失丢包率吞吐率来源:Congestion Control for Large-Scale RDMA Deployments10.750.50.2501e-050.00010.0010.01ReadWrite/Send0.1%50%算力现实计算节点数理想期望通过增加节点数量获得性能线性增长算力天花板网络性能带来算力天花板,投资收益严重失衡传统数据中心网络不能满足AI数据中心要求:IDC报告显示,当前主流数据中心以太网占比超过95%,但传统以太网在AI训练等场景下,吞吐量、时延及避免丢包等方面的表现并不出色。众所周知,由于人
30、工智能应用程序的通信方式会对网络造成很大负担,这给 CPU 和 GPU 服务器以及将这些系统连接到一起的现有底层网络基础设施带来了新的挑战。在如今的AI时代,AI训练过程中不能出现任何数据的丢失,而传统以太网络具有“天然丢包”的特性,已经不适应AI时代数据中心的需求;万卡算力集群,需要超大规模的网络:为了能够更快推出AI大模型,同时又满足参数和token数十倍的增长需求,GPU集群规模已经从千卡走向万卡,例如OpenAI GPT4使用上万张GPU卡训练1.8万亿参数。这就需要一张大规模的训练网络支撑如此庞大的算卡间无阻塞互联;万亿参数模型,需要超高吞吐的网络:大模型采用分布式训练方法来提高训练
31、质量和速度,海量的参数分布于多个服务器的多个GPU之上,需要用到成千上万个GPU来训练数十TB级甚至更大的数据,大量GPU之间的通信容易出现由于网络负载分担不均而导致的网络吞吐下降,从而引发AI训练性能整体下降;长稳训练,需要极致可靠的网络:大模型训练是一个复杂的系统工程,从数据准备,模型预训练到模型训练,系统稳定运行十分重要,而网络基础设施是长稳训练的关键。某个千亿大模型总训练时长65天,期间由于故障引起的重启达到50多次,真正的训练时长只有33天,平均无故障时间(MTBF)仅为1.3天。AI大模型训练时间长,中断次数多,亟需通过提升网络健壮性,确保训练高效可靠的进行;11以太网技术持续创新
32、,推动AI数据中心从封闭走向开放主流玩家持续发布基于以太网技术创新的新产品时间厂商事件2018年10月华为发布AI Fabric极速以太网2020年8月HPEHPC以太网互联技术Slingshot2022年4月浪潮发布基于RoCE的无损以太网解决方案2023年5月NVIDIA发布高性能以太网架构Spectrum-X2023年7月微软、博通、AMD、Intel等联合成立超以太网联盟UEC大模型广泛采用基于以太网技术的RoCE网络自然语言处理基础大模型行业应用基因研究、药物研发智能巡检 变化监测、地物分类生物医药电力遥感鹏程.神农盘古电力武汉.LuoJiaERNIE 3.0星火认知HPC TOP5
33、00 以太网占比超过Infiniband40%45.4%7%Gigabit EthernetInfinibandOmnipathCustom InterconnectProprietary Network产业积极布局:2023年7月,Linux 基金会联合多家厂商成立超以太网联盟(Ultra Ethernet Consortium,UEC),旨在提高数据传输速度和网络性能,以更好地适应人工智能和HPC工作负载的更高要求。UEC主席表示该项目构建在以太网技术之上,因为它是行业内持久、灵活且适应性强的基本网络技术的最佳例子;用户广泛使用:Infiniband具有高带宽、低时延转发的特点,传统的HP
34、C网络通常采用其进行组网。但InfiniBand架构封闭,可扩展性不足,网络部署和维护成本高。随着以太网技术的发展,以太网在HPC和人工智能领域的应用规模持续扩大。最新TOP500统计的数据显示,全球HPC TOP500使用以太网互联的比例达45.5%,超过Infiniband。基于以太网技术的RoCE网络也被广泛被用于大模型计算集群,如鹏程神农、华为盘古、百度文心等;创新方案接连落地:业界基于以太网技术持续开展创新,自2018年10月华为率先发布AI Fabric极速以太网方案以来,多个主流厂商积极推进技术攻关,并陆续推出用于HPC和人工智能领域的高速互联产品和方案;12400GE交换机进入
35、批量部署阶段,支撑超宽极简架构400GE端口发货数量统计报告0200,000400,000600,000800,0001,000,0001,200,0001,400,0001,600,0001,800,0002,000,0002021Q12021Q22021Q32021Q42022Q12022Q22022Q32022Q42023Q1CLOS网络架构,通用性和扩展性强单层多轨网络架构,减少网络层级和建网成本生态开放,技术快速发展:以太网一直是开放的生态,这为网络技术的迭代奠定了良好的环境基础。经过40 多年的发展,其速率已从10Mbps快速演进到 400Gbps,为人工智能场景下海量数据的高速流
36、动提供了超宽的通道。IDC数据显示,在2021年到2023年的两年内,400GE端口的发货数量复合增长率达46%,2023年第一季度400GE端口发货量高达173万;从标准到产品,产业成熟:2013年,400G的以太网标准工作正式启动;2017年,IEEE 802.3bs以太网定义标准被批准,预示着400GE标准全面成熟。当前主流厂商均能够提供400GE交换机,华为在2019年已经率先发布了业界首款面向AI时代的最高密的400GE数据中心交换机CloudEngine 16800;400GE构建超宽极简架构:AI集群当前广泛采用200G/400G的高性能网卡,400G接入和互联需求凸显。基于大带
37、宽的以太网交换机可以构建灵活的网络架构,满足用户不同业务场景的组网需求。其中,多轨网络架构和CLOS网络架构成为业界两种重要的选项。在分布式AI训练场景,多轨网络架构只需要建多个独立的网络平面,把同号卡连接起来。相较于传统架构,可以有效减少网络层级,降低数据转发跳数,降低建网成本;另一种是通常采用两层CLOS网络架构,网络的上下行收敛比需要满足1:1,这种架构的优点是通用性和可扩展性更强,可支持更大规模的组网需求;13GPU0/NPU0GPU2/NPU2GPU1/NPU1GPU3/NPU3GPU4/NPU4GPU6/NPU6GPU5/NPU5GPU7/NPU7400GGPU0/NPU0GPU2
38、/NPU2GPU1/NPU1GPU3/NPU3GPU4/NPU4GPU6/NPU6GPU5/NPU5GPU7/NPU7GPU0/NPU0GPU2/NPU2GPU1/NPU1GPU3/NPU3GPU4/NPU4GPU6/NPU6GPU5/NPU5GPU7/NPU7GPU0/NPU0GPU2/NPU2GPU1/NPU1GPU3/NPU3GPU4/NPU4GPU6/NPU6GPU5/NPU5GPU7/NPU7多轨网络GPU/NPU GPU/NPU GPU/NPUGPU/NPUGPU/NPU GPU/NPU400G200/400G从零丢包到零阻塞,提升AI训练效率华为网络级负载均衡技术整网吞吐提升至9
39、0%以上 被动-主动 静态-动态 局部-全局squeezenet_4msimplenet_24mgooglenet_40mresnet50_97malexnet_217mvgg16_512m系列1100%99%99%99%98%98%0%10%20%30%40%50%60%70%80%90%100%结合AI流量特征,实现全网动态负载均衡,网络无拥塞、满吞吐,支持多任务、多租户传统负载均衡流量分布不均会导致网络拥塞,影响训练速度squeezenet_4msimplenet_24mgooglenet_40mresnet50_97malexnet_217mvgg16_512m系列156%35%32%
40、30%30%29%0%10%20%30%40%50%60%本地冲突被动静态哈希,负载分担不均,leaf上行拥塞全局冲突无法预见下一跳冲突,spine下行拥塞网络吞吐是AI训练效率的关键:目前业界主流厂家已能够很好的解决以太丢包问题,但零丢包问题只是智算网络的基础。除此之外,还需要进一步提升网络的吞吐量。因为从技术上说,几乎所有的网络传输都有一个固有的问题,就是同一条连接在网络内要避免乱序,一旦发生乱序,在接收端就会触发重传逻辑导致降速。AI训练大流为主(100MB几GB),流数量少,单流通信数据量大,基于传统模式进行负载均衡会导致网络节点仅站在自身视角将流量选路发送,会出现流量分布不均,常年吞
41、吐率较低;每个周期内最慢的一条流到达后,才能进行下一轮通信,性能取决于最慢的流。在没有实现全局负载均衡的网络中,整体通信效率为30%50%左右,这说明有一半的网络性能没有被使用,也就意味着整个集群的算力使用率仅仅为30%50%左右;网络级负载分担提升网络吞吐:为了提升网络吞吐量,业界主流玩家的优化思路基本一致,即要想使RoCE网络适配大模型AI训练的需求,需要针对端、网和协议进行深度协同以及适配,实现整网负载均衡和90%以上的高吞吐性能,才能实现通信效率提升。目前华为通过网络级负载均衡(NSLB)技术,通过网络控制器和AI调度器协同,可根据整网交换机节点流拥塞状态和全网拓扑进行全局算路,并根据
42、AI调度器分配的训练任务获取通信关系矩阵,结合通信库和网络拓扑、带宽、拥塞情况识别出最优路径,自动下发至网络交换机,业务流根据统一规划路径进行传输,整网吞吐可提升至90%以上;14本地快速收敛故障收敛突破毫秒,保障集群稳定可靠网络高可靠是集群系统稳定的基础:AI大模型依托的智算中心网络是业务流量的核心枢纽,其稳定性直接关系到整个集群系统的稳定性。一方面,一个网络节点的故障可能会影响数十个甚至更多计算节点的连通性,网络故障域大。另一方面,与单个GPU或者服务器容易被隔离不同,网络作为集群共享资源,性能波动会导致所有计算资源的利用率受到影响,具有放大效应。因此,在大模型的训练过程中,确保网络的持续
43、稳定至关重要,提升网络的故障恢复能力和运维效率成为当前亟待解决的问题之一;网络高可靠的技术创新方向:(1)硬件快速感知,亚毫秒级故障恢复:AI训练场景里每次主机间通信任务时间在毫秒级,如果依靠传统的路由收敛方式,通过感知端口状态、路由收敛、转发路径切换等操作完成流量从故障链路到备用链路的收敛,时间一般在秒级,中断多轮AI主机通信,极大地影响了AI效率。针对这个问题,一种优化策略是利用数据面快速收敛技术,提供基于数据面的故障快速感知、本地快速收敛或远程快速收敛等能力,实现故障链路亚毫秒级快速切换,训练任务无感知;(2)训前智能自检,训中智能运维:据统计,90%的高性能网络故障是由配置错误导致。随
44、着AI训练集群规模不断扩大,进一步增大了配置的复杂度。通过算网协同机制,设计符合 AI 场景的网络模型,完成网络配置的自动化生成、自动化下发和自动检测,被普遍认为是AI集群稳定交付的重要技术。此外,AI大模型具有流量大、周期短的特征,传统的轮询和报文采样机制无法支持AI网络流量的指标可视化,整网被视为一个黑盒。通过毫秒级的网络性能测量、网络与计算协同的集合通信性能测量,实现业务可视化、质差分析与故障定界;并联合集群计算运维平台统一调度,实现网络故障快速闭环,是行业探索的另一个重要方向;远端快速收敛Leaf2GPU1GPU2GPU3GPU4Spine1Spine2Leaf1Leaf2GPU1GP
45、U2GPU3GPU4Spine1Spine2Leaf1GPU1GPU2GPU3GPU4GPU1GPU2GPU3GPU4GPU1GPU2GPU3GPU4Spine1Spine2Leaf2Spine1Spine2Leaf1Leaf2Spine1Spine2Leaf1Leaf2Leaf115广域网络向弹性智能演进,加快AI推理速度AI推理给网络带来新需求:随着AI技术的发展和行业智能化的深入,网络不但要联接人、联接物、支持传统应用,还要支持好大模型训练、分发、推理、迭代等智能应用的全流程。针对广域网络来说,一方面,模型云上训练,云下推理带来了海量数据流转,需要网络具备大带宽高吞吐的能力。另一方面,随
46、着AI推理海量终端与应用走进企业核心生产系统,带来应用数量百倍增长,不同的AI应用对网络有不同的要求。比如工业园区网络中AOI机器视觉质检要求实时推理交互,软件包下载要求高峰值带宽,视频会议要求稳定带宽。网络如何提供更加精细化、差异化的体验保障成为新的挑战;400GE/800GE构筑弹性智能广域网:目前行业正在探索利用400GE/800GE构建超宽网络,并通过网络与终端和计算协同、智能调度算法对应用进行智能感知和分析,准确预测网络的流量变化趋势,从而根据不同的应用类型智能地优化网络资源,提前消除网络拥塞,保障海量训练数据的高效流转,满足应用对网络时延、带宽等差异化服务保障的需求;PB级训练数据
47、上传,TB级模型文件下发带来海量广域数据传递需求AI进入生产系统,应用百倍增长网络面临时延保障和吞吐不足双重挑战公有云/私有云(CDC)模型训练101010111101数据上传模型下发推理交互分支机构1分支机构2分支机构3总部机关企业边缘云数据统一采集/推理算力推理存储训练VMVMVM海量多模态数据实时推理文本+图像图像+红外图像+红外+激光雷达声音+近红外+可见光图像图像+声音+气体传感+温度+压力10100倍上行推理流量1001000倍应用种类推理终端智能应用感知智能应用感知算路网元16弹性智能的广域网络加速推理交互17AI网络是覆盖云、网、边、端全场景的端到端网络,包含数据中心网络、广域
48、网络以及覆盖边和端的网络。算网协同被普遍认为是支撑实现AI大模型从训练到推理,从专用到通用的关键技术。通过实时感知应用,保障关键应用的差异化体验,加速推理实时交互。关注算网协同保障应用差异化体验随着大模型的参数越来越多,网络规模也将成倍增长,随之而来的网络部署和运维管理复杂度指数级增长。数据中心网络应该尽可能地自动化、智能化,包括网络部署、配置管理、故障自愈等,在增强网络可靠性的基础上,将大幅提升企业的运营效率并使能全新的智能化业务;积极推进网络自动化、智能化网络性能已经成为决定AI训练效率的关键因素,当前主流GPU服务器网卡接口已经到达200G/400G,应当构建400GE的互联网络,并具备
49、向800GE演进的能力,以支撑AI训练海量数据的高效传输;同时建议引入网络级负载均衡等领先的技术,构建超宽极简的无阻塞网络,提升网络有效吞吐和AI训练效率;引入400G大带宽网络在构建数据中心网络时,应充分考虑技术的可扩展性,以满足AI应用的不断增长。开放的以太网技术可以根据不同的业务场景和算力需求,灵活组网并兼容多样化算力接入。此外,使用开放技术可以避免被单一供应商锁定,从而增加议价权和选择权;选择开放的以太网络技术行动建议:将开放的超高吞吐、极致可靠的AI网络带到每个数据中心目录趋势3:数字化转型深入,园区网络进入以体验为中心时代03趋势4:从点级走向系统级,AI改变网络进入规模部署拐点0
50、4趋势5:一体化、服务化、智能化成为网络安全建设新特点0502趋势2:AI大模型爆发,正在推动数据中心网络发生根本性变革趋势1:多云成为新常态,弹性、可靠、可视的网络创新正在加速0118新兴业务涌现驱动园区网络升级,更好支撑企业数字化转型随着企业数字化转型加速,新兴业务及应用不断涌现,在提升企业办公及生产效率的同时也对园区网络提出了新的要求,目前看到主要的驱动力包括:视频会议盛行:视频会议成为企业远程沟通和混合办公的重要工具,预计全球每年将以10%增长,到2032年将达到950亿美元。以华为为例:视频会议连接着员工及上下游合作伙伴近40万用户,覆盖170个国家、1000多个办公点,每天最高峰在
©2010-2024 宁波自信网络信息技术有限公司 版权所有
客服电话:4008-655-100 投诉/维权电话:4009-655-100