1、数据中心自动驾驶网络白皮书01数据中心自动驾驶网络白皮书目录目录CONTENTS1 1 自自动驾驶网络的产生背景和驱动动驾驶网络的产生背景和驱动力力1.1 数据中心网络的挑战1.2 数据中心网络的机遇1.2.1 人工智能驱动的网络保障1.2.2 数学验证技术的引入1.2.3 意图驱动网络的发展1.3 业界在积极行动1.3.1 行业领导者大力规划实践网络自动驾驶1.3.1 TOP标准组织积极推动网络自动驾驶标准2 2 华为自动驾驶网络战略解读华为自动驾驶网络战略解读3 3 华为数据中心自动驾驶网络方案华为数据中心自动驾驶网络方案3.1 整体解决方案3.2 意图决策模块3.3 自动化模块3.4 仿
2、真验证模块3.5 分析模块3.6 数字仓库3.7 用户体验4 4 华为数据中心自动驾驶网络典型应用场景华为数据中心自动驾驶网络典型应用场景4.1 规建环节:规划设计仿真并自动验收030304040505050608081112131516161919040402数据中心自动驾驶网络白皮书目录目录CONTENTS4.2 维护环节:自动翻译业务意图,自动验收,异常回退4.3 维护环节:网络变更意图buildin,异常快速回退4.4 维护环节:基于意图的网络监控,实现故障闭环4 4 华为数据中心自动驾驶网络典型应用场景华为数据中心自动驾驶网络典型应用场景21242629030101自自动驾驶网络的产
3、生背景和驱动力动驾驶网络的产生背景和驱动力数据中心自动驾驶网络白皮书自动驾驶网络的产生背景和驱动力过去十多年来,数据中心无论在技术还是部署上都在极速发展,日新月异。粗略可以将其划分为三个阶段:第一阶段是以数据中心大集中(Data Center Consolidation)为主的DC 1.0,对应的网络是传统的二层架构STP+VLAN。第二阶段是以利用资源虚拟化(Virtualization)和服务动态管理(Dynamic Service Orchestration)为手段,提升资源共享利用率和资源部署灵活度的DC 2.0,网络架构演进到全互联的Overlay架构。上述两个阶段技术上最大的分野为
4、云计算技术的日趋成熟和大批量部署第三阶段是为适应智能化时代所带来的业务量爆发性增长而产生的DC3.0,最大的特点是超大规模和分布式多地多中心,容器、RDMA等各种新技术都在应用中,网络架构的智能化要求也越来越高。总结数据中心的发展趋势,可以看出数据中心发展始终以支撑业务发展为中心,以开放性、高容量、易扩展、成本可控和安全稳定为要求,最终实现业务弹性适配、应用快速部署、信息互通共享、系统分布扩展和负载灵活调度等各种能力的不断提升。这些发展趋势对数据中心的规模、成本、规划设计、部署建设、维护优化、运营管理等各个方面都产生了巨大影响和全新要求。面对这些新要求,当前的数据中心运营管理方案显得力不从心。
5、产业界普遍达成共识,寻求建立一套更加高度智能化的网络管理方案来应对。通过将人工智能、数学验证及意图驱动网络等关键核心技术和理念的引入,我们针对数据中心构建了一套自动驾驶网络方案,围绕全面智能化和自动化的终极目标进行阶段式迭代发展,逐步演进到全面智能自治的数据中心网络。1.1 1.1 数数据中心网络的挑战据中心网络的挑战大企业和运营商面临管理大规模网络的诉求,仅靠人工管理很难满足要求,需要引入网络自动化管控系统,自动化配置和编排大规模网络比人工操作更安全、高效。企业数字化转型对网络敏捷性、可用性等需求日益增加,网络变更频繁,传统运维方式无以为继,急需自动化管控系统能够在网络运行中实时验证网络设计
6、实现状况、及时发现故障,减少业务中断时间。云应用会跨越异构/多云的基础设施部署,但需要提供一致的网络服务,这就解决异构环境之间网络管理问题,使得用户能够完成以业务意图为导向的统一管控。同时,屏蔽基础设施层不同设备差异以及各种私有接口,进一步地解除厂商绑定。企业投入成本受限,当前OTT对传统行业冲击巨大。企业面临巨大竞争压力,内在要求提升效率。网络投资也会受投入产出限制,降低OPEX压力越来越大,那么如何降低人工成本、提升网络性能成为CIO必须首要解决的问题。04自动驾驶网络的产生背景和驱动力企业投入成本受限,当前OTT对传统行业冲击巨大。企业面临巨大竞争压力,内在要求提升效率。网络投资也会受投
7、入产出限制,降低OPEX压力越来越大,那么如何降低人工成本、提升网络性能成为CIO必须首要解决的问题。1.2 1.2 数据中心网络的机遇数据中心网络的机遇1 1.2 2.1 1 人工智能驱动的网络保障人工智能驱动的网络保障人工智能是一个研究领域,它能赋予机器如人类般的智能。当今网络所产生的海量的配置,状态,告警,日志等运维数据呈指数型增长,数以万计甚至千万计的运维指标远远超出了运维人员可以有效利用的范围,监控阈值不合理或者“报警风暴”甚至对故障的判断产生巨大干扰,人工智能技术为更好地利用网络产生的数据提供了一种可能性。当前,基于人工智能技术对网络数据的分析,能够了解网络环境的复杂性,在网络故障
8、发现,根因定位,网络资源预测等领域已经有了很多应用,显著提升了网络运维的效率。人工智能在网络运维领域的应用已经得到业界的广泛认可,Gartner预测,电信业整体AI市场将以48.8%的年复合增长率从3.157亿美元到2025年增至113亿美元,电信运营商主要将AI用于网络运营监控和管理,此期间这方面支出将占到电信业AI支出的61。数据中心自动驾驶网络白皮书1 1.2 2.2 2 数学验证技术的引入数学验证技术的引入数学验证技术又称为形式化验证,含义是根据某个或某些形式化规范或属性,使用数学的方法证明其正确性或非正确性。形式化验证方法通过严格的数学证明保证程序行为与预期一致,已经广泛应用于正确性
9、要求极高的领域如无人机、航天器、操作系统等的程序正确性验证。在数据中心网络承载关键应用的金融行业,断网的损失高达6.89M美元每小时,而Gartner统计40%的网络事故是由于人工配置错误导致,因此网络配置的正确性的要求越来越高,使用形式化验证方法,可以将网络的配置文件信息和所要验证的预期属性如网络节点间的可达性,隔离性、路径信息(必经节点)、路由黑洞,均转换为一系列逻辑公式,使用数学求解器进行求解,这个方法称为网络变更仿真,可以最大程度的降低配置出错的概率,提升数据中心网络的可用性。1 1.2 2.3 3 意图驱动网络的发展意图驱动网络的发展意图驱动网络是一种在掌握自身“全息状态”的条件下,
10、基于人类业务意图,借助人工智能技术进行搭建和操作的闭环网络架构。意图网络的概念最早由ONF在2015年2月提出。2017年2月,Gartner发布报告定义了基于意图的网络系统,并预言意图网络系统是网络领域的“下一件大事(The next big thing)”,预计到2020年底,1000+企业将部署意图网络系统。意图网络的目标是网络提供服务能力的进一步增强,以近似于人类语言的方式操作网络。根据定义,意图构成了全网范围的声明性(declarative)策略,人类操作员定义的是预期,而网络计算出可满足要求的解决方案。在数据中心领域,存在大量异构的设备和多云环境,意图驱动网络能够屏蔽这些差异,使网
11、络管理员能够更为专注业务诉求。另外意图网络是一个闭环系统,这里面有两层含义,第一是网络的不断变化不影响已下发的意图,第二是如果监控发现意图不满足,系统需要主动进行调整以确保意图不受影响。05自动驾驶网络的产生背景和驱动力1.3 1.3 业界在积极行动业界在积极行动1 1.3 3.1 1 行业领导者大力规划实践网络自动驾驶行业领导者大力规划实践网络自动驾驶金融:金融:工商银行:工商银行全面布局AIOps智能运维建设,逐步打造“智慧运维”新生态。在数据中心领域,工商银行于2017年下半年建立了面向数据中心大规模集群的云运维体系,提升云上应用自动化、精细化的运维水平,为智能运维的实施提供有力抓手,后
12、续将进一步深化、推进智能运维建设,打造银行业智慧运维,向无人化运维的终极目标持续逼近,助力工商银行建设“智慧、开放、共享、高效、融合”的智慧银行信息系统,数据中心网络的自动驾驶是其中重要的组成部分。运运营商营商:中国联通:提出智能网络战略CUBE-AI,意在以创新技术助力网络智能化和业务智能化的发展,聚焦5G+AI、网络智能运维及行业创新,形成网络人工智能典型应用,迈向网络自动驾驶中国电信:发布CTNET2025网络架构白皮书,全面启动了网络智能化重构,从目前按需、自助、弹性的网络服务向自动化闭环、意愿驱动的网络组织演变。短期目标减少业务发放时间50%-90%,减少中断次数50%。数据中心自动
13、驾驶网络白皮书1 1.3 3.2 2 TOPTOP标准组织积极推动网络自动驾驶标标准组织积极推动网络自动驾驶标准准TMF:发布自治网络:为电信行业数字化转型赋能白皮书,首次定义了网络自动驾驶的分级标准,数据中心网络是其认为最适合首先落地自治网络(Automonous networks)的领域ETSI:成立 ENI(可体验的智能网络)和ZSM(0接触的网络和业务管理)工作组,专门研究网络智能化,ENI在2017年2月成立,其目标是定义一个感知-适应-决策-执行控制模型的体验式感知网络管理架构,通过人工智能技术提升客户在网络部署和操作方面的体验。其核心理念是网络感知分析,数据驱动决策,基于AI的闭
14、环控制。当前已发布网络智能分级1.0,正式发布写入了数据中心网络智能的分级标准GSMA:发布AI使能网络自动化(AI&Automation)白皮书,认为5G时代需要一个高度智能的自动化网络,并逐步向智能自治网络演进;同时,实现智能自治网络需要“分层自治、垂直协同”的创新架构变革,逐步实现完全自治网络。060202华华为自动驾驶网络战略解读为自动驾驶网络战略解读华为自动驾驶网络战略解读实现全自治网络这一终极目标注定是一个长期的过程,需要分步实现。华为基于通信网络的复杂性,从客户体验、解放人力的程度和网络环境复杂性等方面,初步定义了数据中心的自动驾驶网络分级标准,并支持产业各方在级别划分方面最终形
15、成统一的观点:L L0 0手工运维:手工运维:所有任务都依赖人执行L L1 1工具辅助操作运维:工具辅助操作运维:少量场景中,系统基于已知重复性执行类、监视类任务提供了工具辅助用户来简化操作、提高重复性工作的执行率。例如,GUI配置向导,批量配置脚本或工具L L2 2部分自治网络:部分自治网络:部分场景中,系统基于网络模型级提供意图交互接口及辅助工具,用户摆脱对设备命令行的依赖,进一步降低了人员对经验和技能的要求;系统可基于一些预定义的静态策略进行固定的监视与分析,由人工决策数据中心自动驾驶网络白皮书级别级别特征特征评估维度评估维度执行执行监视监视分析分析决策决策闭环闭环场景场景意图意图L0M
16、anual Operation&Maintenance手工操作运维全人工操作人工人工人工人工人工NA设备命令级L1AssistedOperation&Maintenance工具辅助操作运维少量场景基于设备命令行级基础工具辅助,人工分析决策人工为主系统为主人工人工人工少量设备命令级L2Partial Autonomous Network部分自治网络部分场景基于网络模型级标准工具辅助,静态策略分析,人工决策系统为主系统为主人工为主人工为主人工部分网络模型级L3ConditionalAutonomous Network限定条件自治网络特定场景中基于动态策略分析,系统推荐辅助人工决策来实现动态策略的基
17、础闭环系统系统系统为主系统为主系统为主多数网络模型级+业务意图级L4Highly Autonomous Network高度自治网络绝大部分场景中基于业务意图级类自然语言进行交互,系统自动实现动态策略的完整闭环系统系统系统系统系统绝大部分业务意图级L5Full Autonomous Network全自治网络任意场景中系统完成全部闭环系统系统系统系统系统任意业务意图级07华为自动驾驶网络战略解读L L3 3限定条件自治网络:限定条件自治网络:特定场景中,系统基于业务意图级提供意图交互接口及工具,大幅降低了用户对网络经验和技能的要求;系统可实时感知环境变化,并基于动态的策略进行监视与突发故障根因分析
18、,给出推荐的决策闭环建议来辅助用户决策,实现基础的闭环管理L L4 4高度自治网络:高度自治网络:大部分场景中,用户可基于业务意图级类自然语言同系统交互,系统通过实时感知环境变化、预测和分析潜在劣化风险、突发故障快速根因分析,并动态自动调整网络参数进行问题修复和优化,实现对网络的完整闭环管理L L5 5全自治网络全自治网络:这是数据中心网络发展的终极目标,系统具备在任意场景中跨业务、跨领域的全生命周期的闭环自动化能力,真正实现无人驾驶从分级标准可以清楚的看出,自动驾驶网络是一个多维度,立体化的战略,这种阶梯式上升的级别不仅仅是评价一个网络的标准,也是循序渐进去推进自动驾驶网络战略的路线图。数据
19、中心自动驾驶网络白皮书080303华华为数据中心自动驾驶网络方案为数据中心自动驾驶网络方案华为数据中心自动驾驶网络方案3.1 3.1 整体解决方案整体解决方案作为全球领先的网络解决方案提供商,华为一直致力于引领为客户提供最优体验,凭借在数据中心网络领域的技术优势,以及7800+数据中心广泛应用带来的对自动化和运维业务的经验积累和深入理解,将AI、大数据、自动化等技术与数据中心网络领域深度结合,推出面向数据中心网络场景的自动驾驶网络智能管控运维系统iMaster NCE-Fabric。iMaster NCE-Fabric的最终目标是实现数据中心网络L5自动驾驶,为用户提供数据中心网络全生命周期高
20、度自动化能力,即在规-建-维-优的各个阶段,以用户意图(包括建网意图、业务意图、网络意图等)作为输入,iMaster NCE-Fabric可自动完成所对应意图的网络部署,并反馈执行结果是否符合预期。以下分场景举例说明,场景场景1 1:规划建设规划建设阶段:阶段:用户购买iMaster NCE-Fabric一体机,开机即用。用户输入规划意图:建设指定数量服务器规模的DC,可靠性要求(高、中、低)iMaster NCE-Fabric基于意图输入自动规划网络并反馈网络方案和规划仿真结果用户确认规划方案(规划方案支持编辑修改)iMaster NCE-Fabric自动建网完毕后,自动运行验收用例,并反馈
21、建网结果场场景景2 2:维护阶段的业务变更:维护阶段的业务变更:业务部门意图:需要开通应用A(分行-理财APP)到应用B(总行-风控系统)的访问权限业务系统:调用对应的业务模板“内联应用互访开通”iMaster NCE-Fabric将用户意图自动分解为网络变更方案,并反馈仿真评估结果网络管理员确认。iMaster NCE-Fabric自动下发相应网络配置,并反馈业务验收报告。如验收出问题则进行快速回退操作数据中心自动驾驶网络白皮书场景场景3 3:监控监控分析阶段:分析阶段:iMaster NCE-Fabric持续监控,预测网络故障或劣化,主动上报闭环或优化方案管理员确认方案内容和修复影响性后,
22、进行下发iMaster NCE-Fabric自动优化网络,网络故障或劣化消弭于无形iMaster NCE-Fabric主动检查网络的可靠性,例如设备故障、端口损坏、版本过期、密码过期等异常iMaster NCE-Fabric基于发现的异常自动提交推荐升级方案、替换方案,并给出相应的风险评估管理员确认升级,替换方案iMaster NCE-Fabric自动执行升级、替换操作,并生成升级、替换报告如果升级、替换失败,则执行快速回退操作总结起来,iMaster NCE-Fabric整体架构和Gartner的数据孪生网络类似,包括三个层次,最底层:统一数据底座(事务型+大数据型);中间层:规划工具、自动
23、化控制、仿真验证、智能分析;上层:意图决策。业务流如下:意图决策模块识别用户意图进而转化为相应网络意图,分别交给自动化模块和仿真验证模块进行网络配置部署和变更仿真验证。智能分析模块结合实时网络数据,进行大数据分析,并将分析结果反馈至意图决策模块进行变更决策,提供上述规、建、维、优各阶段的关键功能。09华为数据中心自动驾驶网络方案数据中心自动驾驶网络白皮书意图决策自动化仿真验证数字底座网元管理SpineNetconf/SNMPTelemetry/ERSPAN规划工具意图管理内置典型意图模板框架服务决策推荐开放框架工作流服务注册FaaS海量并发开放编程快照回滚在线仿真离线仿真配置资源QoSWhat
24、-if事后验收异常检测网络预测健康度根因分析网络调优智能分析OLTPOLAP数据开放3rd纳管配置管理大数据采集Server LeafSerivce LeafBorder LeafSpine10华为数据中心自动驾驶网络方案意图决策模块:意图决策模块:1.意图决策模块是网络自动驾驶的大脑,是从L2自动化走向L3意图驱动的核心标志。其以意图为核心,将规划设计、自动化配置、仿真校验、监控分析、故障恢复和网络调优进行有效组织,实现意图的全生命周期自动闭环。意图的定义:从网络管理员视角,面向数据中心网络全生命周期,对外提供的网络服务和自身的日常操作,例如网络规划(新建、扩容)、网络建设(设备上线、应用上
25、线)、业务变更(互联、外联、内联业务)以及日常监控分析(异常识别、故障恢复等),iMaster NCE-Fabric 内置部分网络常用的意图模板意图的框架服务:围绕意图本身,也有一个全生命周期的管理,例如用户意图的识别、意图模板的推荐、意图的仿真验证、意图的自动化下发、意图的监控和异常回退;以及面向故障或者健康度的分析结果,自动推荐的修复方案、影响分析和下发、验收、回退意图的开放:除了内置部分意图模板之外,iMaster NCE-Fabric 还提供一套极简易用的意图开放框架,用户可以通过图形化界面进行意图模板的定制开发,所开发的场景化API可以和客户工单、网管系统对接,融入到客户的IT环境中
26、。自动化模块:自动化模块:自动化模块是L2自动驾驶的核心,其核心能力包括Fabric as a Service(FaaS)、开放性、高性能和高可靠。FaaS:iMaster NCE-Fabric的定位是整体网络管理系统的一部分,其北向可能面向各种云平台(OPS、UI、Kubernetes等),南向也会面向各种网络设备(交换机、路由器、3rd VAS等),所以自动化模型的核心之一就是通过抽象北向和南向通用模型来屏蔽各种差异,同时FaaS提供了面向计算资源的网络路径动态计算功能,能够根据指定的计算的部署位置,动态计算和部署东西向和南北向路径开放性:以南北向通用模型为基础,构筑南北向的开放性,同时提
27、供面向网元的单站配置、模板配置、批量配置功能,可以和BuildIn的业务模型灵活组合高性能:自动化模块的基本工作就是从北向模型到南向模型的转换,高效是一个重要衡量指标,北向业务请求1W/分钟并发能力,在容器云和电信云场景成为必配能力高可靠:确保性能的前提下,保证端到端数据一致性(南向和北向)和快速回退能力也是自动化模块关键的能力之一。仿仿真验证模块真验证模块:作为L3网络自动驾驶的一个亮点功能,其核心能力是基于现实数据中心网络构筑一个数字孪生,数字化模拟用户的重大意图的执行,验证意图的预期效果和对其他业务的影响,进而保证客户网络的可靠性。仿真验证面向的场景包括:规划网络校验、物理网络校验、逻辑
28、网络校验、故障修复校验等,其核心能力包括:在线配置的仿真验证、离线配置仿真验证、事后验收以及所见即所得的what-if:在线配置仿真验证:在自动化下发网络配置之前,通过仿真验证提供的DryRun能力,获取南向配置,模拟意图执行并基于用户意图进行验证,例如连通性、周边业务影响性等离线配置仿真验证:仿真验证模块是和周边模块解耦的,可以独立部署或与客户系统集成,基于用户导入的拓扑和全量、增量配置,完成特定意图的仿真校验事后验收:意图转化为网络配置下发后,通过算法或拨测的方式实现配置结果的验收所见即所得的What-if能力:基于数字孪生的仿真环境,供用户完成基于场景的模拟演练,例如网元扩容/下线、链路
29、中断/切换、路由策略调整等。智能分析模块智能分析模块:智能分析模块:作为L3网络自动驾驶的核心之一,基于大数据采集的数字孪生底座,实现网络健康度分析、异常快速发现、根因定位等功能。健康度:5层评估模型:设备、网络、协议、Overlay、业务;面向的维度:性能、容量、状态、安全攻击、连通性异常快速发现:异常KPI、异常流检测、异常日志数据中心自动驾驶网络白皮书11华为数据中心自动驾驶网络方案根因定位:基于知识图谱+机器学习的故障根因定位,从大量异常衍生Issues中找到根因Issue,上报意图决策模块数据底座:数据底座:包括事务性关系数据库和大数据数据库,以及两类数据库之间的数据表关联数据中心自
30、动驾驶网络白皮书3.2 3.2 意图决策模块意图决策模块3 3.2 2.1 1 痛点痛点业务网络开通难以敏捷化,变更效果不可控:新业务需要上线时,网络运维人员不了解新业务对应的网络需求,需要和业务团队进行大量的沟通和澄清,业务网络开通难以敏捷化;且不同业务团队,不同业务的网络需求存在差异,仅靠单一系统难以完成所有业务覆盖当出现网络故障时,网络运维人员难以判断故障的具体影响性,以及如何快速闭环恢复业务网络人员难以判断当前网络的资源容量是否满足新业务的诉求,网络利用率是否合理,以及何时应该进行网络扩容3 3.2 2.2 2 主要功能和价值主要功能和价值意图决策模块的核心是意图管理模块,功能包括:意
31、图的识别意图如何转换为网络配置意图的事前仿真验证事后意图监控以及诊断意图保障失效后,通过故障修复手段修复意图决策模块内置了数据中心常用的意图模板(build-in),除此之外,为了适应不同用户的需求,还提供开放可编程能力,用户可以自定义新的意图模板,还可以通过工作流的方式来组装已有的意图模板形成一个新的意图模板。随着意图决策模块智能化能力的提升,系统的意图识别能力会越来越强,这也意味着用户实际需要输入的参数越来越少。比如一个意图操作正常需要10个参数,意图决策模块会基于用户输入的少量信息,如3个基础参数,再结合系统当前的状态,网络实际拓扑,用户历史操作等多维信息,自动补齐剩余参数。除此之外,意
32、图决策模块还会根据数字孪生的数据,推荐用户可能用到的意图模板,比如数据中心的端口容量不足,需要扩容;交换机当前的版本较老,需要升级版本;系统的license快要超期了,需要更新等。意图下发后,是如何监控和闭环的呢,意图决策模块提供了意图闭环的ECA管理框架,ECA包括event,condition和action,无论是build-in还是自定义的意图,都可以通过ECA管理框架来实现意图的闭环。基本原理是意图下发以后,意图决策模块会驱动智能分析模块去监控ECA框架定义的Event,当Event发生后,分析验证模块会通知到意图决策模块,意图决策模块再根据condition去执行相应的action,
33、因为action执行也会产生风险,意图决策模块的决策算法会对不同的action进行风险评估,这也会用到仿真验证模块,当风险超过一定阈值的时候,系统会将不同的action和仿真验证的结果呈现给用户,由用户来选择最终的操作。如果风险较小,系统也会自动完成action并查看意图是否闭环了,系统也会记录本次自动闭环的详细日志,用户可以随时查看。意图决策模块还有一个功能,就是网络的主动优化能力,随着网络承载的业务越来越多,此时网络的资源利用可能就不是最佳的了,意图决策模块基于数字孪生的数据可以给出一些网络调优的建议供管理员参考,比如意图决策模块发现当前Fabric中leaf之间负载很不均衡,某些leaf
34、流量持续上升,而某些leaf很空闲,这个时候意图决策模块可以建议将繁忙leaf下挂的一些服务器迁移到空闲leaf下以均衡流量,当然这只是从网络角度给出的建议,还需要和计算部门沟通。意图决策模块的价值:基于用户意图的自动化,缩减网络配置参数,简化网络操作,屏蔽异构网络的差异,Gartner预测业务发放效率可以提升50%开放可编程框架支持快速自定义意图,适配不同客户的场景,意图覆盖面更全意图的下发前的仿真,下发后的监控和保障,降低网络出错概率和中断的时间,Gartner预测减少运维工作量50%智能助手,提供数据中心网络常见维护动作的预测和提醒,网络管理员工作更轻松给出网络的调优建议,供网络管理员参
35、考,提升数据中心网络运行健康度12华为数据中心自动驾驶网络方案数据中心自动驾驶网络白皮书3.3 3.3 自动化模块自动化模块3 3.3 3.1 1 痛点痛点多系统资源对接,模型众多,大规模网络下发慢,难恢复不同业务逻辑模型对接。数据中心SDN时代,网络需要以服务的形式提供,对接上层多种业务发放系统,如OpenStack云平台,Kubernetes容器平台,VMWare vCenter,Microsoft System center等计算虚拟化平台。不同平台的业务逻辑模型存在较大差异,需要自动化模块能够将多种业务逻辑模型翻译为网络配置模型并自动下发到对应网络设备。不同组网模型对接。如Fabric
36、有集中式网关和分布式网关之分;VAS的挂接也分为旁挂,直挂,拉远挂等;leaf交换机的可靠性方案有堆叠,MLAG等。需要自动化模块能够识别匹配对应组网模型,下发不同网络配置。不同网络设备对接。数据中心网络存在不同型号的硬件交换机,虚拟交换机,三方VAS设备,需要自动化模块能统一管理,联动编排。数据中心网络规模越来越大,典型的Fabric接入的服务器可达2000台,VM数量可达2000050000;上层计算并发速度越来越快,如Kubernets发放容器并发已经达到1W/分钟。这都需要自动化模块能够适配业务的发放速率。数据中心网络变更频繁,一旦变更出错,最快的处理方式是快速回退,自动化模块需要管理
37、所有的配置变更,实现基于快照的回滚。3 3.3 3.2 2 主要功能和价值主要功能和价值自动化模块是自动驾驶系统的手脚,接收各种上层系统和意图决策系统的指令,最终转换成设备的配置,完成业务的网络开通和网络变更。意图转换为网络配置是通过自动化模块的编排能力实现意图模型到网络模型的映射,配置下发是支持二阶段提交的,所谓两阶段指的是自动化模块将网络模型分解为设备具体的配置,但开始阶段实际并未将配置下发而是先交给仿真验证模块去判断新增配置对现网的影响。验证的内容包含两部分:一方面是用户手工输入的验证项,另一方面是自动化模块根据已下发的意图和当前的变更操作自动生成的验证项。验证通过后再执行配置下发,确保
38、没有错误配置引入。当然,仿真验证也是有开销的,用户可以根据实际情况判断当前的操作是否有必要经过仿真和验证,对于低风险的意图下发,可以选择直接下发,而无须二阶段处理。南北向开放对接,自动化平台提供FaaS(Fabric as a Service)服务,包括Fabric内的Underlay配置和Overlay配置,所有的变更统一入口;FaaS提供基于统一模型的开放扩展能力,对上提供北向的统一模型,对下提供多设备的统一模型;提供开放编程能力,对异构厂商的网元也能够进行必要的配置,以实现上层意图分解的操作。高可靠,提供网络快照功能,所有的网络变更存储有对应历史记录,当出现网络变更错误的时候,可以快速回
39、退,减少网络中断的时间;同时自动化模块还提供南北向的一致性对账功能,确保数据的端到端一致性,进一步增强可靠性。高性能,自动化模块支持海量并发,其中北向请求的并发能力达到1W次/分钟,能很好的匹配上层系统业务高速下发的需求。133.4 3.4 仿真验证模块仿真验证模块3 3.4 4.1 1 痛点痛点对于云数据中心而言,客户最关注的确保云服务时刻在线,但据调查数据中心领域近一半的故障来自配置变更。对设备的仿真模拟代价高,资源消耗大,难以快速响应业务的诉求。变更变更引起业务故障引起业务故障:据Gartner统计,数据中心领域40%的网络事故由于人工的配置错误导致。网络管理部门对网络一次变更的风险评估
40、平均耗时3天,而准确性却只有70%左右。仿真模拟代价高:仿真模拟代价高:数据中心中设备的功能复杂,型号众多。仿真模拟需要能够模拟不同设备上的不同功能,以及复杂的路由协议,传统的一比一仿真模拟代价高昂。同时不同的设备款型还存在着实现差异,更加深了仿真模拟的难度。仿真验证资源消耗大仿真验证资源消耗大,响应慢:响应慢:一般对设备控制面的仿真模拟,需要消耗大量的计算及内存资源,多台设备进行仿真时耗时也呈指数增长,响应慢。华为数据中心自动驾驶网络方案数据中心自动驾驶网络白皮书14华为数据中心自动驾驶网络方案物理网络变更仿真验证:物理网络变更仿真验证:支支撑对管理的物理网络进行数据建模,并通过可视化呈现整
41、体网络的状态信息。通过对网络的新增物理配置参数进行检查,自动发现网络的连通性、路由环路、路由黑洞等错误,无需人工介入。业务仿真下发事前验证业务仿真下发事前验证:支持对业务意图进行资源占用分析,自动计算当前业务的资源消耗以及当前网络的总体资源情况。并对业务意图的配置和当前配置进行基本的冲突检查以及配置仿真分析,辅助用户进行影响分析以及决策。能够对数据中心中的复杂的访问控制策略进行模拟仿真。如PBR业务链以及微分段,降低数据中心网络中访问控制策略管理的难度。高效快速高效快速:支持进行轻量级的仿真,资源占用少,部署简单快速。iMaster NCE-Fabric验证仿真模块内置数据中心常用的OSPF、
42、BGP路由协议算法,利用BDD(Binary decision diagram,是一种表示布尔函 数的数据结构,可以高效的进行布尔函数的交、并、差的运算)图形化建模网络的连通模型,实现快速高效验证,可满足不同规模量级的数据仿真需求。开放协同开放协同:上线下协同,提供离线方式仿真验证。可以同iMaster NCE-Fabric其他模块协同工作;仿真验证模块抽取了一套与设备款型无关的模型适配层,同时也支持兼容不同设备款型,未来可支持第三方设备。3 3.4 4.2 2 主要主要功能和价值功能和价值仿真验证作为华为数据中心自动驾驶系统iMaster NCE-Fabric的关键技术,在规划设计、自动决策
43、、专家推荐、故障修复等领域起着重要的作用,支持对决策以及意图进行事前的仿真分析,验证其可行性以及影响性,也支持对物理网络的变更、规划进行离线的仿真分析,结合业务意图,辅助快速识别存在的各类隐患。数据中心自动驾驶网络白皮书3.5 3.5 智智能能分分析模块析模块3 3.5 5.1 1 挑战挑战随着DC云化发展,网络资源池化、网络业务自动化等让用户使用变得更简单,但同时也带来了网络运维主动性、实时性和大规模处理能力的挑战,使得传统运维对时好时坏的业务体验质量、困难的故障定位等逐渐力不从心。主动性:主动性:SDN场景下要求能快速动态地下发业务,如按需创建和删除逻辑网络,网络或业务配置变更相对会比较频
44、繁。而频繁的变更也增加了故障概率,需要运维系统能主动智能地感知这些故障,并借助大数据分析、经验数据库帮助用户快速进行故障定界和故障恢复;实时性实时性:实时性:即运维系统能及时地感知网络的微突发异常。例如某企业客户说其轻载的网络,存在瞬态的突发丢包,怀疑存在毫秒级别的微突发流量,但是在分钟级别的SNMP机制下,无法观察到,更无法优化;大规模大规模:大规模:大规模管理包含多层含义,一方面管理对象从物理设备延伸到虚拟机,网元管理规模增加了几十倍;另一方面由于实时性分析的要求,设备指标的采集粒度从分钟级提升到毫秒级,数据量增加了近千倍;更重要的是对于故障的主动感知和排障,除了采集分析网络设备指标外,还
45、需要结合实际转发业务流进行分析,数据规模则进一步扩大。传统运维管理体系,面对上述SDN网络运维三大特征存在巨大的挑战。管理行业研究机构(EMA)针对100多家企业调查结论显示,70左右的客户对于现有管理运维体系是否适用于SDN场景,表示担忧。为了满足SDN场景下“主动性、实时性、大规模”的运维挑战,需要对整个运维架构进行改变,才能让SDN网络“管用、好用”。3 3.5 5.2 2 主要功能和价值主要功能和价值智能分析模块使用Telemetry技术实时采集网络数据面、控制面、管理面全场景数据,通过分布式架构实时和离线计算,并运用智能算法对网络数据进行分析、呈现,达到百万报文秒级处理能力。颠覆传统
46、聚焦资源状态的监控方式,实时感知Fabric的状态、应用的行为状态,全面评估网络健康状态,故障分钟级识别、定位和恢复。15华为数据中心自动驾驶网络方案存储分析/AI运算分发/缓冲分析器Spark设备ERSPAN流数据Telemetry/SYSLOG网络状态感知Configuration配置变更感知Steaming实时数据处理Spark离线数据处理采集服务数据接收Kafka数据分发/缓冲AI算法Druid/HDFS原始数据汇聚数据分析数据订阅采集数据中心自动驾驶网络白皮书16华为数据中心自动驾驶网络方案网络健康度分析网络健康度分析,故障主动预防故障主动预防:分析平台从设备、网络、协议、Overl
47、ay、业务五个维度建立详细评估和健康分析体系,打造全面的网络监控评估体系,并定期推送评估报告。相对于传统固定阈值,分析平台采用基于机器学习算法,感知网络行为的变化。基于网络的历史数据,使用高斯过程回归算法,自动学习出设备,单板,端口,光模块等多维度的KPI指标的动态基线,并每天自动更新,实现网络异常的智能化检测能力。同时结合指标间动态相关性构建多事件关联分析,在网络亚健康阶段就及时感知行为变化,提前介入和修复,主动预防故障的发生。1 1-3 3-5 5故障处理故障处理,分钟级故障定位分钟级故障定位:华为根据30+年运维经验和数千客户故障案例,梳理75+故障Case,覆盖85%故障场景。一方面,
48、分析平台持续开展数据中心攻防演练进行故障知识的积累和定位效率的提升,另一方面通过AI构建网络知识图谱,目前典型故障可在3分钟内定位问题根因。全网全流分析全网全流分析,应用行为异常可视应用行为异常可视:通过采集、分析网络上实际转发的TCP报文,呈现应用交互关系和质量,将网络流量白盒化;采用DBSCAN(Density-Based Spatial Clustering of Applications with Noise)基于密度的聚类算法,对网络中的应用流进行了聚类分析,同时还原报文的逐跳转发路径、链路的转发流量和时延,构建从业务流-转发路径-网络服务的多层次关联分析能力,结构化地为用户呈现应用
49、行为以及网络质量。3.6 3.6 数字仓库数字仓库数据仓库用来采集iMaster NCE-Fabric的历史数据以及其他系统的网络数据(如非iMaster NCE-Fabric纳管的设备配置以及用户的手动下发的设备配置,服务器状态信息,网络状态信息)。采集来的原始数据可作为数据挖掘,AI学习的数据源。例如通过学习历史网络配置对网络运行的影响,给出最优的网络规划方案。通过数据仓库对原始数据进一步加工后,可以得到树形结构的模型化数据。模型化数据帮助实现历史数据比对并呈现结果,增强当前自动驾驶系统的能力。例如快速回滚功能无需保存快照就可以按任意时间/范围进行回滚;还可以检测iMaster NCE-F
50、abric纳管设备配置与实际配置差异并上报告警。3.7 3.7 用户体验用户体验3 3.7 7.1 1 传统传统运维系统用户体验运维系统用户体验痛点痛点1.由于网络规模和复杂度的增加,网络管理员手工在系统上进行网络变更容易出现差错,当前超过一半的网络异常是由网络变更导致的。2.扩容需要用户在系统上人工操作和复核,无法保证配置资源的正确性,可能会导致配置错误和冲突。3.金融场景下,对线上故障恢复时间要求非常严苛,核心业务要求分钟级发现并定位到故障根因,靠人工经验发现故障并排查定位故障原因很难达到行业时效性要求。数据中心自动驾驶网络白皮书3 3.7 7.2 2 数据数据中心网络自动驾驶中心网络自动