深度学习在IP网络优化中的应用_曾汉.pdf

资源描述

1、技术与标准2023 年第 7 期深度学习在 IP 网络优化中的应用曾汉徐晓青钱刘熠辉武娟(中国电信股份有限公司研究院,广州 510000)摘要:随着新型业务涌现和 IP 网络技术的不断演进,云网融合步入新阶段,展现出数字化、智能化和服务化的发展特征。其中智能化需要结合相关的人工智能技术,而深度学习和深度强化学习是常用的人工智能算法。图神经网络等技术的发展,也使得深度学习和深度强化学习分别在图信息表示和最优化问题处理方面的能力得到本质提升。IP 网络可以用图结构抽象化表示,相关的预测和优化问题可以用深度学习和深度强化学习算法处理和求解。因此阐述了深度学习和深度强化学习在流量预测、网络规划和流量工

2、程 3 个场景下的相关算法与应用,分析了在实践过程中可能面临的问题与挑战。关键词:深度学习;深度强化学习;流量预测;网络规划;流量工程;云网融合中图分类号:TN915.5 文献标志码:A引用格式:曾汉,徐晓青,钱刘熠辉,等.深度学习在 IP 网络优化中的应用J.信息通信技术与政策,2023,49(7):89-96.DOI:10.12267/j.issn.2096-5931.2023.07.0120 引言云网融合的不断推进和 VR/AR 等新业务的不断涌现,使得 IP 网络更加复杂。新需求引发的大量流量和数据中心的不断涌现,改变了传统网络的流量分布。复杂动态的流量分布需要结合相关人工智能技术来实

3、现更精准的预测和更合理的调度。此外,随着软件定义网络(Software Defined Network,SDN)的广泛应用,复杂的网络业务流量需求给现有的网络路由算法提出了更大的挑战。为了满足多样化的服务需求,不少基于机器学习的路由优化算法被提出,然而该算法的研究方向主要在于其合理性和收敛性,相对缺乏在真实场景下训练和部署的研究1。同时,随着 5G 的发展,通信与人工智能将进一步深度融合,通信各个领域对网络智能化的需求会大量增加2。网络智能化需求的增加,为现有的 IP 网络优化算法研究拓宽了更多探索方向,同时也为数据驱动算法创造了更广阔的应用空间。近年来,随着机器学习与深度学习的发展,数据驱动

4、算法已经在一些领域得到了广泛应用。其中深度学习是目前数据驱动算法中最重要的一个分支,它通过学习大量样本数据的内在规律,捕捉数据的重要特征,进而实现对数据的分类、回归或预测等,从而具备感知和分析的能力。图神经网络是深度学习的一个分支,对图结构数据具有更强的感知与分析能力,适用于 IP 网络的特征表示,因为 IP网络本质可抽象成一张图。深度强化学习是深度学习与强化学习结合的产物,对大规模空间的最优化问题有较好的求解能力,且基于深度强化学习的算法在通信网络的业务场景中已经做了不少尝试3。本文介绍了常用的深度学习和深度强化学习算法,总结了研究人员在几种场景下的设计思路,希望为在现网实施相关算法和模型提

5、供参考。首先,介绍了深度学习和深度强化学习的基本模型,其中包括全连接神经网络(Fully Connected Neural Network,FCNN)、98|信息通信技术与政策循环神经网络(Recurrent Neural Network,RNN)、图神经网络(Graph Neural Network,GNN)、深度 Q-网络(Deep Q-Network,DQN)、深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG);其次,收集了深度学习与深度强化学习在 IP 网络不同场景(流量预测、网络规划和流量工程)的应用;最后,探讨了深度学习和深度强化学

6、习的行业现状、存在的挑战和研究方向。1 基于深度学习的 IP 网络优化算法输入层全连接层全连接层全连接层输出层.图 1 全连接神经网络结构1.1 应用于 IP 网络优化的深度学习算法概述深度学习是指机器学习中基于神经网络对输入数据进行表征学习的方法。“深度”指含多个隐藏层的学习模型,通过深度学习可以组合低维度特征形成高维度的属性、类别或特征。随着计算机算力的大幅度提升,深度学习将更为普及和实用。全连接神经网络也称前馈神经网络或多层感知机,由输入层、全连接层和输出层 3 部分组成,每一层都由若干个神经元组成,其模型结构如图 1 所示。在前向传播中,下一层神经元的值是上一层所有神经元数值

7、的加权叠加,数据经多层全连接层的传递被不断压缩和提炼,最终传递给输出层,因此在未添加激活函数的情况下,输出层神经元值可以表示为输入层神经元值的线性组合。输出层通过与实际结果对比得到损失函数,并以反向传播的形式逐层更新神经元加权权重,从而不断优化全连接网络的连接方式,得到从输入数据映射至输出数据的最佳网络参数。全连接网络在处理特征分布一致的数据时有着非常好的工作效率和准确率,但在实际应用中,需要进行预测的数据往往有着不完全一致的特征分布,全连接网络训练得到的分类器或回归器对于训练数据以外的样本鲁棒性较差,模型整体的新数据泛化能力较低。循环神经网络是一类以序列数据为输入,在序列的演进方向进行递归且

8、所有节点(循环单元)按链式连接的递归神经网络。RNN 引入了“记忆”的概念,其输出依赖于之前的输入序列,具体体现在 RNN 通过隐藏状态来存储之前时间步长的信息。当时间步长较大时,循环神经网络的梯度计算容易出现梯度衰减或梯度爆炸,这导致循环神经网络在实际应用中难以捕捉时间序列中时间周期较大的变化趋势,而门控循环单元(Gated Recurrent Unit,GRU)和长短期记忆(Long Short-Term Memory,LSTM)可以解决这个难题。GRU 是一种常用的门控循环神经网络,它引入了重置门和更新门的概念。重置门和更新门的计算公式和 RNN 中隐藏状态的计算一样,选取 Sigmoi

9、d 函数作为激活函数,将重置门和更新门的参数值约束至0,1之间。两个门控的不同点在于:重置门的优化目标是控制上一时间步的隐藏状态以怎样的权重流入当前时间步的候选隐藏状态;更新门的优化目标是选09技术与标准2023 年第 7 期择最佳的加权系数组合上一时间步的隐藏状态和当前时间步的候选隐藏状态。LSTM 是对 GRU 的一种扩展,LSTM 模型中每一层包含三个门控:输入门、遗忘门和输出门,具体模型结构如图 2 所示,其中哈达玛(Hadamard)乘积是矩阵的逐项乘积。LSTM 引入了记忆细胞的概念,作为另一种按照时间顺序逐级传递的隐藏信息。LSTM 的具体连接方式非常复杂,每一个门控的输入都包含

10、了上一时刻的隐藏状态 Ht-1和当前时刻的输入数据 Xt,因此每一个门控都能够对上述两项数据进行加权叠加。具体来说,遗忘门的主要作用是控制上一时刻的记忆细胞 Ct-1以怎样的比例保留在这一层的计算中,即上一时刻记忆细胞 Ct-1和这一时刻候选记忆细胞?Ct的加权系数;输入门的主要作用是控制由上一时刻隐藏状态 Ht-1和当前时刻输入数据 Xt共同组成的输入以怎样的比例得到候选记忆细胞?Ct;输出门的主要作用是控制这一时刻的输入会以何种方式对新得到的记忆细胞 Ct进行加权,最终得到这一层新的隐藏状态 Ht。Ct记忆细胞 Sigmoid Sigmoid Ht-1 隐藏状态输入候选记忆细胞遗忘门

11、Ft 输入门It 输出门Ot Sigmoid Tanh Tanh Ct-1 Hadamard乘积Hadmard乘积Hadmard乘积XtHtHadamard乘积Hadamard乘积图 2 LSTM 内部结构与 GRU 相比,LSTM 由遗忘门和输入门产生新的状态,而 GRU 只有一种更新门;LSTM 可以通过输出门调节新产生的状态,而 GRU 对输出无任何调节。因此,LSTM 在模型结构上更加强大和灵活,有着更好的特征表达能力,但也引入了额外的计算开销。图神经网络是指将神经网络技术运用在图数据的学习任务中的一大类方法。GNN 的发展起源于对图卷积神经网络(Graph Convolutional

12、 Neural Network,GCN),其中 GCN 分为谱域和空域两类。谱域 GCN 的卷积操作通常作用于图拉普拉斯(Laplace)的特征值矩阵上,一般只能作用于一张图,限制了跨图学习能力和泛化能力;而空域 GCN 以压缩映射原理(Banach 不动点理论)为基础,相对谱域 GCN 而言,空域 GCN 研究成果更为丰富。空域 GCN 本质上是一个迭代式的聚合邻居的过程,一方面大部分空域 GCN 的成果本质是对聚合操作的重新设计(基于 GCN 发展而来的模型统称为 GNN),例如 GraphSAGE(Graph SAmple and aggreGatE)、图注意力网络(Graph Atte

13、ntion Networks,GAT)、关系图卷积网络(Relational-GCN,R-GCN);另一方面,一些研究人员将具体的 GNN 设计解构,抽象为 GNN 设计范式,例如消息传播神经网络(Message Passing Neural Network,MPNN)、非局部神经网络(Non-Local Neural Network,NLNN)、图网络(Graph 19|信息通信技术与政策Network,GN)。1.2 基于深度学习的 IP 网络优化算法网络流量预测通过捕捉流量数据的特征,依据历史流量数据规律推断未来的变化,是 IP 网络优化的基础。预测的准确度会直接影响网络规划

14、和流量工程的最终结果,因此网络流量预测也是网络规划和流量工程的基础。基于循环神经网络的深度学习算法适合处理序列数据,是捕捉数据时间关联性的常用手段,广泛应用在时间序列预测的场景中。GRU,特别是 LSTM的引入使得 RNN 捕捉短时时序特征的能力增强。Vinayakumar4等将 RNN 框架应用在网络流量预测上,分别将 LSTM 与 GRU、identity-RNN、RNN 的预测结果进行比较。具体使用了泛欧学术网络的流量矩阵数据(采样间隔为 15 min),将每个流量矩阵展平为流量矩阵向量,按时间顺序拼接成新流量矩阵,采用时间窗口的形式处理新流量矩阵以得到样本与标签。通过比较几种循环神经网

15、络的预测结果与标签的均方误差(Mean Squared Error,MSE)得出以下结论:在网络流量预测的场景下,LSTM 比其余基于 RNN 框架的算法表现更优异。Ramakrishnan5等沿用 Vinayakumar 等人的处理方法,扩大了 LSTM 的比较范围并对算法的应用场景进行了拓展,包括网络协议预测和网络协议分布预测。具体而言,使用了 Abilene 数据集(采样间隔为5 min),将 RNN、GRU、朴素预测(Naive Model,NM,即使用上一时刻的值作为预测值)、移动平均(Moving Average,MA)和自回归综合移动平均(Autoregres

16、sive Integrated Moving Average,ARIMA)算法与 LSTM 进行比较。在网络流量预测和网络协议分布预测的场景下,比较各个模型的预测结果与标签的 MSE 可知,LSTM 的表现优于 RNN 和 GRU,RNN 框架的表现优于 NM、MA 和 ARIMA。无论是回归任务还是分类任务,LSTM 都有更优异的表现。Hua6等就降低计算开销方向对 LSTM 进行了改进,提出了随机连接长短期记忆(Random Connectivity Long Short-Term Memory,RCLSTM)框架,有效降低了计算开销。通过比较 RCLSTM、LSTM 和其它常用算法模型分

17、别在网络流量预测和用户位置预测场景中的预测效果,论证了在部分计算资源受限的条件下,RCLSTM 比 LSTM 更具优势。RCLSTM 的神经元之间是随机连接的,连接策略可以遵循任意分布规律,且允许调整临界值来控制神经元连接的数量。在网络流量预测场景中,研究人员使用泛欧学术网络公开数据集的流量矩阵数据,比较了各个算法模型的预测结果与标签的均方根误差(Root Mean Squared Error,RMSE),得出 RCLSTM 在这些场景下表现更优且计算开销更低的结论;在用户位置预测场景中,使用多个移动通信用户的位置数据,比较预测结果的准确率并得出 RCLSTM 的表现略差于 LS

18、TM 但计算开销更低的结论。Theyazn7等从预处理环节提出了一个智能混合模型,将当前的时间序列预测模型与聚类模型相结合以提升网络流量预测的效果。该聚类模型使用模糊C-均值(Fuzzy-C-Means,FCM)作为聚类颗粒来分类流量数据,并使用加权指数平滑模型以提升预测结果稳定性。使用该聚类模型对网络流量数据进行预处理,可以提升 LSTM 的预测效果。此外,还使用 4G 基站网络流量(来自 Kaggle 数据集)和广域网流量(日本骨干网数据)作为输入,使用消融试验证明了该聚类模型可以提升预测效果。与此同时,He8等基于图神经网络提出一种新的深度学习模型图注意力时空网络(Graph Atte

19、ntion Spatial-Temporal Network,GASTN)。与之前的研究相比,该模型对数据的空间特征有更好的捕捉能力,能够同时捕捉局部空间特征和全局空间特征。GASTN 通过构建空间关系图来建立空间关联性捕捉模型,并用递归神经网络为捕捉时间关联性进行建模。此外,为了提升 GASTN 的预测效果,研究人员提出了一种全局局部协作学习策略,并充分利用全局模型和各区域的局部模型的知识,提高了 GASTN 模型的有效性。在流量数据预测中,他们使用大规模真实场景的移动流量数据,比较 GASTN、历史均值(Historcal Average,HA)、ARIMA、多层感知机(Multiple

20、Layer Perceptron,MLP)、LSTM、CNN-LSTM 和 STN(结合 ConvLSTM和 3D-ConvNet 的深度时空网络)流量预测结果的RMSE、平均绝对百分比误差(Mean Absolute Percentage Error,MAPE)、平均绝对误差(Mean Absolute Error,MAE)指标,证明了 GASTN 在流量数据预测任务上准确率更高。此外,他们使用消融试验验证了两层注意力网络的有效性,并在 GASTN 的基础上使用不同的29技术与标准2023 年第 7 期学习策略来验证全局局部协作学习策略的有效性。2 基于强化学习的 IP 网络优化算法2.1

21、应用于 IP 网络优化中的强化学习算法概述强化学习(Reinforcement Learning,RL)是指环境中的智能体按照一定策略做出一系列决策以完成给定任务,求得最优策略使得回报最大化的过程。强化学习要重点考虑预测和控制两个问题,即策略评估和求解最优策略。强化学习本质上属于序列决策问题和优化问题,因此强化学习问题可以采用马尔科夫(Markov)模型表示,并基于此进行优化。如果未来状态只与当前状态有关,则称该状态具有 Markov 性,特别地,如果 St具有 Markov 性,用 P 表示条件概率,则上述定义如式(1)所示。PSt+1|St=PSt+1|S1

22、,S2,St(1)一个 Markov 决策过程,可以用四元组S,A,P,R()表示,其中 S 表示状态集,A 表示动作集,P表示转移概率,R 表示奖赏。一般来说状态、动作和奖赏均为随机变量。强化学习的重要任务之一是策略评估,即需要定义状态值函数(每个状态的价值)及 Q-值函数(指定状态下某个动作的价值)。v(s)=EGt|St=s(2)q(s,a)=EGt|St=s,at=a(3)贝尔曼(Bellman)方程定义了状态值函数和 Q-值函数的递推关系,在指定策略下(a|s)表示在状态 s 下,执行动作 a 的概率),状态值函数 v(s)和 Q-值函数 q(s,a)定义分别如下

23、:v(s)=ERt+1+Gt+1|St=s=a(a|s)s,rp(s,r|s,a)r+v(s)(4)q(s,a)=ERt+1+Gt+1|St=s,At=a=s,rp(s,r|s,a)r+a(a|s)q(s,a)(5)强化学习另外一个重要任务是求解最优策略。对于策略和策略,如果对于任意状态有 v(s)v(s),则称策略是优于策略的,记为。如果至少存在一个策略比其他策略好,则这个策略为最优策略,记为。深度强化学习(Deep Reinforcement Learning,DRL)将深度学习与强化学习结合起来,将强化学习的逼近任务用深度学习算法来完成。常见的 DRL 算法有 DQN、DD

24、PG 等。DQN 使用深度神经网络来逼近最优 Q-值函数,即式(6):Q(s,a)=maxErt+rt+1+|st=s,at=a,(6)即逼近一个最优策略使得在给定的状态 st下执行动作 a 能获取最大的期望汇报。DQN 有两个特殊的机制,一种是随机抽样,从经验数据随机抽样,以消除观测序列的相关性并减缓数据分布的变动;另一种是目标量周期变动,使用迭代更新的方式让 Q-值朝着目标量变动,而目标量设置为周期性变动,减少 Q-值与目标量的相关性。基于这两个机制可以让非线性的神经网络在逼近 Q-值函数时趋于稳定而避免发散。除了 DQN 逼近 Q-值函数的思路之外,另一个思路是逼近策略。策略梯度(Po

25、licy Gradient,PG)是早期逼近策略的强化学习方法,为了减少训练过程中参数的方差,通常采用演员-评论家(Actor-Critic,AC)框架。但 PG 输出的是一个概率分布函数,本质上是一个随机的策略。于是,2014 年 D.Silver9提出了确定性策略梯度(Deterministic Policy Gradient,DPG),将PG 中的概率分布函数映射为一个确定的动作。随着DQN 的成功,2016 年 Deepmind10受其启发基于 DPG算法进行改进并提出了 DDPG 算法,采用深度神经网络作为策略函数和 Q-函数的近似(即策略网络和 Q-网络),最后用梯度优化的方法来

26、训练这两个网络。2.2 基于强化学习的 IP 网络优化算法概述强化学习应用于 IP 网络优化问题的主要场景有网络规划和流量工程。网络规划是一类 NP-难(Non-deterministic Polynomial hard,NP-hard)的组合优化问题。一般来说,可以将其建模为整数线性规划(Integer Linear Programming,ILP)问题,约束条件可以基于一系列相关的 QoS 和 SLA 要求进行设置,目标函数可以设置为相关的成本。但是 ILP 本身也是 NP-难的组合优化问题,经典方法是通过分支定界法、割平面法等指数时间算法求得精确解,对复杂大规模网络规划问题的求解存在困难

27、。流量工程是通过控制网络的路由策略来改变网络流量分布,优化网络资源的分配和提升网络的性能,要求算法有更低的时间复杂度以及更少的资源调度。Zhu11等结合 GNN、DRL 与 ILP 提出了网络规划框架 NeuroPlan。首先使用 GNN 对节点和连接进39|信息通信技术与政策行动态编码,目的是应对规划过程中网络拓扑的动态性质;其次,使用两阶段混合方法,先用 DRL 修剪搜索空间,然后使用 ILP 求解器找到最优解。与手动调整的启发式算法相比,它可以降低约 17%的目标函数值;与 ILP 相比,则能求解更大规模的网络规划问题。胡道允12等基于 SDN 提出了一种基于深度学习的流量工程算法(DL

28、-TEA)。在仿真场景下,将该算法与模拟退火和贪婪算法进行比较发现,在平均时延、请求平均占用带宽和网络阻塞率上 DL-TEA 略差于模拟退火,但优于贪婪算法;在耗时上 DL-TEA 远优于模拟退火,略优于贪婪算法。这表明 DL-TEA 不仅能够实时地为业务计算一条高效的路径,同时还能够提升业务的 QoS、网络资源利用率,降低网络阻塞率。兰巨龙 13等为解决 SDN 场景中 QoS 优化方案常因参数与网络场景不匹配出现性能下降的问题,提出了 R-DRL 算法。该算法基于 LSTM 和 DDPG,首先统一网络资源和状态信息,然后通过 LSTM 获取流量的时序特征,最后使用 DDPG 生成满足 Qo

29、S 目标的动态流量调度策略。试验结果表明,相较于现有算法,R-DRL 算法不但保证了端到端传输时延和分组丢失率,而且提高了 22.7%的网络负载均衡程度和 8.2%的网络吞吐率。Zhang14等提出将关键流重新路由强化学习(Critical Flow Rerouting-Reinforcement Learning,CFR-RL)方法应用于路由规划。只对关键流进行重新路由可以缩小对网络流的调度规模,减轻大规模网络流调度产生的负面影响。由于关键流的搜索空间巨大,且无法使用基于规则的启发式算法应对动态拓扑场景,所以选择强化学习作为算法框架。主要使用 CFR-RL自动在流量矩阵中选取关键流,之后通过

30、求解简单的线性规划来重新路由这些关键流以平衡链路的利用率。试验结果显示,CFR-RL 可以在仅重新路由 10%21.3%全局流量的情况下达到近似最优解。Sun15等提出使用多智能体元强化学习(Multi-Agent Meta Reinforcement Learning,MAMRL)解决路由优化问题,使用同为分布式无模型路由算法的深度策略梯度算法与 MAMRL 进行比较。MAMRL 得益于与模型无关的元学习,能够迅速适应拓扑改变的场景。为验证 MAMRL 的性能,使用多个广域网拓扑进行模拟,其在数据包级的模拟场景下的结果显示:与传统最短路径算法和传统强化学习方法相比,即使在需求激增的情况下 M

31、AMRL 也能显著降低数据包的平均传输时间;与非元深度策略梯度方法相比,在链路故障的情况下 MAMRL 能在较少的迭代次数内可观地减少数据包的丢失数量,从而降低数据包的平均传输时间。3 IP 网络优化算法面临的挑战数据的质量和规模是深度学习的基础。但是在实践过程中,受成本和采集技术所限,用于深度学习的数据往往不能达到预计的质量和规模,从而使得深度学习模型难以直接适用于现网场景。以流量预测为例,流量预测是大部分网络规划和流量工程算法的关键输入,其准确度直接影响到其他任务的结果。对于流量预测而言,数据的采样间隙越小,预测误差越小,采集成本也会越高。流量采样需要消耗一定的带宽和存储资源,深度学习也要

32、消耗相应的算力资源,而在现网中需要实时预测时,需要尽可能降低算法和模型的复杂度。如何在低成本和低资源消耗下保持合理的预测精度,是现网实际应用中需要考虑的问题。此外,还需考虑相关的数字孪生技术,通过模拟环境得到一些数据,也可能通过数据增强等扩充数据,如依靠生成对抗网络来产生一些数据。另外,深度学习类似于“黑盒”,缺乏一定的解释性,在现网应用中会引入一系列问题,无法了解算法做出相应决策的逻辑。若出现某些应用场景失效而造成网络故障,不仅会导致相关 SLA 的违背,还可能引发其他严重后果。此外,网络往往是动态变化的,也要求相关算法和模型具有一定的泛化性。深度学习和深度强化学习的模型中存在大量的超参数,

33、一个良好的模型通常需要依赖恰当的调参才能得到。如何选取合适的算法模型进行调参,是相当复杂的过程,虽然已有一些自动化调参方法,但尚处于初期阶段。因此,如何设计出成本较低、具备可解释性和较好泛化效果的算法和模型,是目前研究的难点。与此同时,深度学习模型在云网边端的部署和协同问题需要深入分析;如何融合相关行业知识、结合传统优化算法使得求解问题更高效,也值得从业人员进行探索。49技术与标准2023 年第 7 期4 结束语本文总结了深度学习和深度强化学习目前在 IP网络优化中的相关算法、模型和应用方向,并分析了其主要存在的问题。目前来看,深度学习和深度强化学习方法在 IP 网络优化相关场景下的应用具备一

34、定优势,并取得了一些积极效应,但同时也面临着数据采集难、训练成本高、缺乏可解释性和泛化能力、真实场景部署难等问题,需要相关从业人员进一步的研究和攻克,从而推动网络智能化的发展。参考文献1 刘辰屹,徐明伟,耿男,等.基于机器学习的智能路由算法综述 J.计算机研究与发展,2020,57(4):671-687.2 欧阳晔,王立磊,杨爱东,等.通信人工智能的下一个十年J.电信科学,2021,37(3):1-36.3 CONG N L,THAI D H,GONG S.Applications of deep reinforcement learning in communications and net

35、working:a surveyJ.IEEE Communications Surveys&Tutorials,2019,21(4):3133-3174.4 VINAYAKUMAR R,SOMAN K.P,POORNACHANDRAN P.Applying deep learning approaches for network traffic prediction C /2017 International Conference on Advances in Computing,Communications and Informatics(ICACCI).India:IEEE,2017:23

36、53-2358.5 RAMAKRISHNAN N,SONI T.Network traffic prediction using recurrent neural networks C/2018 17th IEEE International Conference on Machine Learning and Applications(ICMLA).Orlando,FL,USA:IEEE,2018:187-193.6 HUA Y,ZHAO Z,LI R,et al.Deep learning with long short-term memory for time series predic

37、tionJ.IEEE Communications Magazine,2019,57(6):114-119.7 THEYAZN H.H A,MELFI A,AHMED A A,et al.Intelligent hybrid model to enhance time series models for predicting network trafficJ.IEEE Access,2020(8):130431-130451.8 HE K,CHEN X,WU Q,et al.Graph attention spatial-temporal network with collaborative

38、global-local learning for citywide mobile traffic prediction J.IEEE Transactions on Mobile Computing,2020,21(4):1244-1256.9 SILVER D,LEVER G,HEESS N,et al.Deterministic policy gradient algorithmsC/International Conference on Machine Learning.Beijing:JMLR.org,2014:387-395.10 LILLICRAP T P,HUNT J J,PR

39、ITZEL A,et al.Continuous control with deep reinforcement learningJ.ArXiv Preprint ArXiv:1509.02971,2015.11 ZHU H,VARUN G,SATYAJEET S A,et al.Network planning with deep reinforcement learning C /Proceedings of the 2021 ACM SIGCOMM 2021 Conference(SIGCOMM21).New York,NY,USA:Association for Computing M

40、achinery,2021:258-271.12 胡道允,齐进,陆钱春,等.基于深度学习的流量工程算法研究与应用J.电信科学,2021,37(2):107-114.13 兰巨龙,张学帅,胡宇翔,等.基于深度强化学习的软件定义网络 QoS 优化J.通信学报,2019,40(12):60-67.14 ZHANG J,YE M,GUO Z.CFR-RL:traffic engineering with reinforcement learning in SDNJ.IEEE Journal on Selected Areas in Communications,2020,38(10):2249-225

41、9.15 SUN S,KIRAN M,REN W.MAMRL:exploiting multi-agent meta reinforcement learning in WAN traffic engineeringJ.ArXiv Preprint ArXiv:2111.15087,2021.作者简介:曾汉中国电信股份有限公司研究院工程师,主要从事 IP 网络流量预测方面的研究工作徐晓青中国电信股份有限公司研究院工程师,主要从事 IP 网络优化方面的研究工作钱刘熠辉中国电信股份有限公司研究院工程师,主要从事 IP 网络流量预测方面的研究工作武娟中国电信股份有限公司研究院工程师,主要从事 IP

42、网络优化方面的研究工作59|信息通信技术与政策Application of deep learning in IP network optimizationZENG Han,XU Xiaoqing,QIAN Liuyihui,WU Juan(China Telecom Research Institute,Guangzhou 510000,China)Abstract:With the emergence of new services and the continuous evolution of IP network technology,cloud-network convergence

43、 has entered a new stage,showing the development characteristics of digitization,intelligence and servitization.Intelligence needs to be combined with relevant artificial intelligence technologies.Deep learning and deep reinforcement learning are commonly used artificial intelligence algorithms.With

44、 the development of graph neural network and other technologies,the ability of deep learning to represent graph information and the ability of deep reinforcement learning to deal with optimization problems have been improved.IP networks can be represented abstractly by using graph structures,and rel

45、ated prediction and optimization problems can be processed and solved by using deep learning and deep reinforcement learning algorithms.Therefore,this paper describes the related algorithms and applications of deep learning and deep reinforcement learning in three scenarios including traffic prediction,network planning and traffic engineering,and analyzes the possible problems and challenges that may occur in practice.Keywords:deep learning;deep reinforcement learning;traffic prediction;network planning;traffic engineering;cloud-network convergence(收稿日期:2022-06-16)69

展开阅读全文