全维可重构的多模态网络交换芯片架构设计.pdf

资源描述

1、专题：多模态网络全维可重构的多模态网络交换芯片架构设计李彧1,2，李召召2，吕平3，刘勤让3（1.清华大学集成电路学院，北京 100084；2.网络通信与安全紫金山实验室，江苏南京 211111；3.中国人民解放军战略支援部队信息工程大学信息技术研究所，河南郑州 450002）摘要：当前，IP 网络结构僵化、可扩展性差、安全性差。为了解决这些问题，学者们提出了多模态网络的概念，并成为当前的研究热点。可编程网络交换芯片是多模态网络的实现基础。提出了一种全维可重构的多模态网络交换芯片架构，以嵌入式 FPGA 为基础实现了多模态网络的端口级、比特级细粒度可重构，以自主设计的网络处理单元为

2、基础实现了网络交换引擎的粗粒度可重构，使网络交换芯片具备了全维可重构的能力，为多模态网络的数据层提供了实现基础。还提出了一种改进的位矢量查找算法，能够以较小的资源占用实现较快的流表查找，提升网络交换性能，展现出较高的实用性。关键词：交换芯片；多模态网络；可重构计算中图分类号：TP393 文献标志码：A doi:10.11959/j.issn.10000801.2023129 Design on the full-dimensional reconfiguration polymorphic network switching chip architecture LI Yu1,2,LI Zha

3、ozhao2,LYU Ping3,LIU Qinrang3 1.School of Integrated Circuits,Tsinghua University,Beijing 100084,China 2.Purple Mountain Laboratories,Nanjing 211111,China 3.Institute of Information Technology,Information Engineering University,Zhengzhou 450002,China Abstract:At present,IP network has the problems o

4、f rigid structure,poor scalability and poor security.To solve these problems,the concept of polymorphic network has been proposed by researchers and gradually become a re-search hotspot.The programmable network switching chip is the basis of polymorphic network implementation.Therefore,a full-dimens

5、ional reconfigurable polymorphic network switching chip architecture was proposed.Based on eFPGA in the chip,the port-level and bit-level fine-grained reconfigurable polymorphic network was realized.Based on self-designed process element(PE),the coarse-grained reconfigurable network switching engine

6、 was rea-lized.Thereby the full-dimensional reconfigurable polymorphic network switching chip was realized and laid the foundation for the data layer of polymorphic network.To improve the network switching performance,an improved 专题策划人：胡宇翔，赵慧玲，胡卫生，段向阳收稿日期：20230429；修回日期：20230609 基金项目：国家重点研发计划项目（No.2

7、022YFB2901000）Foundation Item:The National Key Research and Development Program of China(No.2022YFB2901000)23 电信科学 2023 年第 6 期 bit vector algorithm was proposed,which could realize fast flow table lookup with a smaller resource consumption.The proposed algorithm has showed its practicability in the

8、research.Key words:switching chip,polymorphic network,reconfigurable computing 0 引言近年来，随着工业互联网、数据中心网络等重要基础设施网络的不断发展，以 TCP/IP 为基础的传统信息网络，早已不能满足日益增长的网络灵活性、定制化服务、全域运维管理等方面的要求。因此，邬江兴院士提出了“技术体系与支撑环境分离”的多模态网络体系架构1。多模态网络为各种类型的应用网络模态提供了一体化、可共享、安全的网络基础设施资源环境，是对协议复杂多样、功能僵化单一的IP网络的改进和提升。为了支持多模态网络交换寻址、IP 路由、传输

9、协议等功能的全维度定义和多模态呈现，胡宇翔等2将多模态网络整合为数据层、控制层、服务层 3 层的系统形态，并分别对 3 个层面进行了拟合建模，同时提出了网络全维可定义技术在内的五大多模态网络关键技术。针对多模态网络面临的多种路由标识、网络协议和网络应用处理的问题，王劲林等3通过模态识别和分流模块的方法，重新表示了多模态网络数据，并通过可选择匹配算法和匹配动作数据表组成了多模态数据处理通道，最后基于 Intel CPU 的通用服务器，用数据平面开发套件（data plane development kit，DPDK）框架模拟、验证了一个多模态网络数据处理原型系统。文献4基于领域专用软/硬件协同技

10、术设计了一种多模态网元，为多模态网络环境的研究提供了架构基础，同时针对不同网络模态对网元内异构资源的竞争问题，提出了一种存算转一体的异构软/硬件资源分配方法，实现了多模态网元的高效分配利用。全维可重构的多模态网络交换芯片是多模态网络技术体系发展与应用的基础。然而，当前的网络交换芯片是基于 IP 网络逐步发展而来的，尽管在性能上已经达到了单芯片 51.2 Tbit/s 的交换能力，其接口、处理内核仍然是标准的以太网协议，很难实现多模态网络要求的多种模态化功能，针对多模态网络交换芯片等基础软/硬件设施的研究还很少。多模态网络能够支持多种形态的业务承载，即包括多种适应性的服务质量（quality o

11、f service，QoS）机制，如确定性时延、多样化的通信方式、可重构的网络拓扑等，也包括多样化网络协议的支持，如以太网协议、光纤通道协议、与时分复用（time division multiplexing，TDM）相关的传输网协议。因此，设计支持多模态网络的交换芯片架构主要包括以下几个关键单元。灵活可配的串行/解串器（serializer/deserializer，SERDES）。具备多种协议兼容性的物理编码子层（physical coding sublayer，PCS）电路。具备支持各种协议的介质访问控制器（media access controller，MAC）。支持各种

12、协议承载的报文解析和处理引擎。支持灵活交换的交换架构核心。支持多种方式的路由寻址和转发面表项设计。本文针对以上多模态网络交换芯片的组成单元，提出了一种粗粒度可重构+细粒度可重构的全维可重构交换芯片架构，并针对芯片关键技术模块进行了流片测试和验证，为多模态网络的实施应用提供了硬件基础。1 基于多模态网络交换芯片的网络系统形态基于全维可重构网络交换芯片的多模态网络系统形态如图 1 所示，其可划分为 3 层2，分别为服务层、控制层和数据层。其中服务层根据用专题：多模态网络 24 户需求提供智能化网络资源调度、业务承载、状态监视等功能；控制层主要针对异构网络需求进行多模态表项管理、寻址与路由、数

13、据包过滤、网络重构等；数据层则为多模态网络提供异构兼容、全维可重配置、内生安全式的基础功能支撑。作为多模态网络数据层面的具体实现，本文着重研究了全维可重构交换芯片的体系架构。通过对芯片内部嵌入式可编程阵列逻辑（embeded field programmable gate array，eFPGA）电路的重构配置实现了多样化端口、协议解析引擎的细粒度重构，通过 P4 等可编程技术实现了多模态网络的异构路由转发表项管理、流表查找、数据处理等功能的粗粒度重构。同时提出了一种改进的查找算法，在与传统查找算法查找速度相同的情况下，降低了算法的资源占用，节约了芯片成本，为多模态网络性能的进一步提升奠定了基

14、础。2 多模态网络芯片架构不同于传统的 IP 网络交换芯片，多模态网络交换芯片在协议解析引擎、路由寻址、表项管理的异构兼容方面提出了更多的要求，因此传统的网络交换芯片已不再适用。以美国博通公司的tomahawk4 系列芯片为例，传统以太网交换芯片架构主要包括多个可配置的多速率以太网 MAC、多组报文处理流水线以及一个共享缓存架构的队列管理和交换逻辑5。tomahawk4 交换芯片架构如图 2 所示。以太网交换芯片通常仅能在以太网协议框架内支持多种速率的以太网标准数据传输，并不适用于其他网络协议数据。在软件定义网络图 1 基于全维可重构网络交换芯片的多模态网络系统形态图 2 tomahaw

15、k4 交换芯片架构 25 电信科学 2023 年第 6 期（software defined network，SDN）概念普及之前，以太网交换芯片都以专用集成电路（application specific integrated circuit，ASIC）实现的固化功能模式为主6。近 10 年来，随着可编程交换技术的出现，部分高端以太网交换芯片升级了可编程的报文转发交换功能，如 Intel 公司的 tofino 系列芯片7-8、Marvell 公司的 teralynx 系列芯片9等。但此类交换芯片仅支持单一网络路由转发的可编程，对多模异构的网络业务则无能为力。多模态网络交换芯片的核心在于具备全

16、维软件可定义的数据交换处理能力。“全维”的多模态交换芯片不仅兼容各种物理层、链路层及更高层次的以太网协议，更具备支持自定义协议和多种其他网络协议的能力。因此，现有的多模态网络物理实现以 FPGA 为主。但 FPGA 实现成本高昂、主频和资源受限，并不适用于大规模网络。以具有 N 个端口的 FPGA 形态的交换芯片为例：随着 N 增大，端口逻辑消耗的资源呈线性增长，核心交换逻辑则会随着 N 增大呈指数级增长，进而在逻辑资源紧张的情况下导致布线长度和拥塞时延的增加，致使 FPGA 能够达到的主频快速降低。因此完全的 FPGA 方案并不适用于大规模多模态网络交换芯片的实现。基于上述研究，本文采用了一

17、种 eFPGA+可重构交换引擎的架构设计多模态网络芯片，多模态网络芯片架构如图 3 所示。整体布局由物理媒介适配层+物理编码子层（PMA+PCS）、eFPGA层和粗粒度可重构阵列（coarse grained reconfi-gurable array，CGRA）层构成。该架构于 PMA和 PCS 层固化了高速 SEREDES IP，在 28 nm 工艺下可以实现 12.5 Gbit/s 以上的数据传输能力，能够支持 1 Gbit/s 或 10 Gbit/s 以太网协议、PCIE等串行协议，或者原生的支持 8.5 Gbit/s fabric channel 协议；通过 eFPGA，支持端口级、

18、比特级的模态重构，在逻辑资源足够的情况下，能够支持用户任意的自定义协议；芯片的内核 CGRA 部分则由粗粒度可重构的网络处理单元（process element，PE）组成，支持以太网协议以及用户自定义协议的解析，支持多种模态的切换与共存，支持多交换平面的生成等。2.1 eFPGA IP 核的设计与验证多模态网络中包含大量的协议兼容操作，需要支持多种互联协议，且具备用户自定义协议等私有协议的扩展能力。然而在多模态网络的传输协议方面，以太网和 Serial I/O 等其他专用协议，均需要对数据进行编码组帧、串并转换，而后在图 3 多模态网络芯片架构专题：多模态网络 26 高速传输介质上进行

19、串行传输。因此，为满足多模态网络交换芯片大量的比特级操作需求，本设计采用 eFPGA 实现了交换芯片 I/O 端口协议的细粒度可重构。eFPGA 中主要包含查找表（look up table，LUT）、寄存器（register，REG）、块存储器（block RAM，BRAM）和时钟管理等功能模块。IP 中可编程逻辑块（configurable logic block，CLB）资源为1 650个，每个CLB含有8个LUT6，LUT6 数量为 13 200 个，根据等效门数比例关系（1:1.6），可计算得出等效 LUT4 数量为 21 120 个。eFPGA 结构示意图如图4 所示。该 eFPG

20、A IP 经过联电28 nm 工艺的多项目晶圆方式流片验证，面积、功耗、主频均达到了设计指标要求，可以应用在大规模网络交换芯片中，eFPGA 版图如图 5 所示。图 4 eFPGA 结构示意图图 5 eFPGA 版图 eFPGA 紧邻 I/O，需要更高的主频和更复杂的时钟网络，以应对各种协议实现的开销。以10 Gbit/s 以太网为例，其 MAC 的工作主频至少为156.25 MHz。因此，eFPGA 设计中针对主频进行了相应优化，使其可以在 12.5 Gbit/s 的高速SERDES 工作范围内，支持多种物理层链路层协议实现。10 Gbit/s MAC 协议在 eFPGA 中的资源占用情况

21、见表 1。10 Gbit/s MAC 在 eFPGA 上布局后资源分布如图 6 所示。表 1 10 Gbit/s MAC 协议在 eFPGA 中的资源占用情况协议名称 LUT6（利用率）REG（利用率）BRAM（利用率）10 Gbit/s 以太网 MAC 892（3.4%）428（0.8%）0（0%）图 6 10 Gbit/s MAC 在 eFPGA 上布局后资源分布 2.2 网络处理单元 PE 设计多模态网络的数据平面采用多种异构的执行路径1-3，如 ASIC、FPGA、网络处理器等，通过不同的资源配置组合实现不同模态下的数据处理需求。传统以太网交换芯片通过报文解析引擎、队列管理、查找模

22、块和交换模块等多个固定的功能模块解决相关问题。多模态网络则需要根据网络需求对整个芯片中的资源进行灵活配置，以解决异构网络的通信需求。从报文解析模块、路由查找模块和交换模块的整体特征来看，网络处理通常以存储器为中心进行设计。报文解析时，通27 电信科学 2023 年第 6 期过对报文关键字段的三态内容寻址存储器（ternary content addressable memory，TCAM）表、哈希表等表项的查找获得相应的动作；报文的队列管理，以指针、存储器的读写操作为主；流分类时，通常以大规模哈希表、TCAM 表、向量表等作为流分类器的载体。因此，不同于人工智能、信号处理等以计算单元为核心的

23、应用，多模态网络的网络处理单元以存储单元为核心。据此，本文实现了一种存算一体的基本可重构单元 PE，其主要包括队列管理单元、交换路由单元、预解析单元、查找单元、比较/执行单元以及配置管理单元等部分，PE 架构如图 7 所示，各单元具体介绍如下。队列管理单元：以 1 个 256128 的静态随机存取存储器（static random-access memory，SRAM）模块为基础，实现报文数据存储或者队列存储。交换路由单元（CROSSBAR）：实现全互联模式（full mesh）拓扑，每个 PE 支持上下左右 4 个方向的连接和本地缓存的数据收发连接，可以支持包头或整包数据的传输，在芯片内部采

24、用“虫洞”方式传输数据。在每个 PE 中实现交换路由单元，既可以用来支持交换网的实现，也可以在报文解析时实现各级之间的环回路径。预解析单元：在多模态网络中，有多重类型数据输入预解析单元，如包头+meta 数据、报文payload 部分、查找请求或者查找结果等。预解析图 7 PE 架构专题：多模态网络 28 单元根据数据分段的标识对输入数据进行区分，判断数据为包头或数据字段，并根据配置进行数据提取和存储等操作。查找单元：由 4 个 32256 的前级 SRAM 模块、译码模块、4 个 6464 的后级 SRAM 模块构成。查找算法可采用基于 SRAM 的位矢量算法或递归流分类算法实现。查找单

25、元通过匹配前级SRAM 中存储的包分类器数据，输出每个域匹配到的规则索引，经译码模块处理后得到所有域共同命中的规则索引，并从后级 SARM 中获得命中的 TCAM 条目，最终至比较模块以优先级判定最终命中的条目，从而按照条目内容进行下一步动作。查找引擎不仅能实现路由场景下的网络路由、转发、流分类功能，还能实现对报文规则、优先级、action、队列指针等的存储，也可以通过 PE间的环回路径实现如多级 trie 算法的复杂查找和指针操作等。比较/执行单元：根据 action 修改包头或者报文内容。不同于 tofino 中 MAU 单元的超长指令集架构8，单个 PE 中仅由执行单元根据指令由执行单元

26、实现简单报文处理。复杂的网络报文处理操作则通过多级 PE 实现。比较/执行单元也可用来实现队列指针等方面的处理。配置管理单元：全局配置寄存器，可根据寄存器设定控制各模块功能，并实现多种模式的可重构计算。配置管理单元连接至全芯片的 SOC 配置总线（图 7 中未示出），通过 CPU 或外部控制器进行动态重构配置。典型的可编程交换芯片如tofino中的MAU单元8，以 32 位宽的 TCAM 作为每个 match-action的匹配引擎，面积和功耗都较大，且只能用作查找匹配操作，并不满足多模态网络的应用需求。多个文献证明10-12，采用基于 SRAM+算法的模式替代 TCAM，能够在面积、功耗、查

27、找速度综合考虑下取得较好的效果。本文所设计的 PE 单元中，SRAM 在实现查找、分类算法之外，还可灵活配置为队列指针、统计信息等不同的功能模块，128 位 SRAM 还可用于数据存储、吸收查找延迟或队列缓存，充分适应多模态网络的多样化配置需求。PE 中加入交换路由单元后，可以实现传统match-action 流水线不能实现的一些操作，两种不同灵活配置的流水线如图 8 所示，有如图 8（a）所示的灵活的环回路径（tofino 等芯片只能固定从流水线头部输入环回路径），还有图 8（b）所示的快速分流路径（不同模态的数据分流至不同模态的处理流水线）。图 8 两种不同灵活配置的流水线 2.3 基于

28、SRAM 的查找匹配算法多模态网络交换芯片中，PE 将作为通用处理内核使用。因此将 TCAM 用 SRAM 代替，并使SRAM 具有较多的用途，是多模态网络中多域匹配查找算法的设计目标。采用 SRAM 实现的软/硬件查找算法具有较多的实现方式。文献13中提出的递归流分类（recursive flow classification，RFC）算法，文献14中提出的增强递归流（enhanced RFC，ERFC）算法，以及基于位矢量（bit vector，BV）的聚合位矢量（aggregated bit vector，ABV）算法、聚合折叠位矢量（aggregated and folded bit

29、 vector，AFBV）算法15等，都具备快速的查找能力和较好的硬件实现。但上述算法都会由于规则库的增大而占用较高的内存，大大提高交换芯片的成本。因此，在相同的芯片制造29 电信科学 2023 年第 6 期工艺下，查找算法的内存占用面积影响巨大。考虑功耗带来的退耦电容和布线因素下，同等容量的 TCAM 面积约为 SRAM 的 810 倍、功耗约为SRAM 的 10 倍以上，如果能够采用小于 8 倍TCAM 容量的 SRAM 实现同一套规则，则认为基于 SRAM 的算法面积更小、成本更低。基于以上的思想，本文提出了一种基于 SRAM 的改进AFBV（improved AFBV，IAFBV）算

30、法，以达到最优化的目的，算法伪代码见算法 1。算法 1 基于 SRAM 的 IAFBV 查找算法伪代码输入数据包 Packet，规则库 R=R1,R2,.,RN，规则库 R 包含 D 个域输出数据包匹配规则 Rule for i=1 to D/按照 D 个域，为每个域分别建立基于规则库 R 的 BV 向量 Wi=Width(Di)，Num(BV)=2Wi/第 i 个域长度为 Wi，对 Di域全部展开，共有 2Wi个 BV 向量 for j=1 to 2Wi/对规则库中 Di域，第 j 个取值建立 BV 数据向量 for k=1 to N if(2jCRik)BVijk=1 else B

31、Vijk=0 end if end for FBVij=f(BVij)/将 Di域的 BV 向量BVij变换为 mn=N 的矩阵，称之为 FBVij IAFBVij=Aggregation(FBVij)/对FBVij分别在行、列两方向上聚合，形成新的 IAFBV 向量 end for end for/基于 IAFBV 算法的前级过滤器建立完毕，存储于 PE 的前级 SRAM input(P)/输入待查找包 Packet P IAFBVi=Search(P),i=1,2,.,D/得到P 包在N 个域内对应的 IAFBV 向量 IAFBV_AND=AND(IAFBVi)/将 N 个域的IAFBVi

32、向量按位与，得到 IAFBV_AND 向量 Q=Num(IAFBV_ANDk=1)/计算命中的规则数量 if(Q=0）Rule=0/未命中 else if(Q=1)Rule=Rk/IAFBV_AND为 1 的 bit 对应的规则命中 else Rule=Compare(Rk(Q)/IAFBV_AND 多条规则命中，后级比较引擎判定优先级 end if BV 算法在较小规则集下的内存效率较高，ABV 算法、AFBV 算法则针对 BV 向量的稀疏性采用聚合、折叠的方法减少存储器访问次数。但是 ABV 算法、AFBV 算法仍然需要存储完整的 BV向量以找到最终的匹配结果，算法存储代价仍然偏大。以 3

33、2256 的 TCAM 条目为例，若分成 4 个域进行匹配，需要消耗共 256 KB（4256256）的SRAM空间，超过了相应功能TCAM面积的10倍。Stride BV16相应的存储代价也较高，28 KB 的规则集占用了超过 100 MB 的存储空间。芯片制造中 SRAM IP 成本高昂，以上查找算法中大量SRAM 的使用，将大大提高 FPGA 或 ASIC 形态交换芯片的成本。对 ABV 算法、RFC 算法等一系列匹配算法进行分析，可以发现，基于内存的多域多级算法都可以视为一种过滤器。针对 PE 的内部实现，本文设计一种新的 BV 向量折叠方式，在方便硬件实现的同时，也具备了快速定位匹配

34、规则条目的功能。其次，为了减小片内 SRAM 的使用，BV向量仅在生成IAFBV向量过程中作为中间变量使用，不用实施存储，仅在前级 SRAM 中存储IAFBV 向量，后级 SRAM 中按照优先级顺序存专题：多模态网络 30 储 TCAM 条目即可。TCAM 条目中每一位数据需要用 2 个 SRAM 位存储，分别代表掩码和数据。最后，采用划分多块存储器的方式存储规则数据和相应的 action 数据。当前级过滤器产生多个可能位置的读请求时，可以在一周期内获得多个规则数据，使芯片可以流水线工作，达到较高的吞吐率。以域长 32 位、256 条规则的规则库为例，算法实现方法如下。（1）对于 32 位的

35、规则集，按 8 位划分为 4 个域，分别对每个域展开，生成 4256256 的 BV 向量。（2）对于每个 256 位的 BV 向量，可以看作一个 1616 的矩阵，按行列分别生成双向折叠的向量 IAFBV，构成 425632 的 IAFBV 查找表，作为前级过滤器。篇幅所限，16 位 BV 向量的双向折叠方法如图 9 所示。图 9 16 位 BV 向量的双向折叠方法（3）存储对应的 TCAM 条目至 4 块后级6464 bit 的 SRAM，以备命中多个规则时所用。基于SRAM的IAFBV查找策略如图10所示，具体流程如下。（1）并行查找 4 块 32256 的前级 SRAM，获得对应的 I

36、AFBV 向量。（2）对 4 个域的 IAFBV 向量采取“与”操作，获得可能命中的规则的位置。4 个域查找命中的IAFBV 向量与操作如图 11 所示，查找命中的 4 个IAFBV 向量最终分别指向了对应规则的“列”和“行”，计算可得 0+31=3，即命中规则 3。向量“与”结果可能会出现单个或者多个 1 的情况，代表可能有多个规则同时命中，通过译码逻辑可以并行输出 14 个地址，读取对应的 TCAM 条目。如果“与”操作结果为 0，代表没有规则命中。（3）对从后级 SRAM 中获得的 TCAM 规则继续进行比较判决，最后获得匹配的规则条目，并执行所命中规则的动作。由于充分利用了硬件的并行性

37、和流水化操作，本算法具备O(1)时间的查找性能；在更新性能方面，本算法等同于 BV 算法，具备 O(N)时间的插入、删除、更新速度。基于 PE 的 IAFBV 查找相对于 ABV算法或者 RFC 算法等算法，具有空间占用小、速度快、误查找少、效率高的优点。基于 PE 结构的32256 规则库的多种算法实现代价见表 2。IAFBV在相同查找速度下，比 ABV 算法和 AFBV 算法需要更少的存储容量，占用更少的芯片面积。图 10 基于 SRAM 的 IAFBV 查找策略 31 电信科学 2023 年第 6 期图 11 4 个域查找命中的 IAFBV 向量与操作表 2 基于PE 结构的3225

38、6 规则库的多种算法实现代价算法存储容量/bit 面积/mm2 ABV 294 912 0.105 636 AFBV 294 912 0.105 636 IAFBV 49 512 0.020 502 2.4 PE 的实现与性能评估基于台积电 28 nm 工艺对 PE 进行实现，PE单元综合后性能指标见表 3。表 3 PE 单元综合后性能指标指标性能面积 0.102 mm2 主频 500 MHz 典型功耗 34 mW Core 电压 0.9 V 总线宽度 128 bit 2.5 全维可重构多模态交换芯片的编程当前，P4 已经成为可编程网络处理的主流语言。P4 语言能较好地描述网络报

39、文的处理流程，且具备大量的开发实例。本芯片 CGRA 部分的粗粒度重构也采用 P4 编程，并基于 P4 的开源前端解析框架，实现了对芯片报文处理部分的配置。针对底层网络协议端口配置等细粒度重构，仍需要通过 Verilog 语言对 eFPGA 进行编程，并通过综合工具生成相应的配置文件。3 结束语本文提出了一种全维可定义的多模态网络交换芯片架构，能够以统一的硬件架构兼容多种网络协议，既适用于多模态专用的网络交换芯片，也适用于传统以太网以及其他网络交换协议。此外，针对多模态网络交换芯片中的 eFPGA和可重构 PE，分别给出了具体的实现方式和相关工艺下的性能分析。最后，提出了一种 IAFBV算法

40、，以双向折叠的聚合向量替代 BV 算法中的BV 向量，在相同查找时延的基础上减少了查找算法所占用的存储资源，使多模态网络交换芯片更加经济实用。参考文献：1 邬江兴.论网络技术体制发展范式的变革:网络之网络J.电信科学,2022,38(6):3-12.WU J X.Revolution of the development paradigm of network technology systemnetwork of networksJ.Telecommunica-tions Science,2022,38(6):3-12.2 胡宇翔,伊鹏,孙鹏浩,等.全维可定义的多模态智慧网络体系研究J.通信

41、学报,2019,40(8):1-12.HU Y X,YI P,SUN P H,et al.Research on the full-dimensional defined polymorphic smart networkJ.Journal on Communica-tions,2019,40(8):1-12.3 王劲林,井丽南,陈晓,等.面向多模态网络的可编程数据处理方法及系统设计J.通信学报,2022,43(4):14-25.WANG J L,JING L N,CHEN X,et al.Programmable data processing method and system desig

42、n for polymorphic net-workJ.Journal on Communications,2022,43(4):14-25.4 胡宇翔,崔子熙,李子勇,等.基于领域专用软硬件协同的多模态网络环境构造技术J.通信学报,2022,43(4):3-13.HU Y X,CUI Z X,LI Z Y,et al.Construction technologies of polymorphic network environment based on codesign of do-main-specific software/hardwareJ.Journal on Communica-

43、tions,2022,43(4):3-13.5 刘丹宁,田果,韩士良.路由与交换技术M.北京:人民邮电出版社,2017.LIU D N,TIAN G,HAN S L.Technology of routing and switchingM.Beijing:Posts&Telecom Press,2017.6 邬江兴,兰巨龙,程东年.新型网络体系结构M.北京:人民邮电出版社,2014.WU J X,LAN J L,CHENG D N.Novel network architec-tureM.Beijing:Posts&Telecom Press,2014.7 杭子钧.可编程数据平面关键应用技术研

44、究D.长沙:国防科技大学,2019.专题：多模态网络 32 HANG Z J.Research on key application technology of pro-grammable data planeD.Changsha:National University of Defense Technology,2019.8 KUNZE I,GUNZ M,SAAM D,et al.Tofino+P4:a strong compound for AQM on high-speed networks?C/Proceedings of 2021 IFIP/IEEE International Sy

45、mposium on Integrated Network Management(IM).Piscataway:IEEE Press,2021:72-80.9 HUI P.Lumentum and innovium successfully validate intero-perability of 400G FR4 optics with TERALYNX switchJ.Fi-ber Optics&Communications,2018(12):41.10 JI L,LIU H,SOLLINS K.Scalable packet classification using bit vecto

46、r aggregating and foldingJ.MIT LCS Technical Memo,2003.11 PAO D,LU Z Y,POON Y H.IP address lookup using bit-shuffled trieJ.Computer Communications,2014(47):51-64.12 ERDEM O,CARUS A,LE H.Large-scale SRAM-based IP lookup architectures using compact trie search structuresJ.Computers&Electrical Engineer

47、ing,2014,40(4):1186-1198.13 GUPTA P,MCKEOWN N.Algorithms for packet classifica-tionJ.IEEE Network,2001,15(2):24-32.14 GONG X Y,WANG W D,CHENG S D.ERFC:an enhanced recursive flow classification algorithmJ.Journal of Computer Science and Technology,2010,25(5):958-969.15 LI J,LIU H Y,SOLLINS K.AfbvJ.AC

48、M SIGCOMM Com-puter Communication Review,2002,32(3):24.16 GANEGEDARA T,JIANG W R,PRASANNA V K.A scalable and modular architecture for high-performance packet classifi-cationJ.IEEE Transactions on Parallel and Distributed Sys-tems,2014,25(5):1135-1144.作者简介李彧（1979），男，清华大学集成电路学院博士生、网络通信与安全紫金山实验室高级工程师，主要研究方向为网络空间安全、软件定义互连、集成电路设计。李召召（1989），男，博士，网络通信与安全紫金山实验室工程师，主要研究方向为网络空间安全、软件定义互连、集成电路设计。吕平（1977），女，博士，中国人民解放军战略支援部队信息工程大学信息技术研究所副研究员，主要研究方向为体系架构设计、软件定义互连。刘勤让（1975），男，博士，中国人民解放军战略支援部队信息工程大学信息技术研究所研究员、博士生导师，主要研究方向为网络空间安全、软件定义互连、集成电路设计。

展开阅读全文