1、集成芯片前沿技术科学基础专家组中国计算机学会集成电路专业委员会中国计算机学会容错计算专业委员会2023 年 10 月2023集成芯片与芯粒技术白皮书在本白皮书的编写过程中,国内多位集成芯片和芯粒领域专家参与了讨论和编写,他们的专业知识和科学洞察对于白皮书的形成和定稿起到了重要作用。在此,对参与本白皮书编写工作的所有同仁表达由衷感谢。说 明:本白皮书基于“集成芯片前沿技术科学基础”专家组组织的多次讨论内容,由秘书组全体成员共同整理和编写而成。在编写过程中,为了更全面地呈现本领域相关技术,编写组增加了部分技术调研内容和趋势判断分析。集成芯片作为一个新兴领域,其涉及的概念和技术仍处于不断发展之中,我
2、们也意识到本白皮书中可能存在内容阐述不够充分、不够系统的问题,也诚恳欢迎提出宝贵建议。联系人:韩银和(中国科学院计算技术研究所),秘书组组长邮 箱:2023集成芯片与芯粒技术白皮书致 谢目 录Contents 01 前言 011.1 背景 1.2 本白皮书的意义 02 集成芯片的内涵 03 2.1 集成芯片与芯粒的定义 2.2 集成芯片是集成电路性能提升的第三条路径 2.3 集成芯片将引导集成电路设计的新范式 2.4 集成芯片的现状和趋势 03 集成芯片的架构与电路设计 093.1 从集成芯片到芯粒:分解与组合的难题3.2 芯粒间互连网络 3.3 多芯粒系统的存储架构 3.4 芯粒互连的接口协
3、议 3.5 芯粒间的高速接口电路 3.6 集成芯片大功率供电电路 04 集成芯片 EDA 和多物理场仿真 194.1 集成芯片对自动化设计方法与 EDA 工具的新需求 4.2 芯粒间互连线的电磁场仿真与版图自动化4.3 芯粒尺度的电热力多场耦合仿真 4.4 集成芯片的可测性和测试 05 集成芯片的工艺原理 245.1 RDL/硅基板(INTERPOSER)制造工艺 5.2 高密度凸点键合和集成工艺 5.3 基于半导体精密制造的散热工艺 06 白皮书观点:集成芯片的挑战与机遇 286.1 从堆叠法到构造法的集成芯片,是符合我国国情和产业现状的一条现实发展道路 6.2 集成芯片的三大科学问题与十大
4、技术难题 07 参考文献 3101 02 03 04 06 07 0911 13 15 16 17 19 2021 2224 25 26 28 292023集成芯片与芯粒技术白皮书1.1 背景集成电路是现代信息技术的产业核心和基础。随着信息技术的不断发展,人工智能、自动驾驶、云计算等应用通常要分析和处理海量数据,这对计算装置的算力提出了全新的要求。例如,在人工智能领域,人工智能大模型的算力需求在以每 3-4 个月翻倍的速度增长。然而,集成电路设计遇到“功耗墙”、“存储墙”、“面积墙”,传统集成电路尺寸微缩的技术途径难以推动算力持续增长。另一方面,在“万物智能”和“万物互联”的背景下,产业应用呈
5、现出“碎片化”特点,需要探索新的芯片与系统的设计方法学,满足应用对芯片敏捷设计的要求。在这样的背景下,需要一种新的技术途径,可以进一步突破芯片算力极限、降低芯片设计复杂度。集成芯片是芯粒级半导体制造集成技术,通过半导体技术将若干芯粒集成在一起,形成新的高性能、功能丰富的芯片。通过芯粒的复用和组合,可快速满足多种多样的应用需求,带来芯片设计、制造、下游需求等全产业链的变革。对于我国而言,集成芯片技术对于集成电路产业具有更加重要意义。由于我国在集成电路产业的一些先进装备、材料、EDA 以及成套工艺等方面被限制,导致我国短期内难以持续发展尺寸微缩的技术路线。集成芯片技术提供了一条利用自主集成电路工艺
6、研制跨越 1-2 个工艺节点性能的高端芯片技术路线。同时,我国集成电路产业具有庞大市场规模优势,基于现有工艺制程发展集成芯片技术可以满足中短期的基本需求,并可借助大规模的市场需求刺激集成芯片技术的快速进步,走出我国集成电路产业发展特色,并带动尺寸微缩路径和新原理器件路径的共同发展。本技术白皮书邀请了集成芯片与芯粒领域的优势研究力量,详实分析了集成芯片的技术途径和国内外发展现状,总结了我国在集成芯片领域的基础优势和面临的挑战,希望能够为技术规划、技术攻关、产业政策等提供参考。在撰写过程中,有很多未尽之处和编委们的知识所限,也请批评指正。2023集成芯片与芯粒技术白皮书PART ONE01前 言
7、232023集成芯片与芯粒技术白皮书1.2 本白皮书意义本白皮书阐述了集成芯片与芯粒的内涵、集成芯片架构与电路设计技术、集成芯片 EDA 和多物理场仿真技术、集成芯片的工艺原理,最后介绍了集成芯片的设计挑战与机遇。具体结构如下:第一章介绍了发展集成芯片和芯粒的重要意义以及本技术白皮书的内容。第二章概述了集成芯片与芯粒的内涵。第三章分析了集成芯片架构与电路设计技术,详细阐述集成芯片设计方法、多芯粒并行架构、芯粒互连接口协议以及芯粒间高速接口电路等关键技术。第四章分析了集成芯片 EDA 和多物理场仿真的相关技术,包括集成芯片布局布线 EDA、芯粒尺度的电-热-力多场耦合仿真以及集成芯片的可测性与测
8、试技术。第五章分析了集成芯片的工艺原理,包括 RDL/硅基板(Interposer)制造工艺、高密度凸点键合和集成工艺、基于半导体精密制造的散热工艺等。第六章讨论了集成芯片的设计挑战与机遇,为未来集成芯片的发展提供参考路径。在高性能芯片发展受制的背景下,从我国的产业现状出发,发展集成芯片这条不单纯依赖尺寸微缩的新路径,是我国集成电路领域的重要的发展方向。本白皮书希望学术界和产业界更广泛而深入地了解集成芯片和芯粒技术,共同推进集成芯片技术蓬勃发展。2.1 集成芯片与芯粒的定义传统集成电路是通过将大量晶体管集成制造在一个硅衬底的二维平面上形成的芯片。集成芯片是指先将晶体管集成制造为特定功能的芯粒(
9、Chiplet),再按照应用需求将芯粒通过半导体技术集成制造为芯片。其中,芯粒(Chiplet)是指预先制造好、具有特定功能、可组合集成的晶片(Die),也有称为“小芯片”,其功能可包括通用处理器、存储器、图形处理器、加密引擎、网络接口等1-10。硅基板(Silicon Interposer),是指在集成芯片中位于芯粒和封装基板(Substrate)之间连接多个芯粒且基于硅工艺制造的载体,也有称为“硅转接板”、“中介层”。硅基板通常包含多层、高密度互连线网络、硅通孔(Through Silicon Via,TSV)和微凸点(Micro Bump),保证了电源、数据信号在芯粒之间和封装内外的传输
10、,而且可以集成电容、电感等无源元件和晶体管等有源电路。集成芯片的概念源于 2010 年台积电的蒋尚义博士提出的“先进封装”概念,他提出可以通过半导体互连技术连接两颗芯片,从而解决单芯片制造的面积上限,解决板级连接的带宽极限问题。而后,时任美国美满电子公司总裁的周秀文博士(Sehat Sutrardja)将“模块化”设计思想与方法进一步融入。经过多年学术界和企业的发展,“先进封装”已无法涵盖多芯粒集成后所形成的新系统的科学与技术,于是在 2022 年自然科学基金委召开的双清论坛上,孙凝晖院士、刘明院士以及蒋尚义先生等我国学者在凝练相关基础技术后提出“集成芯片(Integrated Chips)”
11、这一概念替代“先进封装”、“芯粒”等称谓,用于表达其在体系结构、设计方法学、数理基础理论、工程材料制造等领域中更丰富的含义。集成芯片设计对比传统的集成电路单芯片设计可实现如下突破:首先,它可实现更大的芯片尺寸,突破目前的制造面积局限,推动芯片集成度和算力持续提升;其次,它通过引入半导体制造工艺技术,突破传统封装的互连带宽、封装瓶颈;最后,它通过芯粒级的 IP 复用/芯粒预制组合,突破规模爆炸下的设计周期制约,实现芯片的敏捷设计。除了上述技术突破外,集成芯片还能获得成本上的收益。传统的单一芯片制造尺寸越大,制造过01前 言图 2.1 集成芯片与芯粒的定义重大突破突破单芯片光刻面积瓶颈突破封装连接
12、极限突破设计周期制约集成芯片芯粒/chiplet硅基板集成2023集成芯片与芯粒技术白皮书PART TWO02集成芯片的内涵 452023集成芯片与芯粒技术白皮书02集成芯片的内涵程中的缺陷率和成本越高。而芯粒技术允许将一个大尺寸的芯片拆分为多个小尺寸的芯粒,每个芯粒独立进行制造。由于芯粒尺寸相对较小,可以更好地控制制造过程,减少制造缺陷率和成本。另外,不同芯粒可用不同的工艺制程完成,突破单一工艺的局限。例如,可以将传统的电子芯片与光电子器件集成在同一芯片上,实现光电混合芯片。这种光电混合芯片结合了电子和光子的优势,可以在高速数据传输、光通信、光计算等领域发挥重要作用。上述技术也能够实现更多种
13、类的新型芯片。例如,集成传感器、处理器、无线通信模块和人工智能加速器等多种功能,可以构建出具备感知-存储-计算-通信-控制一体的智能芯片。在集成芯片发展过程中,有一些并行发展的概念。集成芯片和封装、微系统主要区别在于设计方法与制造技术。集成芯片是自上而下的构造设计方法,芯粒的功能是由应用分解得到的,而不是基于现有模组、通过堆叠设计方法实现性能和功能的扩展。集成芯片基于半导体制造技术实现集成,无论连接和延迟,都接近于芯片而不是 PCB 或者有机基板,因此最早做集成芯片工作的是台积电等芯片制造厂商。另外,我国科学家也提出了晶上系统 13 和集成系统 14 等概念,在技术理念上与集成芯片有很多类似之
14、处,相比而言,集成芯片更侧重于综合性和面向芯片形态。2.2 集成芯片是集成电路性能提升的三条路径从技术上看,目前主要有三条提升芯片性能的发展路径,如图 2.2 所示,三条技术路径从不同维度共同推动集成电路的发展。第一条路径是通过将晶体管的尺寸不断微缩实现集成密度和性能的指数式提升,也被称为遵循“摩尔定律”的发展路径。1965 年戈登摩尔指出,集成电路的晶体管数目大约每 18-24 个月增加一倍。摩尔定律、登纳德缩放定律、以及同时期的体系架构创新,包括指令级并行、多核架构等,共同推动了芯片性能随工艺尺寸微缩的指数式提升。随着集成电路工艺进入 5nm 以下,尺寸微缩接近物理极限,单纯依靠缩小晶体管
15、尺寸提高芯片性能的空间变小,同时带来了成本与复杂度的快速提高。芯片散热能力、传输带宽、制造良率等多种因素共同影响,形成了芯片功耗墙、存储墙、面积墙等瓶颈,限制了单颗芯片的性能提升。可以说,摩尔定律的放缓已成为国际和我国集成电路发展的重大挑战。第二条路径是通过发展新原理器件,研发新材料,实现单个晶体管器件的性能提升。随着铁电存储器 FeRAM、阻变存储器 RRAM、磁存储器 MRAM、相变存储器 PCM、铁电晶体管 FeFET 等多种新原理器件的发展,结合宽禁带半导体、二维材料、碳纳米管等新材料的研究,探索超越传统CMOS 器件性能/能效的新型器件和突破冯诺依曼架构的新型计算范式成为一个重要的研
16、究领域。然而,新原理器件是面向未来的芯片性能提升发展路径,从科学研究到实际应用的周期通常较长,难以在短时间内解决当前高性能集成电路芯片受限的挑战。随着技术体系和产业生态逐渐构建,集成芯片将发展为芯片性能提升的第三条主路径。芯片的性能主要取决于芯片集成的晶体管规模,而晶体管规模又取决于芯片制造面积。集成芯片路径能够有效突破芯片制造的面积墙瓶颈。芯片的“面积墙”,是指单颗芯片的制造面积受限于光刻机可处理的极限尺寸和良率。一方面,最先进的高性能芯片(如NVIDIA H100 GPU等)面积正在接近光刻面积极限。同时,单芯片良率随面积增长快速下降,在高成本的先进工艺下,该问题更加具有挑战性。集成芯片图
17、 2.2 提升芯片性能的三条路径2023集成芯片与芯粒技术白皮书图 2.4 提升芯片性能的第二条路径:新原理器件图 2.3 提升芯片性能的第一条路径:摩尔定律CFETFeFETReRAMFeRAMPCM二维材料FinFETGAAEUV高K材料碳纳米管MRAM第一条路径:尺寸微缩2.5D集成大芯片晶圆级集成光电集成3D集成第二条路径:新器件新材料672023集成芯片与芯粒技术白皮书传感器芯片模块模块复用方法计算芯片模块执行器芯片模块应用1 芯片应用2 芯片应用3 芯片应用N 芯片2.3 集成芯片将引导集成电路设计的新范式系统工程学中,即使元器件性能相对落后,通过复杂系统跨学科优化,也可以实现高性
18、能系统,或者反过来“如果一个一个局部构件彼此不协调,那么,即使这些构件的设计和制造从局部看是很先进的,但这部机器的总体性能还是不合格的”。集成芯片采用系统工程学的原理,发展自上而下构造法的集成电路设计新范式。自上而下意味着芯片结构适配应用特征,自上而下采用“分解-组合-集成”的方法。根据应用特征,抽象分解成若干标准的芯粒预制件,将众多芯粒预制件,按照结构组合成不同应用领域的芯片,将芯片制造分解为芯粒预制件的制造和多芯粒集成。下例展示了处理器芯片采用集成芯片范式后的新流程:集成芯片将带来基于芯粒复用的芯片敏捷设计方法。未来,芯片的发展需要应对物端计算系统碎片化,多样性的挑战 11;同时,每个芯片
19、对应的市场都较小,难以实现如 PC、手机芯片大的出货量,这个矛盾现象也被称为“昆虫纲悖论”系统个性化和通用性的矛盾12。随着芯片制程的不断微缩,基于越先进的工艺制程来设计物端芯片面临的复杂度和设计成本将进一步加剧上述问题。现有的物端芯片的设计方法,是将大量第三方 IP 与专有 IP 整合形成 SoC,并在采用同一个制程工艺进行制造。典型的 IP 包括 CPU、模拟传感器、存储器、加速器、接口驱动等。上述在一个单芯片上集成的方案在设计复杂度和商业成本上难以解决昆虫纲悖论。集成芯片技术为解决昆虫纲悖论提供了一条新思路。除了具有核心优势的专用“芯粒”外,集成芯片设计厂商可以选择第三方的“芯粒”预制件
20、形式提供的 IP,通过半导体集成工艺将芯粒在一个封装体内相连接。上述方案能够降低芯片设计难度,提升灵活性和效率,适应各种碎片化应用场景。商业上,上述方案仅对芯粒预制件的出货量提出需求,如 CPU,蓝牙/Wifi 模组等核心模块,可以大大降低商业成本,并规避单一芯片厂商可能造成的垄断风险。集成芯片为碎片化的万物智能、万物互连的人机物三元融合时代提供一种新的设计范式。最早的集成芯片原型是由台积电与美国赛灵思(Xilinx)公司共同完成的一款大容量 FPGA 芯片V7200T,它将四个大规模的 FPGA 芯粒在一块硅基板(Interposer)上连接在一起,形成一个超过2000 个可编程逻辑门的系统
21、。借助这一芯片的开发,台积电也完成了基于半导体工艺的芯片互连封装技术,称为 Chip-on-Wafer-on-Substrate(CoWoS)。目前这一技术作为 2.5D 集成芯片的代表性工艺,广泛的应用于高性能处理器芯片产品中。第一个采用 CoWoS 技术的处理器集成芯片是英伟达公司的 GP100 GPU 芯片,它的结构是通过 CoWoS 工艺将 GPU 芯粒和多个 HBM 芯粒在一个封装体内集成,最大化处理器与存储之间的通信带宽,硅基板尺寸超过 1 个光罩(858mm2)。我国华为海思公司设计的昇腾 910 芯片 3,也是基于这一技术将 3 种、6 个芯粒的集成,实现了高算力的人工智能处理
22、器。02集成芯片的内涵2023集成芯片与芯粒技术白皮书图 2.6 集成芯片设计新范式2.4 集成芯片的现状和趋势应用需求驱动能够通过多颗芯粒与基板的 2.5D/3D 集成,突破单芯片光刻面积的限制和成品率随面积下降的问题,成为进一步提升芯片性能的可行路径。另外一方面,集成芯片技术是一条不单纯依赖尺寸微缩路线提升芯片性能的重要途径,在短期内难以突破自主 EUV 光刻机和先进节点制造工艺的情况下,可以提供一条利用自主低世代集成电路工艺实现跨越 1-2 个工艺节点的高端芯片性能的技术路线。集成芯片这一第三条路径与尺寸微缩、新原理器件的前两条路径并不互斥。三条路径分别从不同的维度提升芯片性能,并能够相
23、辅相成。集成芯片能够根据应用的性能、功耗、成本等需求进行合理的功能划分,最优化各个芯粒的工艺节点。尺寸微缩路径为集成芯片中单个芯粒的性能提升和芯粒间互连带宽的提升提供了一个重要的设计维度;在制造工艺较为成熟之后,基于新原理器件的特定功能芯粒也可以引入到集成芯片中,为进一步的性能和功能提升提供发展驱动力。图 2.5 自上而下的“分解-组合-集成”设计范式在处理器芯片上的示例892023集成芯片与芯粒技术白皮书近年来,随着 TSV、铜-铜混合键合等工艺的成熟,3D 集成芯片成为了高性能处理器领域新的发展趋势。美国 AMD 和 Intel 公司均基于 3D 集成芯片技术,设计了面向超算的高性能超算处
24、理器芯片。上述产品将将 6-8 种,超过 20 个芯粒的芯粒集成在一个系统中,最终实现了更大规模(千亿以上规模数量级晶体管)、更复杂的集成。在 2.5D 集成上,基于重分布层(Re-Distribution Layer)的扇出工艺(FanOut)可以实现更大规模的芯粒集成,美国 Tesla 公司基于 FanOut 工艺开发面向人工智能的训练处理器集成芯片 DOJO,RDL 基板的总面积达到 20000mm2,包含 25 个 D1 多核处理器芯粒和光电融合的通信芯粒。我国研发机构在高集成度上取得了进展。比较有代表性的包含,2022 年中科院计算所智能计算机中心和之江实验室联合开发了“之江大芯片一
25、号”,该芯片成果集成了 16 个芯粒,每个芯粒含 16个 CPU 核,无论是集成的芯粒数和体系结构上的计算核心数,都实现了突破,从体系架构和设计方法学上,验证了利用集成芯片突破单处理器芯片的算力极限技术途径。目前,正在开展“之江大芯片二号”的工作,集成度和性能将进一步提升。2022 年,复旦大学集成芯片与系统全国重点实验室基于集成扇出封装工艺实现了存算一体 2.5D 芯片,采用片间按层流水的可扩展架构实现了系统算力与存储规模的按芯粒比例的线性增长,避免了“一系统一设计”的高复杂度问题。此外,阿里达摩院联合紫光国芯研发基于 3D 混合键合工艺的智能加速器-DRAM 堆叠集成芯片,豪威科技的采用三
26、层堆叠工艺将图像传感器芯粒、模拟读出电路芯粒、图像信号处理与 AI 芯粒集成为一个组件,面向像素的不断提升,最小化芯粒间的通信开销。集成芯片中,由于每个芯粒由不同的单位设计,因此接口的标准化是系统能够高效率组合的关键因素。在 Intel 的主导下,2022 年 3 月,通用高速接口联盟(Universal Chiplet Interconnect Express,UCIe)正式成立,旨在构建芯粒技术在芯片上的互联标准。在我国,中国计算机互连技术联盟的小芯片接口总线技术要求和中关村高性能芯片互联技术联盟的芯粒互联接口规范等接口规范也已公布。02集成芯片的内涵3.1 从集成芯片到芯粒:分解与组合的
27、难题集成芯片采用了“分解-组合-集成”的新设计范式。“分解”是指根据不同应用的特征,抽象出若干标准的芯粒预制件;“组合”指将众多的芯粒预制构件按照某种结构组合设计成不同应用领域所需要的专用芯片和系统。根据目标应用,构建最优的芯粒分解-组合设计方法是重要的技术难题。(一)芯粒分解研究出于成本、安全性、系统性能等多重因素的考量,学术界和工业界持续关注芯粒分解技术。成本因素。摩尔定律的放缓与日益增长的性能需求导致芯片面积日益增长。这不仅引发了芯片良率的下降,还降低了晶圆的利用率,拉高了芯片的制造成本。学术界对芯粒系统的成本进行了分析建模,它由 RE 成本(Recurring Engineering
28、Cost)与 NRE 成本(Non-Recurring Engineering Cost)构成。RE 成本是每片芯片制造都要支付的成本,包括晶圆、封装、测试的成本等。NRE 成本指研发、制造芯片产品时所支付的一次性费用,包括人力成本、IP 授权费用、光罩成本等。UCSB 提出的模型表明 RE 成本受到芯粒工艺、系统规模、封装良率等多重因素的影响 18。清华大学的模型 19 将 NRE 成本表示为系统总体、各个芯粒、芯粒中包含模块的 NRE 成本之和。安全性因素。Fabless 的模式带来了诸如版图泄露、硬件木马植入等安全风险。分离制造 15 通过将芯片分为多个部件分别交于不同的晶圆厂,使晶圆厂
29、无法获得芯片的全部信息,来保护信息不被泄露。而基于分解的芯粒技术天然地具有分离制造的特性,并且相较于传统的基于金属层过孔的分离制造方法,芯粒使用标准的片间通信接口,在工艺上降低了封装的难度。此外,芯粒分解需要从系统角度综合考虑。芯粒分解虽然能够降低成本、提高芯片良率和安全性,但是会引入芯粒间通信的功耗、性能开销以及额外面积开销。因此,芯粒分解不能仅关注单个芯粒构件的设计,需要对整条产品线进行分析,以发掘芯粒在多个产品中的复用机会。工业界目前已经出现多个将复杂功能芯片分解为多个芯粒构件的工作:AMD 在第二代 EPYC 架构中将计算与 IO 部分拆分为不同的芯粒 7;海思基于 LEGO 理念,将
30、 SoC 分解为 CPU 计算、计算 I/O、AI 计算等少量的芯粒,并利用它们组合出多种产品 8;Intel 也将芯粒技术应用到了 FPGA、CPU、GPU 等产品上,其中 Ponte Vecchio GPU 被分解为计算、存储、通信等芯粒,数量高达 47 块 9。现有的芯粒分解方案往往依赖于设计人员的经验,这种手工的分解方式难以穷尽所有的设计空间,产生的效益、开销也往往不是最优的 20。因此,当前亟需自动化芯粒分解技术。目前已有一些简单的划分策略,如将设计拆分为多个相同芯粒的均匀划分方式 18,与基于最小割算法的均衡划分方式2023集成芯片与芯粒技术白皮书PART THREE03集成芯片的
31、架构与电路设计 2 20 01 11 1年年2 20 01 16 6年年2 20 02 22 2/2 23 3年年Xilinx V72000T4颗颗相相同同FPGA 芯芯粒粒 2.5D集集成成 2层层堆堆叠叠先先进进封封装装概概念念被被提提出出英英伟伟达达 GP100GPU+DRAMx42种种芯芯粒粒共共5颗颗 2.5D集集成成 2层层堆堆叠叠Intel Ponte VecchioAI+SRAM+DRAM+Base+Bridge6种种芯芯粒粒共共47颗颗 3D集集成成3层层堆堆叠叠AMD MI300CPU+GPU+SRAM+DRAM+Bridge5种种芯芯粒粒共共21颗颗 3D集集成成4层层堆
32、堆叠叠2 20 01 19 9年年华华为为 昇昇腾腾910AI+DRAM+IO3种种芯芯粒粒共共6颗颗2.5D集集成成2层层堆堆叠叠图 2.7 集成芯片朝向更多数量和种类的大规模方向(a)芯粒间并口芯粒芯粒间并口芯粒间并口RISC-V芯粒间并口可扩展片上网络硅基板有机基板RISC-VRISC-VRISC-VRISC-VRISC-VRISC-VRISC-VRISC-VRISC-VRISC-VRISC-VRISC-VRISC-VRISC-VRISC-V(a)(b)图 2.8 (a)之江大芯片 1 号;(2)存算一体 2.5D 芯片10112023集成芯片与芯粒技术白皮书21。这些技术缺乏对成本、性
33、能、功耗的综合优化,也没有在多个硬件设计中寻找可重用芯粒的能力。(二)芯粒组合研究芯粒组合过程中,设计人员根据用户输入的应用与优化目标,从芯粒库中选出最优芯粒并组合。工业界和学术界对这一问题也开展了探索:zGlue22 提供了包含 MCU、传感器等芯粒的库,用户可以根据自己的需求手动地选择集成的芯粒;海思利用CPU芯粒+I/O芯粒组合出服务器所需的芯片,利用 AI 计算芯粒+计算/IO 芯粒组合出针对 AI 训练的芯片 8;通过使用不同数量的 CPU 计算芯粒,AMD 组合出了包含不同核数的服务器芯片 7。由于缺乏统一的接口标准,目前工业界的实践主要为in-house 芯粒的组合。现有的芯粒组
34、合方案 89 往往是手动设计的,集成效率低且缺乏深层优化,这也催生了自动化芯粒组合的研究。UCLA 提出了面向处理器的芯粒组合框架 23,用以寻找针对多个应用负载的最优芯粒系统集合,其优化目标为系统功耗、性能、成本等。计算所提出了一套敏捷芯粒集成框架 24,可以自动根据用户输入的应用描述,从芯粒库中选择出性能、面积、成本等指标最优的芯粒组合,并且完成应用任务在芯粒上的映射。无论是面向通用应用的多 CPU 芯粒 7 与多 GPU 芯粒 25 的组合,还是面向专用领域的芯粒组合,均可以通过集成不同数量的芯粒来获得不同性能的系统。如图 3.2 所示,面向 AI 领域的 Simba27 系统以被灵活拓
35、展,形成适用于各个场景的产品,也有学者提出了能搜索针对单个应用和多个特定应用的芯粒组合框架 2324。无论是芯粒分解还是芯粒组合,都是复杂的优化问题,依靠人力难以应对庞大的搜索空间,这也给予了设计自动化工具和大规模集成芯片仿真器新的机遇。在芯粒时代,我们需要更高效的 EDA 工具来更进一步地优化系统成本,降低集成开销,促进芯粒生态繁荣。图 3.2 AI 系统性能与芯粒数量组合的关系 2703集成芯片的架构与电路设计与片上网络(Network-on-Chihp)相对应,基板上网络(Network-on-Interposer)实现芯粒间互连互通,作为各处理单元间的数据传输基础设施,是影响数据通信性
36、能和功耗的关键,包含互连拓扑、路由和容错机制三个关键技术。(一)互连拓扑从互连网络的通信效率进行考虑,网络拓扑结构从固定、简单的通用拓扑结构演进到不规则和可重构拓扑结构,以适配不同的应用数据传输需求。通用互连网络的拓扑结构设计简便,适用于多种数据通信场景。但是通用性和性能互为制约,通用拓扑结构设计并不能提供最高的通信效率。因此,不规则和可重构的互连拓扑结构以降低通用性为代价,提供了更高性能的互连解决方案。网格(Mesh)以及环形曲面(Torus)等基础网络结构,由于其结构简单规则,是芯粒间网络中最为广泛使用的通用拓扑,典型拓扑网格结构如图 3.3 所示。采用通用拓扑构成互连网络的有NVIDIA
37、 的 Simba27,其芯粒内与芯粒间均采用了网格型拓扑,Conical-Fishbone 时钟域网络中使用的无缓冲网格拓扑。MCM-3D-NoC29 架构基于有源基板,芯粒间采用芯粒堆叠互连的三维(3D)堆叠拓扑结构。此外,POPSTAR3031 基于光电连接的芯粒间环形(Ring)结构,以及无缓冲多环(Multi-Ring)结构 32 属于通用拓扑。当网络流量不均衡或动态变化,通用、规则的拓扑结构无法适配当前流量需求将导致拥塞,而不规则拓扑结构则可以根据相应流量特征优化网络链路或结构,以获得更高性能。Kite 拓扑系列 35基于基板上网络(Network-on-Interposer)和片上
38、网络(NoC)的频率异质性,在频率限制下最大化有效链长,减少跳数降低延迟,提高网络吞吐量。与常见通用拓扑结构相比,Kite 拓扑结构中使用了更多不同长度和不同方向的链路,提高通信效率。此外,除有线链路的不规则设计外,也有一些设计方案基于多芯粒无线接口互连技术 363738,支持芯粒间多方式互连,可实现多种不规则网络拓扑。不规则拓扑结构针对应用的通信流量需求进行了优化,然而不同应用的流量特征差异极大且存在动态时变特征,因此出现了能够根据应用流量动态变化的可重构拓扑结构,动态地根据应用需求进行重配置。Adapt-NoC39 架构采用 SMART40 构建自适应芯粒路由,可重构链路设计 41 在有源
39、基板中连接子网络,并且动态分配链路带宽以提高网络吞吐量,采用 Panthre42 技术进行网络拓扑重3.2 芯粒间互连网络(a)固定拓扑(b)不规则拓扑(c)动态重构拓扑图 3.3 典型的拓扑网络 354312132023集成芯片与芯粒技术白皮书配置,将网络划分为多个子网络,使每个子网络可以根据通信需求提供不同的网络拓扑。中科院计算所提出了可重构基板网络(NoI)设计方法 43 基于胖树生成适应各种分布式训练模式的拓扑,可适应各种神经网络应用,特别采用了环和树结合的拓扑结构适用于数据并行中的数据交换。可重构拓扑允许根据应用数据传输需求进行动态配置和调整,提供了高灵活性、高适应性、高性能的解决方
40、案。然而,如何实现更大规模的动态可重构互连拓扑结构设计和容错机制,并实现互连架构的准确性能评估,仍是芯粒间互连网络拓扑结构设计的重要挑战。(二)路由路由算法是影响集成系统通信开销的另一重要因素,其决定了数据传输的路径长度和可靠性。为了能够适配多种复杂的互连网络方案,同时考虑芯粒互连集成设计方案的立体化趋势,需要面向芯粒集成的系统特性进行路由算法设计。芯粒集成系统的路由算法需要满足以下特性:1)拓扑无关性,路由算法应该能够适用于通用和不规则的拓扑结构,而不仅限于特定的拓扑。这样可以适应不同芯粒集成方案中可能存在的多样化互连网络拓扑。2)完全可达性,若源和目的地之间存在路径,路由算法应该始终能够找
41、到该条可行的路径。即使是复杂的垂直堆叠和基板互连结构,路由算法也应确保算法能够指出能够从源芯粒传输到目的芯粒的可行路径。3)故障独立性,路由算法需要具备对节点或链路故障的容错能力。当发生故障时,路由算法应该能够重新计算路径,绕过故障节点或链路,保证数据传输的可靠性和连通性。4)可扩展性,路由算法引入的开销应是独立的,或者仅随着网络规模的变化而变化。无论系统中有多少个芯粒或多复杂的堆叠结构,路由算法都应该能够高效地处理通信需求,而不会导致性能下降或通信开销过大。在设计面向芯粒集成的系统的路由算法时,需要根据具体的集成方案和系统需求进行算法的优化和定制,这样可以实现高效可靠的数据传输,适应复杂的互
42、连网络结构,并充分发挥芯粒集成技术的优势。(三)容错机制在面向芯粒集成的互连网络设计中,考虑到单个芯粒内集成了更高数量级的晶体管和先进制程的不完善,因此故障率相对较高。为了应对永久性故障带来的系统性能损失,可以采取以下优化措施提升系统的容错性能:容错拓扑设计和容错路由。容错拓扑是指在芯粒间的互连设计中,通过采用能够容忍故障和提供冗余路径的结构布局方式,提升系统的容错性能。容错拓扑可以采取以下策略:(1)冗余网络。使用多条路径建立芯粒之间的通信连接,如果某条路径发生故障,可以通过其他路径进行通信,保证数据传输的可靠性和连通性。(2)高连接性网络。高连接性网络的目标是确保大多数节点具有较高的节点基
43、数,从而为网络提供路径多样性,并以此增强系统的容错能力,对于次要节点,可以适当的降低节点基数以减小硬件开销。容错路由是指在芯粒间的互连设计中,通过设计能够应对永久性故障导致的网络变化的路由算法,提升系统的容错性能。当网络中出现错误时,路由算法需要具备适应网络变化的能力,并自适应的执行不同的路由策略以绕过或避免故障区域的通信,这也是容错路由的重要研究方向。为了提升错误处理能力,容错路由算法可以采取以下策略:(1)动态路径选择。路由算法可以根据实时的网络状态和错误信息,动态选择最佳路径来绕过故障区域。这可以通过监测链路状态、节点负载、延迟等指标来实现。路由算法可以基于这些信息做出即时的路由决策,将
44、数据流量导向可用的路03集成芯片的架构与电路设计径。(2)基于负载均衡的路由。当网络中出现故障时,路由算法可以考虑负载均衡策略来选择路径。它可以根据节点的负载状况,选择相对较空闲的路径进行通信,以避免将更多的流量导向已经过载或故障的区域。国内中科院计算所早期在研究3D TSV设计时,针对TSV提出了复用容错的技术思路44和容错 NOC 设计 50,清华大学、合肥工业大学等也有相关研究 5152。现有面向芯粒的接口协议主要分为两类:物理层接口协议和完整的协议栈。大多数物理层接口协议或标准主要关注引脚定义、电气特性、bump map 等基础特性,可以保证数据比特流的点对点传输。在此基础上,协议栈对
45、路由方式、数据结构、可靠传输机制、一致性、流量控制等做了更详细的规定,一般可以建立端到端的可靠数据传输。(一)物理层美国英特尔公司率先提出了AIB(Advanced Interface Bus),用于规范芯粒间互连的物理层协议,可适应不同制造和封装工艺 45。一个 AIB 接口由一个或多个 AIB 通道组成,每个通道包含 20-640根数据线,两对差分时钟以及用于初始化的边带信号。AIB 在单线极大的数据速率下,以扩展位宽的方式获得高带宽。此外,AIB 可以通过启用冗余的 bump 来规避封装缺陷,以此来实现一定程度的容错功能。由 Facebook、AMD 等企业共同发起的 ODSA(Open
46、 Domain-Specific Architecture)联盟提出了BoW(Bunch of Wires)并行接口协议,BoW的模块化的接口可对应标准封装和先进封装工艺46。每个 BoW 模块包括 16 根数据线和一对差分时钟,BoW 复用主数据通路进行参数协商和初始化,无专用的边带信号。在 14nm 工艺下,Bow 以 16Gbps/wire 的传输速率以及 50mm 线长,可达到 0.7pj/bit 的较低功耗,误码率为 1E-15。与上述面向通用数据连接的接口不同,HBM(High Bandwidth Memory)接口是 JEDEC(Joint Electron Device Eng
47、ineering Council)定义,专门用于连接 HBM 内存的并行总线接口 47。最新的HBM3 最多支持 16 个独立通道,每个通道的数据位宽为 64,包含 10 位行地址线和 8 位列地址线,最高数据速率为 6.4Gbps。此外,HBM 支持通过 4 位 ECC 进行纠错。此外,尽管 Chiplet 物理接口大多走的是并行化方向,但追求高速率的 Serdes 接口依靠着更高的带宽密度受到关注。USR(Ultra-Short-Reach)是一种主要面向chiplet片间互联的Serdes接口48,可以使用单端信号或差分信号进行数据传输,在 20Gb/s 的传输速率下能够达到 0.6pj
48、/bit 的功耗,相比于普通的 Serdes 接口有着很大优势。然而,相比于宽度更大的并行接口,USR 在带宽上存在劣势。随着 3D 封装的进展,单独支持 2.5D 的互连已经无法满足需求。因此,台积电提出了兼容 2.5D和 3D 的高能效 LIPINCON(Low-voltage-in-package-inter-connect)互连接口协议 49。其可在0.8V 的电压和 0.3V 的电压摆幅下实现 0.84UI 的眼宽和 75%摆幅的眼高,而其 256 的数据位宽和8Gbps/wire 的数据速率有待提升。(二)协议栈芯粒间的数据传输有许多重要的功能需求,如对核间数据通信业务逻辑的详细规
49、定、数据传输可3.3 芯粒互连的接口协议14152023集成芯片与芯粒技术白皮书靠性、缓存一致性、路由策略等。而物理层协议仅能保证通信双方物理电气特性上的互联互通,因此,构建完整的上层协议对芯粒接口至关重要。ODSA 首先注意到了完整协议栈的重要性,并于 2021 年提出了一种面向芯粒互连的协议架构,该架构由协议层、链路层和物理层构成。其中,物理层方案为BoW接口,建议在协议层复用现有协议,链路层通过 CRC 校验和重传机制实现可靠传输的基本思路。2022 年,UCIe(Universal Chiplet Interconnect Express)联盟公布了 UCIe 协议。与 ODSA 的架
50、构类似,UCIe 由协议层、片间适配层和物理层构成。UCIe 协议层沿用成熟的 PCIe 和 CXL 协议以实现对现有生态的最大兼容,片间适配层则利用 CRC 校验以及重传机制保证数据传输的可靠性。UCIe 在物理层采用 AIB 接口,在电气特性上具有广泛兼容性的同时,可实现物理通道损坏的自动检测和通道重映射等功能。UCIe 是 chiplet 完整协议栈的典型代表,其物理层的模块化设计、容错功能、以及链路层的校验重传机制契合 chiplet 应用场景。因此,设计全新的上层协议既定义面向chiplet 间数据传输的业务逻辑或许是以后 chiplet 接口协议发展的重点。在国内,由中科院计算所牵