黄仁勋演讲全文.pdf_咨信网zixin.com.cn

资源描述

1、欢迎来到 GTC 大会。希望你们意识到这里不是音乐会，而是一个开发者大会。会有大量的科学、算法、计算机架构、数学等内容。我感受到了房间里沉甸甸的氛围。突然间，好像你们误入了什么地方似的。世界上没有哪个会议能汇聚来自如此多元科学领域的研究人员，从气候科技到无线电科学，大家都在探索如何使用 AI 来机器人化控制 MIMOS，用于下一代 6G 无线电，自动驾驶汽车，甚至是各方面的人工智能。首先，我注意到现场突然一阵松懈。同时，这次会议还汇集了一些了不起的公司。这份名单，并不是参会者名单，这些都是发言嘉宾。令人惊叹的是，如果你去掉我所有的朋友，亲密朋友，迈克尔戴尔(106.63,-0.37,-0.35

2、%)就坐在那里，在 IT行业区。我在行业中成长的所有朋友。如果去掉那份名单，这就是令人惊叹的地方。这些非IT 行业的发言者正在使用加速计算解决普通计算机无法解决的问题。这体现在生命科学、医疗保健、基因组学、交通、零售、物流、制造业、工业等行业的全方位代表。你们不仅仅是来参加会议的。你们是来展示、讨论你们的研究成果的。今天在这个房间里代表的是全球 100 万亿美元行业的缩影。这绝对令人震惊。绝对有一些事情正在发生。正在发生一些事情。整个行业正在转型，不仅仅是我们的行业，因为计算机行业，计算机是当今社会最重要的工具。基本上的转型和计算影响到了每个行业。但我们是如何开始的？我们是如何达到这里的？我为

3、你们准备了一个小漫画。确切地说，我画了这一页。这是 Nvidia(884.55,6.18,0.70%)的旅程，始于 1993 年。这可能就是剩下的演讲内容。1993 年，这是我们的旅程。我们成立于 1993 年。沿途发生了几个重要事件。我只是简单地强调了一下。2006 年，CUDA，它被证明是一个革命性的计算模型，我们当时认为它是革命性的，以为它将一夜之间获得成功。近 20 年后，它发生了，到了 2012 年。Alex Net AI和 CUDA 首次接触，到了 2016 年。认识到这一计算模型的重要性，我们发明了一种全新类型的计算机，我们称之为 DGX1，170 teraflops。在这台超级

4、计算机中，八个 GPU 首次连接在一起。我亲自交付了第一台 DGX1 给一家位于旧金山的初创公司，名为 OpenAI。DGX1 是世界上第一台 AI 超级计算机。记住，170 teraflops。2017 年，Transformer 到来。2022 年，ChatGPT 捕获了世界的想象力。人们意识到人工智能的重要性和能力。2023 年，生成式 AI 浮现，新的行业开始形成。为什么是一个新行业？因为这样的软件以前从未存在过。我们现在正在使用计算机编写软件，创造以前从未存在过的软件。这是一个全新的类别。它从无到有占据了市场份额。这是一个全新的类别。而你生产软件的方式与我们以前在数据中心所做的完全不

5、同。生成 token，以非常大的规模生成浮点数。仿佛在上一个工业革命的开始，当人们意识到你会建立工厂，向其提供能源，然后这种看不见但极其有价值的东西，电力，交流发电机就此产生。100 年后，200 年后，我们现在正在创造新类型的电子，token，通过我们称之为工厂的基础设施，生成这种新的、难以置信的有价值的东西，人工智能。一个新的行业已经出现了。我们将讨论这个新行业的许多方面。我们将讨论我们接下来将如何进行计算。我们将讨论由于这个新行业而构建的新软件类型，你应该如何看待这些新软件，这个新行业中的应用程序会是什么？然后也许是接下来会发生什么，我们如何从今天开始为即将到来的下一步做准备？但在我开始

6、之前，我想向你们展示 Nvidia 的灵魂。Nvidia 的灵魂位于计算机图形、物理学和人工智能的交汇处，所有这些交汇在 Omniverse 中，一个虚拟世界的仿真。我们今天将向你展示的一切都是仿真的，而不是动画。它之所以美丽，是因为它是物理的。世界之所以美丽，是因为它是物理的。它之所以令人惊叹，是因为它通过机器人进行了动画制作。它通过人工智能进行了动画制作。你即将看到的所有内容都是完全生成的，完全仿真的，而且都是在 Omniverse 中生成的。而你即将欣赏的所有内容，你即将欣赏的是世界上第一场一切都是自制的音乐会。你将要看一些家庭视频。所以请坐下来，好好享受吧。好吧，天啊，我爱 Nvidi

7、a。加速计算已达到转折点。通用计算已经走到尽头。我们需要另一种计算方式，以便我们可以继续扩展，以便我们可以继续降低计算成本，以便我们可以继续消耗越来越多的计算，同时保持可持续性。加速计算与通用计算相比大大加速。在我们参与的每个行业中，我将向你展示很多，影响都是巨大的，但在我们自己的行业中，即使用仿真工具创建产品的行业中，它更为重要。在这个行业中，这不仅仅是关于降低计算成本，而是关于提高计算规模。我们希望能够完全模拟我们所做的整个产品，以完全的保真度，完全数字化地进行，本质上就是我们所说的数字孪生。我们希望设计它，构建它，模拟它，完全数字化地操作它。为了做到这一点，我们需要加速整个行业。今天，我

8、想宣布，我们有一些合作伙伴加入我们这一旅程，以加速他们的整个生态系统，以便我们可以将世界带入加速计算的时代。但这里有一个额外的好处。当你成为加速的一部分时，你的基础设施就是 Cuda GPU。当发生这种情况时，它恰好是生成式 AI 的完全相同的基础设施。因此，我非常高兴地宣布几个非常重要的合作伙伴关系。这些是世界上一些最重要的公司，ANSYS 为世界制造工程仿真。我们与他们合作，以 Cuda 加速 ANSYS 生态系统，将 ANSYS 连接到 Omniverse 数字孪生。太棒了。真正伟大的是，Nvidia GPU 加速系统的安装基础遍布全球，在每个云中，在每个系统中，遍及所有企业。因此，他们

9、加速的应用程序将拥有一个巨大的安装基础以服务。最终用户将拥有令人惊叹的应用程序。当然，系统制造商和 CSP 将拥有巨大的客户需求。Synopsys 是 Nvidia 字面上的第一个软件合作伙伴。他们在我们公司的第一天就在那里。Synopsys 通过高级设计彻底改变了芯片行业。我们将 CUDA 加速Synopsys。我们正在加速计算光刻，这是最重要的应用程序之一，没有人知道。为了制造芯片，我们必须将光刻推向极限。Nvidia 创建了一个领域特定的库，极大地加速了计算光刻。一旦我们能够加速并定义台积电(136.64,0.21,0.16%)所有的软件，台积电今天宣布他们将与 Nvidia 一起投入生

10、产，cuLitho。一旦软件定义并加速，下一步就是将生成式 AI 应用到芯片制造的未来。Cadence 构建了世界上基本的 EDA 和 SDA 工具。我们也使用 Cadence，通过这三家公司，ANSYS、Synopsys 和 Cadence，我们基本上一起构建了 Nvidia。我们正在加速 Cadence。他们还在用 Nvidia GPU 构建超级计算机，以便他们的客户可以以 100、1000 倍的规模进行流体动力学仿真。基本上是实时的风洞。Cadence Millennium，一台内置 Nvidia GPU 的超级计算机，一家软件公司正在构建超级计算机。我很高兴看到这一点。与 Cadenc

11、e 共同构建 copilots，想象一下，当 Cadence、Synopsys、ANSYS等工具提供商为您提供 AI copilots 的一天，这样我们就有成千上万的 copilot 助手帮助我们设计芯片，设计系统。我们还将 Cadence Digital Twin 平台连接到Omniverse。正如你所看到的趋势，我们正在加速世界上的 CAE、EDA 和 SDA，以便我们可以在数字孪生中创建我们的未来。我们将把它们全部连接到 Omniverse，未来数字孪生的基本操作系统之一，受益于规模的行业之一，你们都非常了解这一点，大型语言模型。基本上，在 Transformer 被发明之后，我们能够以

12、惊人的速度扩展大型语言模型，实际上每六个月翻一番。现在，我们如何能够以每六个月翻一番的速度发展这个行业，发展这个计算需求呢？原因很简单。如果你将模型的大小加倍，你将大脑的大小加倍，你需要两倍的信息来填充它。因此，每次你将参数计数加倍时，你还必须相应地增加你的训练 token 计数。这两个数字的组合成为了计算规模。你必须支持最新的、最先进的 OpenAI 模型，大约有 1.8 万亿个参数。1.8万亿个参数需要几万亿个 token 进行训练。所以几万亿个参数，大约几万亿个token，大约当你将两者相乘在一起时，大约有三十、四十、五十万亿次浮点运算每秒。现在我们只需要做一些数学，请跟我一起。所以你有

13、三十亿万亿。一个万亿就像一个 Peta。因此，如果你有一个 Petaflop GPU，你需要 300 亿秒来计算，来训练那个模型。300 亿秒大约是 1000 年。好吧，1000 年，这是值得的。想要做得更快一些，但这是值得的。是的，这通常是我的回答，当大多数人告诉我，嘿，做某事需要多长时间？所以我们得到了 20 年的价值，但我们下周能做到吗？因此，1000 年，1000 年。所以我们需要更大的 GPU。我们需要更大的 GPU。我们很早就认识到了这一点，我们意识到答案是将一大堆 GPU 放在一起，当然，沿途创新了很多东西，比如发明张量核心，推进 MV 链接，这样我们就可以创建本质上是虚拟巨型

14、GPU 的东西，并将它们全部连接在一起，通过一个名为 Mellanox 的公司的惊人 InfiniBand 网络，这样我们就可以创建这些巨型系统。因此，DGX1 是我们的第一个版本，但它不是最后一个。我们一直在沿途构建超级计算机。在 2021 年，我们有 Celine，40500 个 GPU 左右。然后在 2023 年，我们构建了世界上最大的 AI 超级计算机之一。它刚刚上线。而且，当我们构建这些东西时，我们正在努力帮助世界构建这些东西。为了帮助世界构建这些东西，我们必须首先构建它们。我们构建芯片，系统，网络，所有必要的软件来做到这一点。你应该看到这些系统。想象一下编写一段软件，跨整个系统运行

15、，将计算分布在成千上万的 GPU 上。但里面有成千上万的小 GPU，数百万个 GPU 来分配工作，以便在所有这些中平衡工作负载，以便你可以获得最高的能源效率，最佳的计算时间，降低成本。因此，这些基本创新是我们到达这里的原因。现在我们在这里，当我们看到 ChatGPT 在我们面前出现的奇迹时，我们也意识到我们还有很长的路要走。我们需要更大的模型。我们将用多模态数据来训练它，不仅仅是互联网上的文本，但我们将用文本和图像、图表和图表进行训练，就像我们通过看电视学习一样。因此，将会有很多观看视频，以便这些模型可以在物理学上得到基础，了解手臂不会穿过墙壁。因此，这些模型将通过观看大量的世界视频与大量的世

16、界语言相结合，具有常识。它将使用诸如合成数据生成之类的东西，就像你和我学习时一样，我们可能会使用我们的想象力来模拟它最终会如何，就像我在准备这个主题演讲时一样。我一直在模拟它。我希望它能像我在头脑中模拟的那样好。有人确实说，另一位表演者完全在跑步机上完成了她的表演，这样她就可以以充满活力的方式呈现它。我没有那样做。如果我在这个过程中有点喘不过气来，你知道发生了什么。因此，我们在这里使用合成数据生成，我们将使用强化学习，我们将在我们的头脑中练习，我们将让AI 与 AI 一起工作，相互训练，就像学生、老师、辩论者一样，所有这些都将增加我们模型的大小。它将增加我们拥有的数据量，我们将不得不构建更大的

17、 GPU。黄仁勋介绍最新 GPUBlackwell Hopper 很棒，但我们需要更大的 GPU。因此，女士们先生们，我想向你们介绍一个非常大的 GPU，以数学家、博弈论家、概率论家大卫布莱克威尔（David Blackwell）的名字命名，我们认为这是一个完美的名字。Blackwell，女士们先生们，请享受。Blackwell 不是一个芯片。Blackwell 是一个平台的名称。人们认为我们制造 GPU，我们确实制造了，但 GPU 的外观已经不再像过去那样了。这是 Blackwell 系统的核心。而这在公司内部不称为 Blackwell。它只是一个数字。这是 Blackwell，这是当今世界

18、上最先进的 GPU。（黄仁勋对比了 Blackwell（右）与 Hopper GH100 GPU（左）的大小）2080 亿个晶体管。因此，我可以看到两个芯片之间有一条细线。这是第一次以这种方式将两个芯片紧密连接在一起，以至于两个芯片认为它是一个芯片。它们之间有10TB 的数据，每秒 10TB，以至于 Blackwell 芯片的两侧不知道它们在哪一侧。没有内存局部性问题，没有缓存问题。它只是一个巨大的芯片。当我们被告知 Blackwell 的野心超出了物理极限时，工程师说，那又怎样？因此，这就是发生的事情。因此，这是 Blackwell 芯片，它进入了两种类型的系统。第一个是与 Hopper 形

19、状兼容的，因此，你可以滑出 Hopper，然后推入 Blackwell。这就是为什么其中一个挑战之一将是如此高效的原因之一。全世界都安装了Hopper，它们可以是相同的基础设施，相同的设计，电力，电力，热量，软件，都相同，直接推回去。因此，这是当前 HGX 配置的 Hopper 版本。这是另一个Hopper 的样子。现在，这是一个原型板。因此，这是，这是一个完全功能的板。我会在这里小心一点。这个，我不知道，100亿美元。第二个是 5 亿，之后就便宜了。所以，观众中的任何客户，没关系，好吗？但这个是相当昂贵的。这是第一个启动板，生产时将采用这种方式。好吧。因此，你会拿到这个。它有两个 Black

20、well 芯片和四个 Blackwell 芯片模具连接到 Grace CPU。Grace CPU 有一个超快的芯片到芯片链接。令人惊叹的是，这台计算机是第一台这样的计算机，这么多的计算适合这么小的空间。第二，它是内存一致的。他们觉得他们就像一家幸福的大家庭一样，在一个应用程序中一起工作。因此，它在其中的一切都是一致的。但这是一个奇迹。让我们看看这里有一些东西。这里有 MV 链接，PCI Express 在底部，一个是 CPU 芯片到芯片链接。希望它已经插好了。所以这是 Grace Blackwell 系统，但还有更多。所有的规格都很棒，但我们需要大量的新功能，以便在物理极限之外推动极限，我们希

21、望总是获得更多的 X 因素。因此，我们做了一件事，我们发明了另一个 Transformer 引擎，第二代。它具有动态和自动地重新缩放和重新铸造数值格式为较低精度的能力。记住，人工智能是关于概率的。因此，你大致有 1.7 乘以 1.4 大约等于其他东西。这有意义吗？因此，在研究的特定阶段保留必要的精度和范围非常重要。因此，这不仅仅是我们设计了一个更小的 ALU 的事实。世界不是那么简单。你必须弄清楚你何时可以在成千上万个 GPU 上运行数周又数周的计算中使用它，并且你希望确保训练工作能够收敛。因此，这个新的 Transformer 引擎，我们有第五代 MV Link。它现在是 Hopper的两倍

22、快，但非常重要的是，它在网络中有计算。因为当你有这么多不同的 GPU 一起工作时，我们必须与彼此分享我们的信息。我们必须相互同步和更新。偶尔，我们必须减少部分产品，然后将部分产品重新广播回其他所有人。因此，有很多所谓的 all reduce 和 all to all 和 all gather，这都是这个同步和集体的一部分，这样我们就可以让 GPU 相互协作，拥有极其快速的链接，并能够在网络中进行数学计算，使我们能够进一步放大。因此，尽管它是 1.8TB 每秒，但实际上比这个高得多。因此，它是 Hopper 的许多倍，超级计算机连续运行数周的可能性几乎为零。原因是因为同时有这么多组件在工作。统计

23、上，它们连续工作的概率非常低。因此，我们需要确保，只要我们能够，我们就会尽可能经常地检查点和重新启动。但如果我们有能力提前检测到一个弱芯片或一个弱节点，我们可以退役它，也许换入另一个处理器。保持超级计算机利用率高的能力，特别是当你刚刚花费 20 亿美元建造它时，非常重要。因此，我们加入了一个 Ras 引擎，一个可靠性引擎，它对 Blackweld 芯片上的每一个门，每一个内存位进行 100%的自测试和系统测试以及所有连接到它的内存。这就好像我们用来测试我们芯片的高级测试仪随每个芯片一起发货一样。这是我们第一次这样做。超级兴奋。安全 AI。显然，只有这次会议才会为 Ras 鼓掌，安全 AI。显然

24、，你刚刚花费了数亿美元创建了一个非常重要的 AI。而且，这个 AI 的智能是编码在参数中的。你希望一方面确保你不会丢失它，另一方面确保它不会被污染。因此，我们现在有能力加密数据，当然，在静止时，但也在传输中。当我们计算时，它都是加密的。因此，我们现在有能力在传输中加密，当我们计算时，它在一个受信任的，受信任的引擎环境中。最后一件事是解压缩。当计算如此之快时，将数据移入和移出这些节点变得非常重要。因此，我们加入了一个高线速压缩引擎，有效地将数据以 20 倍的速度移入和移出这些计算机。这些计算机是如此强大，投资如此巨大，我们最不想做的就是让它们空闲。因此，所有这些功能都旨在尽可能地保持 Black

25、well 的供应并尽可能忙碌。总的来说，与 Hopper 相比，它的 FPA 性能提高了两倍半，每芯片用于训练。它还具有这种称为 FP6 的新格式，因此，即使计算速度相同，由于内存的带宽被放大，因为你可以在内存中存储的参数量现在被放大了。FP4 实际上使吞吐量翻了一番。这对于推理至关重要。越来越清楚的一件事是，当你在另一边使用计算机与 AI 交互时，当你与聊天机器人聊天时，当你要求它审查或生成图像时，记住，背后是一个GPU 在生成 token。有些人称之为推理，但更恰当的说法是生成，过去的计算是检索。你会拿起你的手机，你会触摸一些东西，一些信号就会发出去。基本上是一封电子邮件发送到某个地方的一

26、些存储。有预先录制的内容。有人写了一个故事，有人制作了一个图像，有人录制了一个视频。那些预先录制的内容然后被流回到手机上，并基于推荐系统以某种方式重新组合，向你展示信息。你知道，在未来，大部分内容都不会被检索。原因是因为那是由不了解上下文的某人预先录制的，这就是为什么我们必须检索这么多内容的原因。如果你可以与了解上下文的 AI 一起工作，并为你生成信息，就像你喜欢的那样，我们节省的能源，我们节省的网络带宽，我们节省的浪费时间将是巨大的。未来是生成性的，这就是为什么我们称之为生成式AI，这就是为什么这是一个全新的行业。我们计算的方式根本不同。我们为生成式 AI 时代创建了一个处理器，其中最重要的

27、部分之一是内容 token 生成。我们称之为。这种格式是 FP4。好吧，这是大量的计算。5 倍的生成 token 生成，5 倍的 Hopper 推理能力似乎足够了。但为什么要在这里停下来？答案是不够的。我将向你展示为什么。我将向你展示什么。因此，我们想要一个更大的 GPU，甚至比这个更大的 GPU。因此，我们决定扩展它并注意到，但首先，让我告诉你我们在过去八年中如何扩展，我们将计算增加了 1000 倍。八年 1000 倍。回想一下摩尔定律的美好时光，它是 2倍，好吧，5 倍每个什么？10 倍每 5 年。这是最简单的地图。10 倍每 5 年。10 年100 倍。在 PC 革命的黄金时代中间，每

28、10 年增长 100 倍。每 10 年 100 倍。在过去的八年中，我们增长了 1000 倍。我们还有两年要走。因此，这将使其具有一定的视角。我们正在以疯狂的速度推进计算，而且仍然不够快。所以我们又造了一个芯片。这个芯片太不可思议了。我们称之为 MV Link 开关。它是 500 亿个晶体管。它几乎和 Hopper 一样大。这个开关上有四个 MV 链接，每个都是 1.8TB 每秒。正如我提到的，它在内部有计算。这个芯片是做什么用的？如果我们要构建这样的芯片，我们可以让每个 GPU 同时以全速与每个其他 GPU 通信。这太疯狂了。这甚至没有意义。但如果你能做到这一点，如果你能找到一种方法来做到这

29、一点，并构建一个成本效益的系统来做到这一点，那将是多么令人难以置信，我们可以通过一致的链接使所有这些 GPU 有效地成为一个巨大的 GPU。为了使其成本效益，这个芯片必须能够直接驱动铜。这个芯片的证书是一个了不起的发明，这样我们就可以构建一个看起来像这样的系统。现在，这个系统有点疯狂。这是一个 DGX。这就是 DGX 现在的样子。记住，就在六年前，它很重，但我还是能抬起来的。我把第一台 DGX1 交给了 OpenAI 和那里的研究人员。它在，你知道，图片在互联网上，我们都签名了。如果你来我的办公室，它是签名的。这真的很漂亮，但你可以抬起来。这个 DGX，顺便说一下，是 170 teraflop

30、s，如果你不熟悉编号系统，那是 0.17 pedoflops。所以这是 720。我第一次交给 OpenAI 的是 0.17。你可以四舍五入到0.2，没什么区别。但那时候就像，哇，你知道，再多 30 个 teraflops。因此，这现在是 720 pedoflops，几乎是一个用于训练的 Xaflop，世界上第一个在一个机架上的 Xaflop 机器。顺便说一下，目前全球只有 2、3 个 exaflops 机器。因此，这是一个 Xaflop AI 系统，只有一个机架。好吧，让我们看看背面。所以这是让它成为可能的东西。这就是背面。这就是，这就是背面。DGX MV Link 脊椎，130TB 每秒通过

31、那个底座。那是超过互联网总带宽的聚合带宽。因此，我们基本上可以在一秒钟内将所有东西发送给每个人。因此，我们总共有5000 根 MV link 电缆，总共两英里。现在，这是惊人的事情。如果我们不得不使用光学，我们将不得不使用收发器和重定时器。而这些收发器和重定时器仅需耗费20，000 瓦，2 千瓦的电力，仅用于驱动 enveloent 脊椎。因此，我们通过 MV Link 开关完全免费完成了这项工作，因此我们能够为计算节省 20 千瓦。整个机架是 120 千瓦。因此，那 20 千瓦有很大的不同。它是液体冷却的。进水温度是 25 摄氏度，大约是室温。出水温度是 45 摄氏度，大约是你的按摩浴缸温度

32、。所以室温进来，按摩浴缸温度出来，每秒两升。我们可能卖出 60 万个外围设备部件。有人曾经说过，你们知道，你们制造 GPU，我们确实制造 GPU，但这就是 GPU 对我来说的样子。当有人说 GPU 时，我两年前看到的 GPU 是 HGX，它是 70，35，000 个部件。我们现在的 GPU 有 60 万个部件，重 3000 磅。3000 磅。3000 磅。这有点像你知道的碳纤维法拉利(426.53,1.99,0.47%)的重量。我不知道这是否有用，但每个人都在说，我感觉到它，我感觉到它。我现在提到这个，我感觉到它了。我不知道 3000 磅是什么？好吧，所以 3000 磅，一吨半。所以它还不像大

33、象那么重。这就是 DGX 的样子。现在让我们看看它在运行中是什么样子。好的，让我们想象一下，我们如何让这个工作起来，这意味着什么？嗯，如果你要训练一个 GPT 模型，一个 1.8 万亿参数模型，显然大约需要三到五个月的时间，使用 25，000 个安培。如果我们用 Hopper来做，可能需要 8000 个 GPU，并且会消耗 15 兆瓦。8000 个 GPU 和 15 兆瓦，它会需要 90 天，大约三个月的时间。这将允许你训练一个，你知道的，这种开创性的 AI 模型。这显然不像任何人想象的那么昂贵，但这是 8000 个 GPU。这仍然是一大笔钱。所以 8000 个 GPU，15 兆瓦，如果你用

34、Blackwell 来做，只需要2000 个 GPU。2000 个 GPU，同样的 90 天。但这是惊人的部分，只需要四兆瓦的电力。我们的目标是不断降低成本和与计算相关的能源消耗，它们是直接成正比的，这样我们就可以继续扩展和升级我们为了训练下一代模型而必须进行的计算。训练推理或生成非常重要，非常重要。你知道，现在 Nvidia GPU 在云中的使用时间大约有一半是用来生成 Token 的。你知道，它们要么在做副驾驶，要么在做聊天，你知道的，ChatGPT 或者其他你与之互动的不同模型，或者生成图像或视频，生成蛋白质，生成化学物质。所有这些都是基于我们称之为推理的计算类别。但对于大型语言模型来说

35、，推理是非常困难的，因为这些大型语言模型有几个特性。首先，它们非常大，所以它不适合在一个 GPU 上。这就是想象 Excel 不适合在一个GPU 上。你知道，想象你日常运行的某个应用程序不适合在一台计算机上，就像一个视频游戏不适合在一台计算机上。而且事实上，大多数应用程序在过去的超大规模计算中，许多人的应用程序都适合同一台计算机。现在突然出现了一个推理应用程序，你正在与这个聊天机器人互动。这个聊天机器人需要一个超级计算机在后端运行它。这就是未来，这些聊天机器人是生成性的，这些聊天机器人有数万亿的 Token，数万亿的参数，它们必须以交互速率生成Token。现在，这意味着什么？好吧，3 个 To

36、ken 大约是一个单词，我们正在尝试生成这些Token。当你与它互动时，你希望 Token 尽快回到你身边，尽可能快地阅读它。所以生成 Token 的能力非常重要。你必须在这个模型的多个 GPU 上分配工作，这样你就可以实现几件事情。一方面，你希望有吞吐量，因为吞吐量降低了生成每个 Token 的成本。所以你的吞吐量决定了服务的成本。另一方面，你有一个交互速率，即每秒生成的 Token 数，这与每个用户的服务质量有关。所以这两件事相互竞争，我们必须找到一种方法，在所有这些不同的 GPU 上分配工作，并以一种使我们能够实现两者的方式瘫痪它。事实证明，搜索空间是巨大的。你知道，我告诉你会涉及到数学

37、，每个人都在说，哦，亲爱的，我刚才看到有人喘气，当我挂上那张幻灯片时。你看看，这个右边的 y 轴是每秒数据中心吞吐量的 Token。x 轴是每秒交互性的Token。注意右上角是最好的。你希望交互性非常高。每个用户的每秒 Token 数。你希望每秒每个数据中心的 Token 数非常高。右上角是非常好的。然而，这非常困难。为了让我们能够在每一个这些交叉点，x、y 坐标上找到最佳答案，你必须查看每一个 x、y 坐标。所有这些蓝色的点都来自某种重新分区的软件。一些优化解决方案必须去找出是否使用张量并行、专家并行、流水线并行或数据并行，并将这个巨大的模型分布在所有这些不同的 GPU 上，并保持你需要的性

38、能。如果没有 Nvidia GPU 的可编程性，这个探索空间将是不可能的。所以我们可以，因为有了 CUDA，因为我们有如此丰富的生态系统，我们可以探索这个宇宙并找到那个绿色的屋顶线。你会发现你得到了 TP2、EPA、DP4，这意味着在两个 GPU 上进行 2 个并行，8 个专家并行，4 个数据并行。注意在另一端，你有 4 个张量并行和16 个专家并行。这个软件的配置、分布，它是一个不同的运行时，会产生这些不同的结果。你必须去发现那个屋顶线。好吧，这只是一个模型。这只是一个计算机配置。想象一下全世界正在创造的所有模型和所有不同的系统配置。所以现在你理解了基础知识，让我们来看看 Blackwell

39、与 Hopper 的推理比较。这是一件了不起的事情，因为我们创造了一个为万亿参数生成性 AI 设计的系统，Blackwell 的推理能力是惊人的。事实上，它是 Hopper 的 30 倍。对于像ChatGPT 这样的大型语言模型，蓝线是 Hopper。我给了你，想象我们没有改变Hopper 的架构，我们只是让它变成了一个更大的芯片。我们只是使用了最新的、最棒的 10TB 每秒。我们将两个芯片连接在一起。我们得到了这个巨大的 2080 亿参数芯片。如果我们没有改变其他任何东西，我们的表现会怎样？结果非常出色。这就是紫色线，但不如它可能的那么好。这就是 FP4 张量核心、新的变换器引擎，以及非常

40、重要的 MV 长度开关的原因。所有这些 GPU 都必须共享结果，部分产品，每当它们进行所有到所有聚集时，每当它们相互通信时。MV 链接开关的通信速度几乎是我们过去使用最快网络的 10 倍。好的，所以 Blackwell 将是一个惊人的生成性 AI 系统。在未来，数据中心将被看作是 AI 工厂。AI 工厂的生活目标是在这个设施中产生收入，产生智能，而不是像上一次工业革命中的交流发电机那样产生电力。这种能力非常重要。Blackwell 的兴奋程度真的非常高。你知道，当我们一年半前，两年前，我想，两年前当我们开始推出 Hopper 时，我们有幸有两家 CSP 加入我们的发布会，我们非常高兴。所以我们

41、现在有更多的客户了。对 Blackwell 的兴奋程度难以置信。难以置信。而且有各种各样的配置。当然，我向你展示了滑入 Hopper 外形尺寸的配置，所以升级很容易。我向你展示了一些例子，它们是液体冷却的，是它的极端版本。整个机架通过 MV Link 672 连接。Blackwell 将向全世界的 AI 公司推出，现在有这么多公司在不同的模态中做着惊人的工作。每个 CSP 都准备好了。所有 OEM 和 ODM，区域性云，主权 AI 和全球电信公司都在签约推出 Blackwell。Blackwell 将成为我们历史上最成功的产品发布，所以我迫不及待地想看到那一天。我想感谢一些合作伙伴加入我们。A

42、WS 正在为 Blackwell 做准备。他们将建立第一个 GPU，即安全 AI。他们正在构建一个 222 x FLOPS 的系统。你知道，就在刚才，当我们激活数字孪生时，如果你看到了，所有这些集群都下来了。顺便说一下，那不仅仅是艺术，那是我们正在建造的数字孪生。它将有多大。除了基础设施，我们还在与 AWS 一起做很多事情。我们的 Cuda 正在加速Sagemaker AI。Amazon Robotics 正在使用 Nvidia Omniverse 和 Isaac Sim 与我们合作。AWS Health 已经将 Nvidia Health 集成到其中。所以 AWS 真正深入到了加速计算。Go

43、ogle 也在为 Blackwell 做准备。GCP 已经拥有了数百个 H1、T Force、L Force，一系列 Nvidia CUDA GPU。他们最近宣布了一个跨越所有这些的Gemma 模型。我们正在努力优化和加速 GCP 的每一个方面。我们正在加速数据处理引擎 Data Procs，他们的数据处理引擎 Jax，XLA，Vertex AI，以及用于机器人的 Mujoko。所以我们正在与 Google 和 GCP 合作，跨越一系列倡议。Oracle 正在为 Blackwell 做准备。Oracle 是我们 Nvidia DGX Cloud 的伟大合作伙伴，我们也在一起加速一些对许多公司来

44、说非常重要的事情，Oracle 数据库。Microsoft 正在加速，并且正在为 Blackwell 做准备。Microsoft，Nvidia 与Microsoft 有着广泛的合作伙伴关系。我们正在加速，可以加速你在 Microsoft Azure 中聊天时使用的许多服务，显然是 AI 服务，很可能是 Nvidia 在后台进行推理和生成 Token。我们建造了，他们建造了最大的 Nvidia Finiband 超级计算机，基本上是我们的数字孪生或物理孪生。我们正在将 Nvidia 生态系统带到 Azure。Nvidia 做了你的云到 Azure。Nvidia Omniverse 现在托管在 A

45、zure 中，Nvidia Healthcare 在Azure 中，所有这些都与 Microsoft Fabric 深度集成和连接。整个行业都在为Blackwell 做准备。这就是我要向你们展示的。你们迄今为止看到的大多数 Blackwell 场景都是Blackwell 的全保真设计，我们公司中的每一件事都有一个数字孪生。事实上，这个数字孪生的概念真的在传播，它帮助公司第一次就完美地构建非常复杂的东西。还有什么比创建一个数字孪生更令人兴奋的呢？建造一个在数字孪生中建造的计算机。所以让我向你们展示 Wistron 正在做什么。为了满足 Nvidia 加速计算的需求。Wistron，我们的领先制造

46、合作伙伴之一，正在使用 Omniverse SDK 和 API 开发的自定义软件，为他们的新工厂建立 Nvidia DGX 和 HGX 工厂历史记录的数字孪生。Wistron 从数字孪生开始，将他们的多CAD 和工艺仿真数据虚拟整合到统一视图中。在这个物理精确的数字环境中测试和优化布局，提高了工人效率 51%。在建设过程中，Omniverse 数字孪生被用来验证物理构建是否符合数字计划。早期识别任何差异有助于避免昂贵的变更订单，结果令人印象深刻。使用数字孪生帮助 Wistron 的工厂在一半的时间内上线，只需两个月半而不是五个月投入运营。Omniverse 数字孪生帮助快速回退，测试新布局以适

47、应新工艺或改善现有空间中的操作，并使用来自生产线上每台机器的实时 IoT 数据监控实时操作，最终使 Wistron 将端到端周期时间缩短了 50%，缺陷率降低了40%。有了 Nvidia AI 和 Omniverse，Nvidia 的全球合作伙伴生态系统正在建设一个新的加速 AI 启用的数字化时代。这就是我们将要做的事情。将来我们会首先在数字上制造一切，然后才会在物理上制造。人们问我，是怎么开始的？是什么让你们如此兴奋？是什么让你们决定全力以赴投入到这个不可思议的想法中？就是这样。等一下，伙计们。那将是一个如此的时刻。那就是当你不排练时会发生的事情。黄仁勋介绍英伟达的 AI 微服务 NIM 这

48、是你们知道的，这是 2012 年的第一次接触，Alex Net。你把一只猫放进这台电脑，它出来说猫。你把 100 万个数字通过三个通道，RGB。这些数字对任何人来说都毫无意义。你把它放进这个软件，它会压缩它，减少它。它把它从一百万维减少到三个字母，一个向量，一个数字，它是泛化的。你可以有不同种类的猫，你可以有猫的前面和后面。你看着这个东西，你说，难以置信。你的意思是任何猫？是的，任何猫。它能够识别所有这些猫。我们意识到它是如何做到的，系统地，结构性地，它是可扩展的。你可以做得有多大？嗯，你想做多大就做多大。所以我们想象这是一种全新的编写软件的方式。今天，如你所知，你可以输入单词 C，A，T，出

49、来的是一只猫。它走了另一条路。我对吗？难以置信。怎么可能？就是这样。怎么可能你拿了三个字母，却从中生成了一百万像素，而且它有意义。那正是奇迹。而在这里，就在十年后，我们识别文本，我们识别图像，我们识别视频和声音，我们不仅识别它们，我们理解它们的含义。这就是为什么我可以和你聊天的原因。它可以为你总结。它理解文本。它不仅识别英语，它理解英语。它不仅识别像素，它理解像素。你甚至可以在两种模态之间进行条件设置。你可以用语言来条件图像，并生成各种有趣的事情。如果你能理解这些东西，你还能理解你数字化的其他东西吗？我们之所以从文本和图像开始，是因为我们数字化了这些东西。但是我们还数字化了什么？事实证明，我们

50、数字化了很多。蛋白质、基因和脑波。只要你能数字化的东西，只要它们的结构，我们可能就能从中学到一些模式。如果我们能从中学到模式，我们可能就能理解它的含义。如果我们能理解它的含义，我们可能就能生成它。所以，生成性 AI 革命就在这里。那么我们还能生成什么呢？我们还能学到什么？我们想学的其中一件事是气候。我们想学极端天气。我们想学如何预测未来天气，以足够高的分辨率在区域尺度上，这样我们才能在危险来临之前让人们远离危险。极端天气给世界造成了 1500 亿美元的损失，当然不止这个数字。而且它不是均匀分布的。1500 亿美元集中在世界上某些地区，当然，对世界上某些人来说。我们需要适应，我们需要知道即将发生

展开阅读全文