GPT4架构揭秘（中文）.pdf_咨信网zixin.com.cn

资源描述

迪伦帕特尔、杰拉德黄?2023/7/11揭秘 GPT4：导致 OpenAI 架构的程权衡。架构、基础设施、培训如果您将前往夏威夷参加 ICML，请告诉我们，我们起出去玩吧！在过去的 6 个，我们意识到培训成本关紧要。我们从许多来源收集了量有关 GPT4 的信息，今天我们想分享下。这包括模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、令牌计数、层数、并策略、多模态视觉适应、同程权衡背后的思维过程、独特的实施技术以及它们如何减轻些问题他们最的瓶颈与巨型模型的推理有关。请参阅我们在 GPT4 公告之前关于即将推出的 AI 砖墙的培训成本讨论从训练成本的角度来看，对于密集模型。在那，我们揭示了 OpenAI 在 GPT4 架构方面所做的高层作以及各种现有模型的训练成本。首先，问题陈述。从 GPT3 到 4，OpenAI 希望扩展 100 倍，但房间的问题是成本。密集变压器模型将法进步扩展。密集变压器是 OpenAI GPT3、Google PaLM、Meta LLAMA、TII Falcon、MosaicML MPT 等使的模型架构。我们可以轻松说出 50 家使相同架构培训法学硕的公司。这是个很好的方法，但它在扩展方面存在缺陷。要误解我们的意思，OpenAI 拥有令人惊叹的程技术，他们构建的东西令人难以置信，但他们得出的解决方案并神奇。这是个优雅的解决方案，具有许多复杂的权衡。做只是战的部分。OpenAI 最持久的护城河是他们拥有最真实的使情况、领先的程人才，并且可以通过未来的模型继续领先于其他人。短期。此外，我们将概述 A100 上 GPT4 的训练和推理成本，以及如何在下代模型架构中与 H100 进扩展。OpenAI 保持 GPT4 架构的封闭性并是因为对人类存在些生存风险，而是因为他们构建的东西是可复制的。事实上，我们预计 Google、Meta、Anthropic、Inflection、Character、腾讯、字节跳动、百度等都将拥有与 GPT4 样强的模型，甚在GPT4 最有趣的方面是理解他们为么做出某些架构决策。/付费内容Machine Translated by Google型模型的推理是个多变量问题，其中模型会导致密集模型的死亡。我们已经在这详细讨论了有关边缘的问题，但数据中的问题陈述非常相似。简而言之，设备永远可能有够的内存带宽来容纳型语言模型来实现定水平的吞吐量。即使它们有够的带宽，边缘硬件计算资源的利率也会很糟糕。未来几，谷歌、Meta、OpenAI/微软等多家公司将在价值超过千亿美元的超级计算机上训练模型。Meta 每在“Metaverse”上燃烧超过 160 亿美元，Google 每在各种永远会实现成果的项上浪费 100 亿美元。亚逊在 Alexa 上损失了超过 50 亿美元。加密货币在毫价值的事情上浪费了超过 1000 亿美元。真正的战是将这些模型扩展到和代理的成本太高。推理成本是训练成本的数倍。这就是OpenAI在模型架构和基础设施方面的创新标。记忆。当然，从表面上看，花费数千万甚数亿美元的计算时间来训练模型似乎很疯狂，但这对于这些公司来说是微道的。它实际上是个资本出项，规模扩可以持续带来更好的结果。唯的限制因素是将计算扩展到人类可以获得反馈并修改架构的时间尺度。在数据中、云中，利率就是切。Nvidia 因其卓越的软件而受到赞誉的半原因是，在 GPU 的几代生命周期中，Nvidia 断更新低级软件，通过在芯周围、芯之间和芯之间更智能地移动数据来提高 FLOPS 利率。扩展人智能（真正的人智能砖墙）的更重要问题是推理。标是将训练计算与推理计算分离。这就是为么训练 Chinchilla 对于任何将要部署的模型来说都是最佳的。这就是为么要进稀疏模型架构；每个参数在推理过程中都会被激活。阅读全这项作将在多个县和公司重复进。这是新的太空竞赛。以前的浪费与现在的区别在于，人智能可以在短期内从人类助手和主代理身上带来有形的价值。由于内存带宽要求，即使在最新的 Nvidia H100 GPU 服务器上，万亿参数密集模型在数学上也法实现此吞吐量。每个生成的令牌都需要每个设备上的人智能?双刃剑这些公司和整个社会可以而且将会花费超过千亿美元来创建可以训练单个规模模型的超级计算机。然后可以通过多种方式将这些型模型产品化。前多数例中的 LLM 推理都是作为实时助手运，这意味着它必须实现够高的吞吐量，以可以实际使它。人类平均每分钟阅读约 250 个单词，但有些人的阅读速度高达每分钟约 1,000 个单词。这意味着您需要每秒少输出 8.33 个令牌，但每秒需要输出 33.33 个令牌才能覆盖所有极端情况。Machine Translated by Google模型架构参数从内存加载到芯上。然后，将生成的令牌输到提示中，并生成下个令牌。此外，注意力机制的 KV 缓存中的流传输需要额外的带宽。上图展示了以够高的吞吐量推理 LLM 以为单个提供服务所需的内存带宽。它表明，即使 8x H100 也法以每秒 33.33 个令牌的速度提供 1 万亿参数密集模型。此外，每秒 20 个令牌的 8xH100 的 FLOPS 利率仍低于 5%，导致推理成本非常高。实际上，前的 8 张量并 H100 系统存在约 3000 亿个前馈参数的推理约束。废话够多了，我们来谈谈 GPT4 模型架构、训练基础设施、推理基础设施、参数计数、训练数据集组成、标记计数、层数、并策略、多模态视觉编码器、同程权衡背后的思维过程、独特的实施的技术，以及它们如何缓解与型模型推理相关的些最瓶颈。GPT4 的是 GPT3 的 10 倍以上。我们认为它在 120 层中总共拥有约 1.8 万亿个参数，而 GPT3 拥有约 1750 亿个参数。OpenAI 通过利专家混合 (MoE)模型能够将成本保持在合理水平。如果您熟悉MoE，请阅读我们关于泛的 GPT4 架构和 6 个起的培训成本的章该图假设由于法融合每个操作而导致效率低下，注意力机制所需的内存带宽以及硬件开销相当于参数读取。事实上，即使使“优化”的库（例如Nvidia 的 FasterTransformer 库），总开销也会更。然而，OpenAI 正在通过 A100 实现人类的阅读速度，其模型超过 1 万亿个参数，并且以每 1,000 个代币仅 0.06 美元的低价泛提供。那是因为它是稀疏的，IE 并是每个参数都被使。Machine Translated by Google预训练阶段的上下长度 (seqlen)为 8k。GPT4 的 32k seqlen 版本是基于预训练后的 8k 进微调的。此外，OpenAI 在其模型中使了 16 位专家，每个专家约有 111B 个 MLP 参数。每个前向传递都会由其中 2 名专家。这与纯密集模型每次前向传递所需的约 1.8 万亿个参数和约 3,700 TFLOP 形成鲜明对。从理论上讲，在考虑数据通信与计算时间时，管道太多了，但如果它们受到内存容量的限制，那么这是有意义的。前。ScaleAI 以及内部有数百万指令微调数据。幸的是，我们法找到更多关于他们的 RLHF 数据的信息。每个前向传递推理（生成 1 个令牌）仅利约 280B 参数和约 560 TFLOP。该数据集是 13 万亿个独特的代币。相反，由于缺乏高质量的令牌，数据集包含多个纪元。基于本的数据有 2 个纪元，基于代码的数据有 4 个纪元。有趣的是，这远远低于 Chinchilla 最优值，这表明需要在双倍的令牌数量上训练模型。这表明络上缺乏于获取的代币。那有 1,000 倍以上的高质量本标记，甚更多的频和视频，但获取它们并像络抓取那么简单。在所有 A100 GPU 上进并化的策略关重要。他们利 8 张量并性，因为这是 NVLink 的限制。除此之外，我们听说他们正在使 15 管道并性。此外，约有约 55B 个共享参数需要注意。当纯管道 +张量并时，每个 GPU FP16 的参数约为 30GB。旦添加 KV 缓存和开销，如果 OpenAI 的 GPU 部分是 40GB A100，这在理论上是有意义的。他们可能使了 ZeRo Stage 1。他们也可能使了块级 FSDP，或者混合共享数据并。OpenAI 在约 13 万亿代币上训练了 GPT4。这是有道理的，因为 CommonCrawl for RefinedWeb 包含约 5 万亿个优质代币。作为参考，Deepmind 的 Chinchilla 和 Google 的 PaLM 模型分别使约 1.4 万亿个令牌和约 0.78 万亿个令牌进训练。据称，甚 PaLM 2 也接受了约 5 万亿个代币的训练。虽然献中量讨论了于选择将每个代币由到哪些专家的高级由算法，但据称对于当前的 GPT4 模型来说，OpenAI 的算法相当简单。集群上的批量在几天内逐渐增加，但到最后，OpenAI 使的批量已达到 6000 万！当然，这“只是”每个专家 750 万个代币的批量，因为并非每个专家都能看到所有代币。并策略数据集组成Machine Translated by Google培训费如果他们在云中的成本约为每 A100 时 1 美元，那么仅此次运的培训成本就约为 6300 万美元。这忽略了所有的实验、失败的训练运以及其他成本，例如数据收集、RLHF、人员等。由于这些因素，真正的成本要高得多。此外，这意味着您有人购买芯/络/数据中，吸收资本出，并将其出租给您。虽然 OpenAI 在多数节点之间具有高速络，但可能并非在所有节点之间都具有高速络。我们相信少有些集群的连接带宽其他集群低得多。另个原因是这么多 GPU 之间的 allreduce 成本极高。正如我们所怀疑的，如果集群实际上是堆较的集群，它们之间的络要弱得多，即集群各段之间的 IE 800G/1.6T 阻塞，但这些段仅以 200G/400G 连接，则情况尤其如此。于为么他们使完整模型的FSDP，可能是因为通信开销较高。到今底，Meta 将拥有超过 100,000 台 H100，但其中很部分将分布在其数据中于推理。它们最的单个集群仍将超过25,000 台 H100。OpenAI 的 GPT4 训练 FLOPS 约为 2.15e25，在约 25,000 个 A100 上运 90 100 天，MFU 约为 32%36%。这种极低利率的部分原因是由于需要重新启动检查点的故障数量过多。上述泡沫的成本极高。请注意，我们相信到今底将有 9 家公司拥有更多 H100。并非所有这些公司都会将所有这些都专于次训练，但那些这样做的公司将拥有更的模型。如今，预训练可在约 55 天内使约 8,192 个 H100 完成，费为 2150 万美元，每 H100 时 2 美元。我们明他们如何避免在如此高的管道并性的情况下每批都出现巨的气泡。很可能他们只是吃了成本。Machine Translated by Google推理权衡专家权衡的混合1.延迟?模型必须以合理的延迟做出响应。人们想在等待其输出在聊天应程序中开始流式传输之前等待很多秒。预填充（输令牌）和解码（输出令牌）需要同的时间来处理。此外，减少专家的参与也有助于他们的推理基础设施。当转向混合专家推理架构时，存在各种困难的权衡。让我们从法学硕推理的基本权衡开始，然后再讨论 OpenAI 面临的问题以及他们做出的选择。昂贵。虽然较高的延迟和较低的吞吐量可于将更多的请求分组在起到今底，许多公司将拥有训练 GPT4 规模模型的计算资源。型语言模型的推理存在 3 个主要权衡，这些权衡沿着批量（服务的并发数量）维度和所使的芯数量进。研究人员表明，使 64 到 128 名专家使 16 名专家可以实现更好的损失，但这纯粹是研究结果。选择较少的专家有多种原因。OpenAI 选择 16 名专家的原因之是因为更多的专家很难在许多任务上进泛化。更多的专家也可能更难以实现收敛。面对如此规模的训练，OpenAI 相反选择在专家数量上更加保守。对于 Nvidia 阅读本的人来说，您需要尽快使此具进 LLM 推理，否则事实上的具将成为个开放具，可以更轻松地添加第3方硬件持。波巨模即将到来。如果推理方面没有软件优势，论如何都需要手写内核，那么AMD的MI300就有更的市场和其他硬件。3.利率?运模型的硬件必须达到高利率，否则就太高了话虽如此，OpenAI 也做出了多种权衡。例如，MoE 在推理上非常难以处理，因为并非模型的每个部分都会在每次代币生成中使。这意味着当其他部件正在使时，部件可能会处于休眠状态。在服务时，这确实会损害利率。人类使时需要每秒约 30 个令牌。较低和较高的吞吐量对于各种其他例来说都是可以的。在开始之前，顺说，我们想指出，我们接触过的每家法学硕公司都认为 Nvidia 的 FasterTransformer 推理库相当糟糕，而 TensorRT 更糟糕。缺乏采 Nvidia 模板并对其进修改的能力意味着人们从头开始创建己的解决方案。MoE 是减少推理期间参数数量的好方法，同时仍然增加参数数量，这是为每个训练令牌编码更多信息所必需的。这是必要的，因为获得够的高质量代币非常困难。如果 OpenAI 真的想要让 Chinchilla 达到最佳状态，他们就必须使 2 倍的代币进训练。2.吞吐量?模型必须每秒输出定数量的令牌。某处Machine Translated by Google并实现更高的利率，但它们却让事情变得更加困难。计算时间几乎为零。许多人认为内存容量是 LLM 推理的主要瓶颈，因为模型的可以适应许多芯，但这是正确的。虽然型模型需要多个芯来进推理，并且更高的内存容量会导致它们安装在更少的芯上，但实际上最好使所需容量更多的芯，这样可以降低延迟，提高吞吐量，并实现更的批量尺寸可于越来越高的利率。LLM 推理就是要平衡两个要点：内存带宽和计算。最简单的术语来说，每个参数都必须被读取，并且它有 2 个与之关联的 FLOP。因此，多数芯的率（H100 SXM 只有 3TB/s 的内存带宽，但 FP8 的 2,000 TFLOP/s）在批量为 1 时的推理完全平衡。如果只服务 1 个，则批量1，那么每次令牌生成的每个参数中流式传输所需的内存带宽将主导推理时间。为了有效地将型语言模型扩展到许多，批量必须超过 1。多个分摊参数读取成本。例如，在批量为 256 或 512 时，读的每个内存字节有 512 FLOP/s 或 1024 FLOP/s。此率与 H100 的内存带宽与 FLOPS 更接近。这有助于实现更高的利率，但随之而来的缺点是延迟更高。Machine Translated by GoogleGPT4 推理权衡和基础设施如果应程序需要生成具有长注意力上下的本，则会增加推理时间。对于具有多头注意力的 500B+模型，注意力 KV 缓存会变得很：对于批量 512 和上下长度 2048，KV 缓存总计 3TB，是模型参数的 3 倍。每生成个令牌，上存储器就需要从外存储器加载次 KV 缓存，在此期间芯的计算核基本上处于空闲状态。如果应程序需要尽可能低的延迟，我们就需要应更多的芯，并以尽可能多的方式对模型进划分，以实现盈利。较的批量通常可以实现较低的延迟，但较的批量也会导致 MFU 利率较差，从而导致每个令牌的总成本较高（以码秒或美元计算）。虽然我们今天只简单讨论它，但应该注意的是，随着批量和 seqlen 的增长，KV 缓存的内存需求容量会呈爆炸式增长。Google 在其 PaLM 推理论中展示了这些权衡。然而，值得注意的是，这是针对像 PaLM 这样的密集模型，而是像 GPT4 这样的稀疏模型。上述所有内容对于 GPT4 推理来说都很困难，但混合专家 (MoE)的模型架构引了系列全新的困难。每个代币生成前向传递都可以由到同的专家组。这给在较高批量下沿吞吐量、延迟和利率轴实现的权衡带来了烦。记忆时间的权重加载部分和非注意力计算时间都与模型成正，与芯数量成反。然而，对于给定的分区布局，芯间通信所需的时间随着使的芯数量的增加而减少得太快（或根本减少），因此随着芯数量的增加，它成为个越来越重要的瓶颈。更多的芯和更高的批量是最宜的，因为利率提高，但这也引了第三个变量，即络时间。些跨芯分割模型的方法对于延迟来说更有效，但会牺牲利率。较长的序列长度对内存带宽和内存容量的影响尤其严重。OpenAI 的 16k seqlen GPT 3.5 Turbo 和 32k seqlen GPT 4 价格昂贵得多，因为由于内存限制，它们法利更的批量。较的批量会导致较低的硬件利率。此外，随着序列长度的增加，KV 缓存会膨胀。KV 缓存法在之间共享，因此需要单独的内存读取，进步成为内存带宽的瓶颈。稍后将详细介绍 MQA。如果应程序需要离线推理并且关延迟，则主要标是最化每芯吞吐量（即最化每个令牌的总成本）。增加批是最有效的，因为较的批通常会带来更好的 MFU 利率，但某些对于批效的分区策略会随着批变而变得高效。Machine Translated by GoogleGPT4 推理成本多查询注意力尽管前馈参数仅为 1.6 倍，但 GPT4 的成本是 175B 参数 Davinchi 模型的 3 倍。这主要是由于 GPT4 需要更的集群，而利率却低得多。推理基础设施是 OpenAI 专家数量少得多的主要原因。如果他们配备更多数量的专家，内存带宽将成为推理的瓶颈。OpenAI 的推理集群经常达到 4k+的批量，这意味着即使在专家之间实现最佳负载平衡，专家的批量也只有 500。这需要量的使才能实现。OpenAI 的 GPT4 有 16 个专家，每个前向传递有 2 个专家。这意味着，如果批量为 8，则为每个专家读取的参数可能仅为批量 1。更糟糕的是，这可能意味着 1 位专家的批量可能为 8，而其他专家的批量可能为 4 或 1或 0。每生成个令牌，由算法都会以同的方向发送前向传递，从而导致令牌到令牌延迟以及专家批量的显着变化。层数为 120，因此很容在 15 个同的节点之间进划分，但由于第个节点需要进数据加载和嵌，因此在推理集群的头节点上放置较少的层是有意义的。此外，还有些猜测性解码的传闻，我们稍后会讨论，但我们确定是否相信它们。这也可以解释为么头节点需要包含如此少的层。这可能是个错误的假设，因为很明显 OpenAI 有时利率很低。我们假设 OpenAI 在低谷时间关闭集群，并重新调整这些节点的途，以从尝试各种新技术的较测试模型的检查点恢复训练。这有助于保持较低的推理成本。如果 OfpenAI 这样做，他们的利率会更低，我们的成本估计会增加倍以上。包含同专家的各个层会跨同节点进分解，因为这会使络流量变得太规则，并且在每个令牌生成之间重新计算 KV 缓存的成本太高。未来 MoE 模型扩展和条件由的最困难是如何处理 KV 缓存周围的由。我们认为，128 个 A100 推断 GPT4 8k seqlen 的每 1k 代币成本为 0.0049 美分，128 个 H100 推断 GPT4 8k seqlen 的每 1k 代币成本为 0.0021 美分。应该指出的是，我们假设利率很高，并保持较高的批量。我们的理解是 OpenAI 在 128 个 GPU 的集群上运推理。他们在多个数据中和地区拥有多个这样的集群。推理是在8张量并和16管道并下完成的。每个包含 8 个 GPU 的节点只有约 130B 参数，或者在 FP16 下每个 GPU 于 30GB，在 FP8/int8 下每个 GPU 于 15GB。只要所有批次的 KV 缓存会膨胀太，推理就可以在 40GB A100 上运。Machine Translated by Google推测性解码连续配料OpenAI 实现了可变批量和连续批量处理。这是为了允许定程度的最延迟并优化推理成本。如果您熟悉这个概念，AnyScale的此面值得读。质量保证这是其他人都在做的事情，但我们想指出 OpenAI 也是如此。长话短说，KV 缓存只需要 1 个磁头，并且可以显着减少内存容量。即如此，32k seqlen GPT4 绝对法在 40GB A100 上运，并且 8k 受到最批量的限制。如果没有它，8k 的最批量将受到显着限制，达到经济的程度。使法学硕通常分为两个阶段。首先，prefill，提示通过模型运，生成 KV 缓存和第个输出 logits（可能的 token 输出的概率分布）。这通常很快，因为整个提示可以并处理。我们从些可靠的人那听说 OpenAI 在 GPT4 推理上使推测性解码。我们确定我们是否相信它是清楚的。令牌与令牌延迟的般变化执简单检索任务与更复杂任务时的差异似乎表明这是可能的，但有太多变量需要了解。为了以防万，我们将在这通过使“通过分阶段推测解码加速 LLM 推理”中的些本并进些修改/添加些颜来解释它。Machine Translated by Google视觉多模态当前的推测方法预测批次的单个序列。然而，这能很好地扩展到批量或低拔模模型对齐。直观上，两个模型对长连续标记序列达成致的概率呈指数级低，这意味着随着计算强度的扩，推测性解码的回报会迅速递减。这就是 OpenAI 的 API 调中输令牌输出令牌宜得多的原因。其次，它提供的收益通常与其他方法正交，因为它的性能来将顺序执转换为并执。它是与本编码器分开的视觉编码器，但存在交叉注意力。我们听说该架构与 Flamingo 类似。这在GPT4的1.8T之上增加了更多参数。在仅进本预训练之后，它又使约 2 万亿个令牌进了微调。第二阶段是解码。从输出的 logits 中选择个 token 并将其反馈到模型中，该模型为下个 token 生成 logits。重复此操作，直到产生所需数量的令牌。由于每次必须按顺序对流经计算单元的权重进解码才能生成单个令牌，因此当批量运时，第二阶段的算术强度（即计算的 FLOP/内存带宽的字节）非常低。因此，解码通常是回归生成中最昂贵的部分。视觉多模态功能是 GPT4 中最令人印象深刻的部分，少与领先的研究相是这样。当然，前还没有人将多模式法学硕的研究商业化。推测性解码会牺牲计算带宽。推测性解码成为有吸引力的性能程标有两个关键原因。首先，它根本会降低模型质量。但是，如果较的模型拒绝草稿模型预测的标记，则该批次的其余部分将被丢弃，算法然会恢复到标准的逐个标记解码。推测解码还可以伴随拒绝采样方案以从原始分布中采样。请注意，这仅在带宽成为瓶颈的批量设置中有。我们相信，如果 OpenAI 使推测性解码，他们很可能只将其于约 4 个令牌的序列。顺说，降低 GPT4 质量的整个阴谋可能只是因为他们让预言机模型接受来推测解码模型的较低概率序列。另个旁是，有些人推测巴德使推测性解码，因为谷歌会等待整个序列生成后再将其发送给，但我们相信这种推测是真的。推测性解码的基本思想是使更、更快的草稿模型提前解码多个令牌，然后将它们作为单个批次输到预言机模型中。如果草稿模型的预测是正确的（更的模型也同意这点），人们可以单个批次解码多个令牌，这可以节省量的内存带宽，从而为每个令牌节省时间。在视觉模型上，OpenAI想从头开始训练，但还够成熟，所以他们想从本开始来规避风险。Machine Translated by Google他们训练的下个模型 GPT5 据称将从头开始训练视觉，并且也能够生成图像。此外，它还可以处理频。对于 LLM 的所有这些过度优化，件有趣的事情是视觉模型的 IO 成本与本模型的 IO 成本同。在本模型上，正如我们在亚逊云危机中所描述的那样，它非常宜。这对于硬件供应商来说非常重要，他们在 23 后围绕法学硕的例和率优化硬件。他们可能会发现己处于个每个模型都具有强的视觉和频功能的世界。他们可能会发现他们的架构太适应。般来说，该架构肯定会发展超过我们今天看到的当前简化的基于本的密集和/或 MoE 模型。/付费内容这种视觉功能的主要的之是让主代理能够阅读并转录图像和视频中的内容。他们训练的些数据是联合数据（渲染的 LaTeX/本）、屏幕截图、YouTube 视频：采样帧，并围绕它运 Whisper 以获得转录本。从视觉上看，数据加载的 IO 高出约 150 倍。每个标记 600 个字节，而是像本那样 4 个字节。在图像压缩方面正在进量作。Machine Translated by Google

展开阅读全文