解密：GPT-4框架与训练过程，数据集组成，并行性的策略，专家权衡，推理权衡等细节内容_speculative decoding

作者：Gausst松鼠会 | 2024-04-03 04:05:52

踩

speculative decoding

大家好，我是微学AI，今天给大家解密一下GPT-4框架与训练过程，数据集组成，并行性的策略，专家权衡，推理权衡等细节内容。2023年3月14日，OpenAI发布GPT-4，然而GPT-4的框架没有公开，OpenAI之所以不公开GPT-4的架构，并不是因为存在对人类的潜在威胁，而是因为他们所建立的模型是可以被复制的。事实上，我们预计Google、Meta、Anthropic、Inflection、Character、腾讯、阿里、百度等公司在短期内都会拥有与GPT-4同样甚至更强大的模型。当然，OpenAI具有令人惊叹的工程能力，他们所构建的东西也是令人难以置信的，但是他们所采用的解决方案并非神奇。这是一个实用的方案，其中包含许多复杂的权衡。OpenAI最大优势在于他们拥有最多的真实世界使用情况、领先的工程人才，并且可以通过未来的模型继续领先其他公司。

GPT-4现状

我们从多个信息源收集到了关于GPT-4的大量信息，今天我们想要分享一些。这包括模型架构、训练基础设施、推理基础设施、参数数量、训练数据集组成、标记数量、层次数量、并行策略、多模态视觉适应性、不同工程权衡背后的思考过程、已实施的独特技术，以及他们如何缓解与庞大模型推理相关的一些最大瓶颈。

GPT-4最有趣的方面在于理解他们为什么做出了某些架构决策。此外，我们还将概述GPT-4在A100上进行训练和推理的成本，并介绍与下一代模型架构使用H100相比的规模。

首先，让我们来看一下问题陈述。从GPT-3到GPT-4，OpenAI希望将规模扩大100倍，但问题的关键在于成本。稠密的Transformer模型无法进一步扩展。稠密的Transformer是OpenAI GPT-3、Google PaLM、Meta LLAMA、TII Falcon、MosaicML MPT等模型所使用的模型架构。我们可以轻松地列举出50家使用相同架构进行LLM训练的公司。这是一个好的架构，但在扩展性方面存在缺陷。

GPT-4框架

GPT-4的规模是GPT-3的10倍以上。据我们了解，它有大约1.8万亿个参数，分布在120个层，而GPT-3只有大约1750亿个参数。

OpenAI通过使用混合专家（MoE）模型，成功地将成本控制在合理范围内。

此外，OpenAI的模型中有16位专家，每位专家的多层感知机（MLP）参数约为1110亿个。每次前向传递（forward pass）有两位专家进行路由。

尽管文献中谈到了选择将每个tokens路由到哪个专家的高级路由算法，但据说OpenAI当前的GPT-4模型相对简单。

此外，注意力机制中大约有550亿个共享参数。

每次前向推导（生成一个标记）时，仅使用大约2800亿个参数和560 TFLOPS。这与完全密集模型每个前向传递所需的大约1.8万亿个参数和3700 TFLOPs形成鲜明对比。

数据集组成

OpenAI在大约13万亿个tokens上对GPT-4进行了训练。考虑到CommonCrawl的RefinedWeb中包含大约5万亿个高质量tokens，这是有道理的。作为参考，Deepmind的Chinchilla模型和Google的PaLM模型分别使用了大约1.4万亿个和0.78万亿个tokens进行训练。甚至据称PaLM 2也是基于大约5万亿个tokens进行训练的。

这个数据集并不包含13万亿个独特的tokens。相反，由于缺乏高质量的tokens，该数据集包含多个时期。文本数据经历了2个时期，而代码数据则经历了4个时期。有趣的是，这远远少于Chinchilla的最佳状态，这表明需要以两倍的tokens数量对模型进行训练。这表明在网络上很难找到易获取的tokens。存在着比之前提到的高质量文本tokens多1000倍的数量，甚至还有更多的音频和视觉tokens，但是获取它们并不像简单的网页

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/354410