击败GPT-4o的开源模型如何炼成？关于Llama 3.1 405B，Meta都写在这篇论文里了

AIGC动态1年前 (2024)发布 almosthuman2014

2,353 0 0

击败GPT-4o的开源模型如何炼成？关于Llama 3.1 405B，Meta都写在这篇论文里了

文章摘要

【关键词】 Llama 3.1、大型语言模型、Meta公司、多模态扩展、技术挑战

Llama 3.1是由Meta公司发布的新一代大型语言模型，其上下文长度扩展至128K，并推出了8B、70B和405B三个版本，显著提升了大模型赛道的竞争标准。Llama 3.1 405B版本在开源基础模型的能力上取得了重要突破，Meta官方表示其性能可与顶尖闭源模型相媲美。在关键基准测试中，405B模型的性能与GPT-4o十分接近。

Meta公司还发布了《The Llama 3 Herd of Models》论文，详细阐述了Llama 3系列模型的研究细节。Llama 3.1 405B在预训练阶段使用了8K上下文长度，之后使用128K上下文长度进行连续训练，支持多语言和工具使用。与之前的Llama模型相比，Meta在预处理和预训练数据的Curation pipelines以及后训练数据的质量保证和过滤方法上进行了加强。

高质量基础模型的开发需要关注数据、规模和复杂性管理三个关键因素。Meta在大约15万亿的多语言Token语料库上对Llama 3进行了预训练，预训练模型规模远大于之前的Llama模型。在后训练阶段，Meta使用405B旗舰模型进一步提升了70B和8B模型这些较小模型的质量。

为了支持405B模型的大规模生产推理，Meta将16位(BF16)量化为8位(FP8)，降低了计算要求，使模型能够在单个服务器节点上运行。在15.6T token的预训练中，Meta优化了整个训练堆栈，并使用了超过16K H100 GPU。

在后训练中，Meta通过多轮对齐来完善Chat模型，包括监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。大多数SFT样本由合成数据生成。研究者在设计中做出了一些选择，以最大化模型开发过程的可扩展性，例如选择标准的密集Transformer模型架构，采用相对简单的后训练程序。

作为Llama 3开发过程的一部分，Meta团队还开发了模型的多模态扩展，使其具备图像识别、视频识别和语音理解的能力。这些模型仍在积极开发中，尚未准备好发布，但论文展示了对这些多模态模型进行初步实验的结果。

Meta更新了许可证，允许开发者使用Llama模型的输出结果来增强其他模型。发布之后，Llama 3.1的生态系统已准备就绪，超过25个合作伙伴提供了可与最新模型搭配使用的服务，包括亚马逊云科技、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud和Snowflake等。

对于普通开发者来说，如何利用405B规模的模型是一项挑战，需要大量的计算资源和专业知识。更多技术细节，可参考原论文。