击败GPT-4o的开源模型如何炼成?关于Llama 3.1 405B,Meta都写在这篇论文里了
文章摘要
【关 键 词】 Llama 3.1、大型语言模型、Meta公司、多模态扩展、技术挑战
Llama 3.1是由Meta公司发布的新一代大型语言模型,其上下文长度扩展至128K,并推出了8B、70B和405B三个版本,显著提升了大模型赛道的竞争标准。Llama 3.1 405B版本在开源基础模型的能力上取得了重要突破,Meta官方表示其性能可与顶尖闭源模型相媲美。在关键基准测试中,405B模型的性能与GPT-4o十分接近。
Meta公司还发布了《The Llama 3 Herd of Models》论文,详细阐述了Llama 3系列模型的研究细节。Llama 3.1 405B在预训练阶段使用了8K上下文长度,之后使用128K上下文长度进行连续训练,支持多语言和工具使用。与之前的Llama模型相比,Meta在预处理和预训练数据的Curation pipelines以及后训练数据的质量保证和过滤方法上进行了加强。
高质量基础模型的开发需要关注数据、规模和复杂性管理三个关键因素。Meta在大约15万亿的多语言Token语料库上对Llama 3进行了预训练,预训练模型规模远大于之前的Llama模型。在后训练阶段,Meta使用405B旗舰模型进一步提升了70B和8B模型这些较小模型的质量。
为了支持405B模型的大规模生产推理,Meta将16位(BF16)量化为8位(FP8),降低了计算要求,使模型能够在单个服务器节点上运行。在15.6T token的预训练中,Meta优化了整个训练堆栈,并使用了超过16K H100 GPU。
在后训练中,Meta通过多轮对齐来完善Chat模型,包括监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。大多数SFT样本由合成数据生成。研究者在设计中做出了一些选择,以最大化模型开发过程的可扩展性,例如选择标准的密集Transformer模型架构,采用相对简单的后训练程序。
作为Llama 3开发过程的一部分,Meta团队还开发了模型的多模态扩展,使其具备图像识别、视频识别和语音理解的能力。这些模型仍在积极开发中,尚未准备好发布,但论文展示了对这些多模态模型进行初步实验的结果。
Meta更新了许可证,允许开发者使用Llama模型的输出结果来增强其他模型。发布之后,Llama 3.1的生态系统已准备就绪,超过25个合作伙伴提供了可与最新模型搭配使用的服务,包括亚马逊云科技、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud和Snowflake等。
对于普通开发者来说,如何利用405B规模的模型是一项挑战,需要大量的计算资源和专业知识。更多技术细节,可参考原论文。
原文和模型
【原文链接】 阅读原文 [ 1153字 | 5分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆