Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的

AI-Agent1年前 (2024)发布 AIera

3,133 0 0

Llama 4训练已开启！Meta科学家最新采访，揭秘Llama 3.1是如何炼成的

文章摘要

【关键词】 AI科学家、Llama模型、Transformer、数据优化、agent技术

Meta的AI科学家Thomas Scialom在Latent Space播客节目中分享了Llama 3.1的研发思路和Llama 4的更新方向。Llama 3.1的参数规模选择考虑了多种因素，如scaling law、训练时间、硬件约束等，旨在找到推理效率的平衡点。尽管模型规模大，但通过FP8量化，可以在单节点上运行。Scialom强调了开源社区的力量，希望Llama 3.1能像之前的版本一样，在社区的推动下变得更加易于运行。

在Scaling Law方面，Scialom认为模型规模是重要因素，但GPT-3的参数量超出了token总量的要求。Chinchilla论文强调了训练数据token总量的重要性，但Meta希望在有限算力下，通过增加训练token数和训练时长，让模型达到过度训练状态，以获得更好的推理表现。

Llama 3的架构与Llama 2相比没有太大变化，但在数据规模和质量方面做出了很多努力。Scialom认为Transformer架构仍有很大的改进空间，如对每个token使用等量的算力并不合理。关于MoE架构，他认为稠密模型只是MoE的一个特定变体，未来可能会在这个超参数上继续探索。

在数据方面，Scialom表示公开互联网上的文本垃圾过多，使用这些token训练模型是对算力的浪费。Llama 3的后训练过程完全依赖合成数据，他认为合成数据的前景非常乐观。此外，他还提到了模型评估的挑战，尤其是在面对具有多种功能的模型时。多轮RLHF是比较模型的一个好方法。

Meta已经开始训练Llama 4模型，重点可能围绕agent技术。Scialom提到，如果没有优秀的指令模型，Toolformer等agent工具的扩展和能力将受到限制。Meta曾发布GAIA基准，用于评估模型解决现实世界问题的能力。基于GPT-4的agent系统在该基准上取得了很好的成绩，体现了模型的智力差距。Scialom认为，agent的各种能力与模型的智力差距是类似的。有了足够强大的Llama 3，他将重新专注于agent的构建，实现模型互联，形成一个复杂的agent系统，扩展多种功能。