Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的

AI-Agent4个月前发布 AIera
923 0 0
Llama 4训练已开启!Meta科学家最新采访,揭秘Llama 3.1是如何炼成的

 

文章摘要


【关 键 词】 AI科学家Llama模型Transformer数据优化agent技术

Meta的AI科学家Thomas Scialom在Latent Space播客节目中分享了Llama 3.1的研发思路和Llama 4的更新方向。Llama 3.1的参数规模选择考虑了多种因素,如scaling law、训练时间、硬件约束等,旨在找到推理效率的平衡点。尽管模型规模大,但通过FP8量化,可以在单节点上运行。Scialom强调了开源社区的力量,希望Llama 3.1能像之前的版本一样,在社区的推动下变得更加易于运行。

在Scaling Law方面,Scialom认为模型规模是重要因素,但GPT-3的参数量超出了token总量的要求。Chinchilla论文强调了训练数据token总量的重要性,但Meta希望在有限算力下,通过增加训练token数和训练时长,让模型达到过度训练状态,以获得更好的推理表现。

Llama 3的架构与Llama 2相比没有太大变化,但在数据规模和质量方面做出了很多努力。Scialom认为Transformer架构仍有很大的改进空间,如对每个token使用等量的算力并不合理。关于MoE架构,他认为稠密模型只是MoE的一个特定变体,未来可能会在这个超参数上继续探索。

在数据方面,Scialom表示公开互联网上的文本垃圾过多,使用这些token训练模型是对算力的浪费。Llama 3的后训练过程完全依赖合成数据,他认为合成数据的前景非常乐观。此外,他还提到了模型评估的挑战,尤其是在面对具有多种功能的模型时。多轮RLHF是比较模型的一个好方法。

Meta已经开始训练Llama 4模型,重点可能围绕agent技术。Scialom提到,如果没有优秀的指令模型,Toolformer等agent工具的扩展和能力将受到限制。Meta曾发布GAIA基准,用于评估模型解决现实世界问题的能力。基于GPT-4的agent系统在该基准上取得了很好的成绩,体现了模型的智力差距。Scialom认为,agent的各种能力与模型的智力差距是类似的。有了足够强大的Llama 3,他将重新专注于agent的构建,实现模型互联,形成一个复杂的agent系统,扩展多种功能。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2045字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...