文章摘要
【关 键 词】 AI科学家、Llama模型、Transformer、数据优化、agent技术
Meta的AI科学家Thomas Scialom在Latent Space播客节目中分享了Llama 3.1的研发思路和Llama 4的更新方向。Llama 3.1的参数规模选择考虑了多种因素,如scaling law、训练时间、硬件约束等,旨在找到推理效率的平衡点。尽管模型规模大,但通过FP8量化,可以在单节点上运行。Scialom强调了开源社区的力量,希望Llama 3.1能像之前的版本一样,在社区的推动下变得更加易于运行。
在Scaling Law方面,Scialom认为模型规模是重要因素,但GPT-3的参数量超出了token总量的要求。Chinchilla论文强调了训练数据token总量的重要性,但Meta希望在有限算力下,通过增加训练token数和训练时长,让模型达到过度训练状态,以获得更好的推理表现。
Llama 3的架构与Llama 2相比没有太大变化,但在数据规模和质量方面做出了很多努力。Scialom认为Transformer架构仍有很大的改进空间,如对每个token使用等量的算力并不合理。关于MoE架构,他认为稠密模型只是MoE的一个特定变体,未来可能会在这个超参数上继续探索。
在数据方面,Scialom表示公开互联网上的文本垃圾过多,使用这些token训练模型是对算力的浪费。Llama 3的后训练过程完全依赖合成数据,他认为合成数据的前景非常乐观。此外,他还提到了模型评估的挑战,尤其是在面对具有多种功能的模型时。多轮RLHF是比较模型的一个好方法。
Meta已经开始训练Llama 4模型,重点可能围绕agent技术。Scialom提到,如果没有优秀的指令模型,Toolformer等agent工具的扩展和能力将受到限制。Meta曾发布GAIA基准,用于评估模型解决现实世界问题的能力。基于GPT-4的agent系统在该基准上取得了很好的成绩,体现了模型的智力差距。Scialom认为,agent的各种能力与模型的智力差距是类似的。有了足够强大的Llama 3,他将重新专注于agent的构建,实现模型互联,形成一个复杂的agent系统,扩展多种功能。
原文和模型
【原文链接】 阅读原文 [ 2045字 | 9分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★