
文章摘要
【关 键 词】 开源模型、多模态、MoE架构、超长上下文、后训练策略
Meta于4月5日发布了Llama4系列开源模型,包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth。这三种模型分别针对不同的使用需求,展示了Meta在人工智能领域的最新进展。Llama 4 Scout是一款可以在单张H100 GPU上运行的多模态MoE模型,Llama 4 Maverick则在编码和推理能力上击败了GPT-4o和Gemini 2.0,而Llama 4 Behemoth则是一个尚未正式发布的2880亿活跃参数的“巨兽”模型,为整个Llama4系列提供支持。
Llama4系列的技术亮点包括首次采用混合专家架构(MoE),显著提升了训练和推理效率。多模态融合通过早期融合策略统一处理文本、图像和视频,突破了传统多模态模型的分阶段处理限制。此外,Scout支持1000万Token的上下文窗口,通过iRoPE架构实现了“短序列训练,长序列泛化”。在部署方面,Scout支持单张H100 GPU运行,Maverick需要H100 DGX集群,而Behemoth则使用了32000块GPU进行训练。
后训练策略采用了“轻量级SFT → 在线RL → 轻量级DPO”流程,减少了对齐约束,增强了模型的探索能力。引入“自我批判式数据筛选”机制,利用早期模型检查点过滤低质量训练样本,提升了最终性能。Llama4还通过MetaP技术优化了MoE专家超参数设置,并在200种语言上进行了预训练,总体的多语言训练token比Llama3多10倍。
尽管Llama4在技术上有所创新,但与行业预期相比,其原生多模态的做法依然属于常规操作。MetaP技术强调不同尺寸的高效转化,类似于面壁智能提出的“densing law”。对注意力机制的改进也在过去几个月有诸多尝试,Meta的尝试并未带来更彻底的效果。在SFT、RL和DPO的“炼丹”上,DeepSeek R1的更纯粹的RL方法显得更简洁优雅。
Llama4的发布被认为是为了快速跟上领先者的步伐,而不是像Llama2和Llama3那样碾压式领先。Behemoth的最大亮点可能在于其背后的算力资源,Meta表示Behemoth使用FP8和32K GPU训练,实现了390 TFLOPs/GPU。整体看来,Llama4像是Meta给自己一个“台阶”,在DeepSeek爆火之前,它坚持不用MoE架构,这次算是完成了纠错。
在模型发布后,行业内的竞争对手对Llama4的发布时间进行了讨论,有人猜测Meta选择在周末发布是为了避免下周被某个更强模型的发布盖过风头。从领先变回追赶者,Meta AI看来有得忙了。
原文和模型
【原文链接】 阅读原文 [ 1932字 | 8分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆