刚刚，Meta发布Llama 4系列模型

4,915 0 0

文章摘要

Meta今日发布了Llama 4系列模型，标志着其在人工智能领域的又一重要进展。Llama 4系列是首批开放权重的原生多模态模型，支持超长上下文，并首次采用了混合专家（MoE）架构。这种架构在训练和推理时更为高效，能够在固定的计算量预算下提供更高的模型质量。Llama 4系列通过在200种语言上进行预训练，支持开源微调工作，其中100多种语言的训练数据超过10亿个Token，总体多语言Token数量是Llama 3的10倍。

Llama 4系列包括Llama 4 Scout、Llama 4 Maverick和预览版的Llama 4 Behemoth。Llama 4 Scout拥有170亿个活跃参数，分布在16个“专家”模型中，整体参数接近1090亿。它是性能最强的小型模型，运行速度极快，天生支持多模态，并实现了业界领先的1000万+ Token上下文窗口，可以在单个H100 GPU上运行。Llama 4 Scout在预训练和后训练中均采用了256K的上下文长度，使其具备超长上下文的泛化能力，在检索任务和代码累积负对数似然（NLL）任务中表现出色，并在编码、推理、长上下文和图像基准方面超越了同类模型。

Llama 4 Maverick则包含170亿个活跃参数，分布在128位“专家”模型中，总参数高达4000亿。与Llama 3.3 70B相比，Llama 4 Maverick价格更低，性能更强，在编码、推理、多语言、长上下文和图像基准测试中超越了GPT-4o和Gemini 2.0 Flash等同类模型，并在编码和推理方面与最新发布的DeepSeek v3.1相媲美。Llama 4 Maverick在图像和文本理解方面表现尤为突出，能够跨越语言障碍，适用于高级AI应用，尤其在通用助手和聊天场景中表现出色。其实验性聊天版本在LMArena上得分为1417，排名第二，成为第四个突破1400分的模型。Llama 4 Maverick可以在单个NVIDIA H100 DGX主机上运行，部署方便，通过分布式推理实现最高效率。

Llama 4 Behemoth是Meta迄今为止最强大的模型，也是世界上最智能的大模型之一。在多个STEM基准测试中，Llama 4 Behemoth超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro，目前仍在训练中。Llama 4 Scout和Maverick现已可在llama.com和Hugging Face上下载，用户还可以在WhatsApp、Messenger、Instagram Direct和Meta.AI网站上体验Llama 4的新功能。