
文章摘要
Meta今日发布了Llama 4系列模型,标志着其在人工智能领域的又一重要进展。Llama 4系列是首批开放权重的原生多模态模型,支持超长上下文,并首次采用了混合专家(MoE)架构。这种架构在训练和推理时更为高效,能够在固定的计算量预算下提供更高的模型质量。Llama 4系列通过在200种语言上进行预训练,支持开源微调工作,其中100多种语言的训练数据超过10亿个Token,总体多语言Token数量是Llama 3的10倍。
Llama 4系列包括Llama 4 Scout、Llama 4 Maverick和预览版的Llama 4 Behemoth。Llama 4 Scout拥有170亿个活跃参数,分布在16个“专家”模型中,整体参数接近1090亿。它是性能最强的小型模型,运行速度极快,天生支持多模态,并实现了业界领先的1000万+ Token上下文窗口,可以在单个H100 GPU上运行。Llama 4 Scout在预训练和后训练中均采用了256K的上下文长度,使其具备超长上下文的泛化能力,在检索任务和代码累积负对数似然(NLL)任务中表现出色,并在编码、推理、长上下文和图像基准方面超越了同类模型。
Llama 4 Maverick则包含170亿个活跃参数,分布在128位“专家”模型中,总参数高达4000亿。与Llama 3.3 70B相比,Llama 4 Maverick价格更低,性能更强,在编码、推理、多语言、长上下文和图像基准测试中超越了GPT-4o和Gemini 2.0 Flash等同类模型,并在编码和推理方面与最新发布的DeepSeek v3.1相媲美。Llama 4 Maverick在图像和文本理解方面表现尤为突出,能够跨越语言障碍,适用于高级AI应用,尤其在通用助手和聊天场景中表现出色。其实验性聊天版本在LMArena上得分为1417,排名第二,成为第四个突破1400分的模型。Llama 4 Maverick可以在单个NVIDIA H100 DGX主机上运行,部署方便,通过分布式推理实现最高效率。
Llama 4 Behemoth是Meta迄今为止最强大的模型,也是世界上最智能的大模型之一。在多个STEM基准测试中,Llama 4 Behemoth超越了GPT4.5、Claude Sonnet 3.7和Gemini 2.0 Pro,目前仍在训练中。Llama 4 Scout和Maverick现已可在llama.com和Hugging Face上下载,用户还可以在WhatsApp、Messenger、Instagram Direct和Meta.AI网站上体验Llama 4的新功能。
原文和模型
【原文链接】 阅读原文 [ 746字 | 3分钟 ]
【原文作者】 AI产品阿颖
【摘要模型】 deepseek-v3
【摘要评分】 ★☆☆☆☆