刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

AIGC动态4个月前发布 AIera

1,007 0 0

刚刚，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

文章摘要

【关键词】 多模态、开源、模型、训练、性能

Llama 4 Behemoth作为教师模型，拥有2880亿个活跃参数和近2万亿个总参数，在数学、多语言处理和图像基准测试方面提供了最先进的性能。通过新的蒸馏损失函数和共同蒸馏方法，Meta从Behemoth中蒸馏出了Llama 4 Maverick，显著提升了模型质量。在后训练阶段，Meta优化了训练方案，精简了95%的SFT数据，并通过轻量级SFT和大规模RL提高了模型的推理和编码能力。

总的来说，Llama 4系列模型的发布不仅巩固了Meta在开源大模型领域的领先地位，还为多模态大模型的应用和发展开辟了新的方向。Llama 4一夜成为开源王者，甚至超越了DeepSeek V3，接下来业界将密切关注DeepSeek R2的发布。

原文和模型

【原文链接】 阅读原文 [ 3492字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★☆☆☆☆

派欧算力云 – AI 云端一体化解决方案: 模型 API、Serverless、GPU 租赁

派欧算力云提供全面的 AI 云端平台解决方案,包括模型 API、Serverless 和高性能 GPU 实例等,帮助您节省高达 50% 的成本,并同时加速 AI 产品的构建和业务发展,助力企业实现创新突破,赢得市场竞争优势。

# AIGC动态 # 图像生成 # 大模型 # 多模态 # 开源 # 性能 # 模型 # 训练

© 版权声明

文章版权归作者所有，未经允许请勿转载。

“绘蛙”

相关文章

真·降维打击，Sora与Runway、Pika的对比来了，震撼效果背后是物理引擎模拟现实世界

机器之心

2,319

OpenAI深夜突发o3-Pro，价格暴降80%，史上最强模型来了

AIGC开放社区

452

Grok-3四档定价揭秘：低至0.3美元/百万token，硬刚谷歌Meta

新智元

1,248

OpenAI推出GPT-4o mini，更小更强更便宜

AI大模型实验室

2,263

生成式AI迎来窗口期，阶跃星辰加速冲刺｜钛媒体AGI

钛媒体AGI

1,863

Le Chat全方面对标ChatGPT，欧洲AI新贵穷追不舍

机器之心

402

“极客训练营”

暂无评论

暂无评论...