LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯

AIGC动态1天前发布 QbitAI
167 0 0
LIama 4发布重夺开源第一!DeepSeek同等代码能力但参数减一半,一张H100就能跑,还有两万亿参数超大杯

 

文章摘要


【关 键 词】 AI模型多模态训练创新


训练细节方面,Meta采用了全新的训练技术MetaP,通过设置关键模型超参数,实现了在不同批量大小、模型宽度和深度之间的良好扩展和泛化。Llama 4系列在200种语言上进行预训练,多语言词库总量是Llama 3的10倍,确保了其在全球范围内的广泛适用性。此外,Meta还使用了FP8精度进行高效模型训练,确保了模型FLOPs的高利用率。在后训练阶段,Meta采用了轻量级监督微调(SFT)、在线强化学习(RL)和轻量级直接偏好优化(DPO)等策略,进一步提升了模型的性能。

Llama 4 Behemoth作为Llama 4系列的教师模型,拥有2万亿参数,在数学、多语言和图像基准测试中提供了非推理模型的最先进性能。Meta通过优化MoE并行化设计和开发完全异步的在线RL训练框架,使训练效率提高了约10倍。此外,Meta还在模型API价格方面采取了极具竞争力的策略,使得Llama 4系列在性能和价格上都优于竞争对手。

Llama 4系列的发布不仅展示了Meta在多模态AI领域的领先地位,也为开发者提供了更高效、更经济的模型选择。随着Llama 4系列的推出,AI模型市场的竞争将进一步加剧,OpenAI等竞争对手将面临更大的挑战。未来,Llama 4系列的应用和智能体开发将有望在多个领域取得突破性进展。

原文和模型


【原文链接】 阅读原文 [ 3152字 | 13分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...