Llama 3.1横空出世!开源巨无霸首次击溃闭源,全民GPT-4时代来临

AIGC动态5个月前更新 AIera
800 0 0
Llama 3.1横空出世!开源巨无霸首次击溃闭源,全民GPT-4时代来临

 

文章摘要


【关 键 词】 开源AILlama 3.1技术突破多语言能力行业标准

Llama 3.1 405B模型的发布标志着开源人工智能领域的一个重要里程碑。这一模型在多项基准测试中超越了现有的闭源模型,如GPT-4o和Claude 3.5 Sonnet,成为目前最强大的模型之一。LeCun总结了Llama 3.1模型的关键特点,包括与顶尖闭源模型相媲美的性能、开源免费使用权重和代码、支持微调和蒸馏、以及128k的上下文长度等。此外,Llama 3.1还具备多语言能力、良好的代码生成能力和复杂推理能力。

Meta CEO小扎在博客中强调了开源AI的重要性,将其比作Linux的胜利,认为开源AI将推动行业发展。他指出,开源模型允许开发者自由地训练、微调和蒸馏自己的模型,避免被单一供应商限制,保护数据安全,降低运行成本,并有望成为行业标准。Llama 3.1的发布被视为行业转折点,预示着开源AI的崛起。

Llama 3.1模型的论文详细介绍了其技术细节,包括预训练数据、训练方法、推理策略等。论文指出,Llama 3.1的数据总量和质量都有所提高,训练使用了超过1.6万个英伟达H100 GPU,计算总量达到3.8e25 FLOPS。模型架构方面,Llama 3.1采用了decoder-only架构的稠密Transformer,并引入了分组查询注意力和注意力掩码等技术,以提高性能和稳定性。

在评测结果中,Llama 3.1 405B在多种任务中表现出色,与GPT-4和Claude 3.5 Sonnet等闭源模型相比具有竞争力。8B和70B的小模型在参数量相似的闭源和开源模型中也表现出色。Llama 3.1 405B在人类评估中与GPT-4不相上下,但在与Claude 3.5 Sonnet的比较中更具优势。

Meta还发布了92页的技术报告,详细介绍了Llama 3.1的开发过程和关键技术。报告中提到,Llama 3.1的训练采用了4D并行方案,GPU利用率约为38%~41%,并在训练过程中实现了90%的有效训练时间。此外,报告还探讨了如何提高模型的编码能力、多语种能力、数学推理能力、长上下文处理能力和工具使用能力。

总的来说,Llama 3.1 405B的发布不仅展示了开源AI的强大潜力,也为开发者提供了一个强大的工具,有望推动人工智能技术的进一步发展。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 5553字 | 23分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...