全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用

AIGC动态7个月前发布 AIera
1,081 0 0
全球首个「开源GPT-4」出世!Llama 3震撼发布,Meta AI免登录可用

 

文章摘要


【关 键 词】 MetaLlama 3开源模型GPU训练性能提升

Meta公司最近发布了其最新的大型语言模型Llama 3,这是一个在24000块GPU上训练的模型,它在开源大模型中取得了显著的性能提升。Llama 3的8B和70B版本在同规模参数下达到了开源领域的最佳状态(SOTA),并且推理编码能力大幅提升。值得注意的是,Meta还计划推出一个更大的400B版本的Llama 3,预计将在未来几个月内发布。

Llama 3的发布引起了业界的广泛关注,因为它被认为是首个开源的GPT-4级别模型。这一里程碑意味着开源模型正在追赶闭源模型的性能。Llama 3的发布后不久,就在Hugging Face排行榜上取得了领先地位。Meta宣布,Llama 3是在一个由24000块GPU组成的定制集群上训练的,使用了15万亿个token。即使是最小的8B版本,有时也能超越规模更大的Llama 2 70B版本。

在性能方面,Llama 3 400B版本在多个基准测试中表现出色,包括ARC-Challenge、GSM-8K、Human-Eval和MMLU等。与其他模型如Claude 3 Opus、GPT-4和Gemini进行比较,Llama 3 400B在多项任务中都显示出竞争力。此外,Meta还计划在未来几个月内发布具有多种新功能的模型,包括多语言对话、更长上下文和整体能力提升。

在技术层面,Llama 3采用了Transformer架构,并进行了关键改进,例如使用了一个具有128K个token的分词器和分组查询注意力(GQA)机制,以提高模型的推理速度。Llama 3的训练数据集比Llama 2的大7倍,包含了更多的代码,并且有超过5%的高质量非英语数据。

Meta在扩大预训练规模方面也做了大量工作,开发了一系列缩放定律来优化训练计算资源的使用。此外,为了训练最大的Llama 3模型,Meta结合了数据并行、模型并行和流水线并行三种并行化方式,并在两个定制的24K GPU集群上进行了训练。

在模型部署方面,Meta采用了一种新的系统级方法,将Llama模型视为更广泛系统的一部分,并在模型安全方面进行了大量工作。例如,Meta开发了Llama Guard模型和Code Shield,以及更新了负责任使用指南(RUG),以确保模型的安全使用。

最后,Meta还发布了网页版Meta AI,用户可以不需要登录即可体验Llama 3模型。此外,Meta AI还集成到了Facebook、Instagram、WhatsApp和Messenger等社交应用中,使用户能够无缝地访问实时信息和AI助手功能。

原文和模型


【原文链接】 阅读原文 [ 3620字 | 15分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...