全球首个「开源GPT-4」出世！Llama 3震撼发布，Meta AI免登录可用

AIGC动态1年前 (2024)发布 AIera

2,874 0 0

全球首个「开源GPT-4」出世！Llama 3震撼发布，Meta AI免登录可用

文章摘要

Meta公司最近发布了其最新的大型语言模型Llama 3，这是一个在24000块GPU上训练的模型，它在开源大模型中取得了显著的性能提升。Llama 3的8B和70B版本在同规模参数下达到了开源领域的最佳状态（SOTA），并且推理编码能力大幅提升。值得注意的是，Meta还计划推出一个更大的400B版本的Llama 3，预计将在未来几个月内发布。

Llama 3的发布引起了业界的广泛关注，因为它被认为是首个开源的GPT-4级别模型。这一里程碑意味着开源模型正在追赶闭源模型的性能。Llama 3的发布后不久，就在Hugging Face排行榜上取得了领先地位。Meta宣布，Llama 3是在一个由24000块GPU组成的定制集群上训练的，使用了15万亿个token。即使是最小的8B版本，有时也能超越规模更大的Llama 2 70B版本。

在性能方面，Llama 3 400B版本在多个基准测试中表现出色，包括ARC-Challenge、GSM-8K、Human-Eval和MMLU等。与其他模型如Claude 3 Opus、GPT-4和Gemini进行比较，Llama 3 400B在多项任务中都显示出竞争力。此外，Meta还计划在未来几个月内发布具有多种新功能的模型，包括多语言对话、更长上下文和整体能力提升。

在技术层面，Llama 3采用了Transformer架构，并进行了关键改进，例如使用了一个具有128K个token的分词器和分组查询注意力（GQA）机制，以提高模型的推理速度。Llama 3的训练数据集比Llama 2的大7倍，包含了更多的代码，并且有超过5%的高质量非英语数据。

Meta在扩大预训练规模方面也做了大量工作，开发了一系列缩放定律来优化训练计算资源的使用。此外，为了训练最大的Llama 3模型，Meta结合了数据并行、模型并行和流水线并行三种并行化方式，并在两个定制的24K GPU集群上进行了训练。

在模型部署方面，Meta采用了一种新的系统级方法，将Llama模型视为更广泛系统的一部分，并在模型安全方面进行了大量工作。例如，Meta开发了Llama Guard模型和Code Shield，以及更新了负责任使用指南（RUG），以确保模型的安全使用。

最后，Meta还发布了网页版Meta AI，用户可以不需要登录即可体验Llama 3模型。此外，Meta AI还集成到了Facebook、Instagram、WhatsApp和Messenger等社交应用中，使用户能够无缝地访问实时信息和AI助手功能。