Llama3来了！Meta：如果我给每人发一个GPT-4，阁下如何应对

AIGC动态1年前 (2024)发布 Si-Planet

2,044 0 0

文章摘要

今天，Meta正式发布了他们迄今为止最强大的新一代开源大语言模型 Llama3。Llama3的发布包括两个版本：Llama3 8B和Llama3 70B，它们分别拥有80亿和700亿参数，并且都经过了预训练和指令微调。这两个模型在24K GPU定制集群上使用了15万亿tokens数据进行训练。Meta还在训练一个参数超过400B的“最大Llama3”模型，社区普遍认为这个模型可能会超越目前的闭源领导者GPT-4 Turbo。

Llama3在多个行业基准测试中表现出色，支持多种应用场景。在未来几个月，Meta计划引入多语言对话、多模态、更长上下文和更强大的核心性能等新功能，并与社区分享研究论文。扎克伯格和Meta首席AI科学家Yann LeCun在社交媒体上宣布了这一消息，引起了网友们的热烈讨论。

Llama3在多项测试中超越了Gemini 1.5和Claude Sonnet等模型，显示出在错误拒绝率、一致性和模型响应多样性方面的显著改进。Llama3 8B和70B版本在通用智能评估、困难任务、ARC挑战赛、DROP数据集等方面也表现出色，击败了多个竞争对手。

Meta在模型开发过程中注重创新、扩展规模和优化简洁性。Llama3采用了标准的纯解码器Transformer架构，并引入了分组查询注意力(GQA)机制和8192个tokens的序列训练。在训练数据方面，Llama3使用了超过15万亿个公开可用来源的tokens，数据量是Llama2的7倍，代码量是4倍。此外，Meta还开发了一系列数据过滤管道来保证数据质量，并进行了大量实验来评估不同来源数据的最佳混合方式。

为了更有效地利用预训练数据，Meta开发了一系列扩展法则，并结合了数据并行、模型并行和管道并行三种并行化方式来训练最大的Llama3模型。在指令微调方面，Meta采用了监督微调(SFT)、拒绝采样、邻近策略优化(PPO)和直接策略优化(DPO)的组合，以提高模型在聊天场景中的性能。

Llama3将很快在所有主要平台上可用，包括云服务商、API提供商等，并得到了多家硬件平台的支持。普通用户可以通过Meta AI在WhatsApp、Messenger、Instagram、Facebook等应用中体验Llama3，或者访问Meta AI的网页版。

Meta表示，Llama3 8B和70B只是Llama3系列的开始，未来还会有更多令人期待的功能。一个超过400B参数的最大模型正在训练中，预计将在未来几个月发布。这个模型可能会成为第一个GPT-4级别的开源模型，改变研究工作和创业公司的计算方法。开源模型追上闭源模型的历史时刻可能即将到来，这对开发者和创业公司意味着AI应用可以更快速地涌现和迭代。最后，文章以对GPT-5的期待和好奇结束。