开源模型越来越落后？Llama 3 说李总你真幽默

AIGC动态1年前 (2024)发布 damoxingLab

1,917 0 0

文章摘要

Llama 3 正式发布，被 Meta 宣称为迄今为止最强大的开源大模型。这一版本推出了两种规模的预训练语言模型，分别拥有 80 亿和 700 亿参数，以支持更广泛的应用场景。在多个行业基准测试中，Llama 3 展现了卓越的性能，并引入了包括推理能力提升在内的新功能。

Meta 的目标是通过 Llama 3 打造一系列能与市场上最优秀的专有模型竞争的开源模型，并根据开发者反馈提升帮助性。Meta 坚持开源原则，即“尽早发布，频繁更新”，以便社区能够在模型开发阶段即可使用。未来，Meta 计划让 Llama 3 支持多语言和多模态交互，提供更长的对话上下文，并在推理和编程等核心能力上持续优化性能。

新型的 80 亿和 700 亿参数 Llama 3 模型在性能上比前代有显著提升，尤其在推理、代码生成和指令执行等方面。Meta 通过人工评估集和与其他模型的比较，证明了 Llama 3 在真实场景中的优越性能。在模型架构方面，Llama 3 采用了仅解码器的 Transformer 架构，并在关键方面进行了改进，如使用了一个拥有 128K Token 的分词器，提升了语言编码的效率。

为了培养出顶尖的语言模型，Meta 构建了一个大型且高质量的训练数据集，覆盖了超过 15 万亿 Token，并且包含了超过 30 种语言的数据。Meta 还开发了一系列数据过滤流程，以确保训练数据的高质量，并进行了多种实验来评估不同来源数据的最佳混合方式。

在扩展预训练方面，Meta 制定了详尽的扩展规则来评估模型在各种下游任务中的表现，并采用了数据并行、模型并行和流水线并行三种并行技术来训练规模最大的 Llama 3 模型。此外，Meta 创新了指令调优的方法，结合了监督式微调、拒绝采样、近邻策略优化和直接策略优化等技术，显著提升了模型质量。

Meta 提供了包括 Llama Guard 2 和 Cybersec Eval 2 在内的信任与安全工具，并推出了 Code Shield，一个在推理时期过滤不安全代码的保护机制。此外，Meta 还与 torchune 合作开发了 Llama 3，这是一个 PyTorch 原生库，简化了编写、微调及试验 LLM 的过程。

在确保模型安全方面，Llama 3 通过了内部和外部的红队测试，并采纳了系统级的开发及部署策略。Meta 视 Llama 模型为更广泛系统的一部分，使开发者能够根据自己独特的目标进行设计，并更新了负责任使用指南（RUG），为 LLM 的负责任开发提供全面指导。

最后，Llama 3 将很快在所有主要平台上推出，其分词器效率和推理效率都有显著提升。Meta 的未来计划包括推出具备多模态、多语言对话能力、更长上下文窗口和更强大功能的新模型。Meta 致力于推动一个开放的 AI 生态系统的成长和发展，并负责任地发布模型，相信开放可以带来更优秀、更安全的产品，并加速创新。