重磅！Llama-3，最强开源大模型正式发布！

AIGC动态1年前 (2024)发布 AIGCOPEN

2,341 0 0

文章摘要

4月19日，Meta在官网发布了开源大模型Llama-3，包括80亿和700亿两种参数版本，分为基础预训练和指令微调两种模型。相比Llama-2，Llama-3使用了15T tokens的训练数据，在推理、数学、代码生成、指令跟踪等方面有显著提升。此外，Llama-3还采用了分组查询注意力、掩码等创新技术，帮助开发者以最低的能耗获得卓越性能。Meta即将发布Llama-3的论文，开源地址为https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6，Github地址为https://github.com/meta-llama/llama3/，英伟达也提供了在线体验Llama-3的机会。

AIGC开放社区在3月13日根据Llama-3的硬件设施和训练速度，准确预测了其将于4月末发布。尽管Llama-3在性能上有显著提升，但在功能上并未带来太多惊喜，例如内置视频和音频功能。然而，考虑到Meta已发布了许多音频、视频和图像产品和研究论文，整合它们到Llama-3可能只是时间问题。期待Llama-3未来几个月能带来更多亮眼功能。

Llama-3使用了掩码和分组查询注意力等技术，这些技术在大模型领域中很流行。自我注意力机制是Transformer架构的核心功能，用于处理序列数据，而掩码技术则用于确保模型不会跨越文档边界。填充掩码和未来掩码是常用的掩码类型，用于处理文档边界和生成任务。分组查询注意力将查询和键分组，限制了注意力计算的范围，减少了计算复杂度，使大模型更易扩展到处理更长序列或更大批次大小，提高了模型的表示能力。

Llama-3还使用了128K的词汇表标记器，能更有效地编码语言，预训练数据集包含超过15T tokens的公开数据集，是Llama-2的7倍，包含多语言数据。为了测试Llama-3的性能，Meta开发了一个高质量人类评估数据集，测试结果显示，Llama-3 -700亿参数的指令微调模型性能大幅超过了其他知名模型。在MMLU、AGIEval、BIG、ARC等测试平台中，Llama-3 -700亿参数基础预训练模型的性能也显著超过了其他知名开源模型。