文章摘要
【关 键 词】 大模型、掩码技术、分组查询、性能提升、多语言数据集
4月19日,Meta在官网发布了开源大模型Llama-3,包括80亿和700亿两种参数版本,分为基础预训练和指令微调两种模型。相比Llama-2,Llama-3使用了15T tokens的训练数据,在推理、数学、代码生成、指令跟踪等方面有显著提升。此外,Llama-3还采用了分组查询注意力、掩码等创新技术,帮助开发者以最低的能耗获得卓越性能。Meta即将发布Llama-3的论文,开源地址为https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6,Github地址为https://github.com/meta-llama/llama3/,英伟达也提供了在线体验Llama-3的机会。
AIGC开放社区在3月13日根据Llama-3的硬件设施和训练速度,准确预测了其将于4月末发布。尽管Llama-3在性能上有显著提升,但在功能上并未带来太多惊喜,例如内置视频和音频功能。然而,考虑到Meta已发布了许多音频、视频和图像产品和研究论文,整合它们到Llama-3可能只是时间问题。期待Llama-3未来几个月能带来更多亮眼功能。
Llama-3使用了掩码和分组查询注意力等技术,这些技术在大模型领域中很流行。自我注意力机制是Transformer架构的核心功能,用于处理序列数据,而掩码技术则用于确保模型不会跨越文档边界。填充掩码和未来掩码是常用的掩码类型,用于处理文档边界和生成任务。分组查询注意力将查询和键分组,限制了注意力计算的范围,减少了计算复杂度,使大模型更易扩展到处理更长序列或更大批次大小,提高了模型的表示能力。
Llama-3还使用了128K的词汇表标记器,能更有效地编码语言,预训练数据集包含超过15T tokens的公开数据集,是Llama-2的7倍,包含多语言数据。为了测试Llama-3的性能,Meta开发了一个高质量人类评估数据集,测试结果显示,Llama-3 -700亿参数的指令微调模型性能大幅超过了其他知名模型。在MMLU、AGIEval、BIG、ARC等测试平台中,Llama-3 -700亿参数基础预训练模型的性能也显著超过了其他知名开源模型。
原文和模型
【原文链接】 阅读原文 [ 1299字 | 6分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 gpt-3.5-turbo-0125
【摘要评分】 ★★☆☆☆