全球最强开源大模型一夜易主！谷歌Gemma 7B碾压Llama 2 13B，今夜重燃开源之战

AIGC动态2年前 (2024)发布 AIera

2,137 0 0

作者信息

【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。
【微信号】 AI_era

文章摘要

【关键词】 Gemma、开源大模型、性能超越、技术报告、AI硬件

摘要总结：

谷歌发布了全球最强的开源大模型 Gemma，性能超越了Llama 2 13B，标志着谷歌和OpenAI在AI领域的竞争达到了新的高度。Gemma模型有两种规模：2B和7B，均采用了与Gemini相同的技术和研究构建。Gemma不仅在相同规模下实现了SOTA（State of the Art）性能，而且在关键基准测试中超越了更大的模型。谷歌还发布了16页的技术报告，详细介绍了Gemma的技术细节。

Gemma模型在多个基准测试中表现出色，尤其是在数学、科学和编码相关任务中。谷歌为Gemma提供了一整套工具，支持跨框架、工具和硬件的优化，确保模型的负责任使用。Gemma模型可以在个人笔记本电脑、工作站以及Google Cloud上运行，支持NVIDIA GPU和Google Cloud TPU等多种AI硬件。

尽管Gemma在许多领域取得了显著的成绩，但在某些测试中并未完全超越其他模型。谷歌发布的两个版本的Gemma模型在18个基于文本的任务中的11个中优于相似参数规模的开源模型。模型架构方面，Gemma在Transformer的基础上进行了改进，包括多查询注意力机制、RoPE嵌入、GeGLU激活函数和归一化化位置等。

Gemma的训练数据主要来自网络文档、数学和代码，进行了2T和6Ttoken的训练。模型经过有监督的微调和基于人类反馈的强化学习（RLHF）进行了优化。性能评估显示，Gemma在多个领域的表现优于其他开源大语言模型，尤其是在数学和编程任务中。

谷歌强调，尽管Gemma在标准测试任务上表现优异，但要创建出既稳定又安全、能够可靠执行预期任务的模型，还需要进一步的研究。团队表示，需要更具挑战性和鲁棒性的测试基准来推动领域的发展。

技术报告摘要：

– 预训练：Gemma 2B和7B模型分别针对2T和6Ttoken的英语数据进行了训练，使用了Gemini的SentencePiece分词器的子集。
– 指令微调：包括有监督的微调（SFT）和基于人类反馈的强化学习（RLHF）。
– 性能评估：在多个领域进行了性能评估，Gemma在MMLU和MBPP测试中表现突出，但在某些测试中未能超越其他模型。
– 记忆评估：Gemma的记忆率明显低于其他模型，但在记忆训练数据方面与PaLM相当。

团队成员：报告中列出了核心贡献者和其他贡献者，以及产品经理、项目经理、执行赞助、负责人和技术负责人。

参考资料：[Gemma官方页面](https://ai.google.dev/gemma/)