谷歌发布最强大模型Gemma，性能碾压Llama 2

AIGC动态2年前 (2024)发布 damoxingLab

2,085 0 0

作者信息

【原文作者】 AI大模型实验室
【作者简介】 关注大模型技术的创新与发展，探索大模型的实际应用，探讨 AI 未来对企业与社会发展的影响。
【微信号】 damoxingLab

文章摘要

谷歌最近宣布了一款名为Gemma的新型AI语言模型系列，这是一款免费且开源的模型，采用了与谷歌强大的Gemini模型相似的技术。Gemma模型可以在个人电脑上本地运行，这是自OpenAI的ChatGPT在2022年引发AI聊天机器人热潮以来，谷歌首次发布的重要开源LLM。

Gemma系列提供了两种规模的模型：Gemma 2B（含20亿参数）和Gemma 7B（含70亿参数），它们各有预训练版和指令优化版。Gemma由谷歌DeepMind及其他谷歌AI团队联合开发，借鉴了在开发Gemini系列模型过程中获得的技术经验。Gemma源自拉丁语，意为“宝石”，象征其珍贵价值。

尽管Gemma是继ChatGPT发布后谷歌推出的第一个重要的开源LLM，但谷歌在开放AI研究方面的贡献远不止于此。谷歌曾开发了Transformer架构，并推出了TensorFlow、BERT、T5和JAX等关键技术和工具，这些对整个AI领域产生了深远影响。

Gemma的推出似乎是谷歌为了与Meta竞争而做出的举措。Meta通过发布开放权重模型（如LLaMA和Llama 2）引起了广泛关注。谷歌希望通过这一举措吸引更多开发者使用其Vertex AI云平台。

谷歌声称Gemma在多项基准测试中超过了Meta的Llama 2模型。Gemma的性能图显示，其在数学、Python代码生成、常规知识和常识性推理任务上均优于Meta的Llama 2。Gemma的训练资料来源于公开信息资源，并特别排除了包含个人可识别信息和被认为是“敏感”的内容，以保护用户隐私。

谷歌与NVIDIA合作，特别是在NVIDIA的TensorRT-LLM上实现了加速，这使得Gemma能够更好地融入NVIDIA的产品生态，为使用者提供更快的处理速度和更高的效率。Gemma还可以在NVIDIA AI企业版中进行进一步的微调。

Gemma的竞争对手主要有Meta的开源LLM Llama 2、Mistral AI的7B模型、Deci的DecilLM和Microsoft的Phi-2等小型生成式AI模型。在Hugging Face的排行榜上，Gemma在一系列预训练模型的评估中表现出众。

Gemma在设计上非常注重高效性，特别适合在资源受限的环境下运行。Gemma拥有250,000（250k）个词汇的庞大词库，远超过常见模型的32k。这使得Gemma能识别并处理更丰富多样的词汇，提升了模型处理不同内容类型的灵活性。Gemma的“嵌入权重”达到了750百万，这显著提升了模型的效率，使其在生成文本时能更好地运用其对语言的深层理解。

对于最终用户来说，这意味着模型能够提供更准确、更相关且更符合语境的回答，从而在内容创作、聊天机器人和翻译应用中的表现更加出色。谷歌还发布了一个名为“负责任的生成式AI工具包”的配套产品，旨在为开发“安全且负责任”的AI应用提供指导和工具。