单张A100全精度推理！谷歌明星开源模型Gemma 2上新9B/27B，挑战3140亿Grok-1

AIGC动态1年前 (2024)发布 AIera

2,352 0 0

单张A100全精度推理！谷歌明星开源模型Gemma 2上新9B/27B，挑战3140亿Grok-1

文章摘要

昨晚，谷歌正式发布了其最新的开源模型Gemma 2系列，包括Gemma 2 9B和Gemma 2 27B。这些模型旨在为全球研究和开发人员提供高效的部署工具。Gemma 2的模型权重已经在HuggingFace上公开，用户可以通过该平台访问和使用这些模型。

Gemma 2的设计在架构上进行了多项创新，旨在实现卓越的性能和提高推理效率。首先，Gemma 2 27B在同类产品中表现最佳，甚至能挑战规模更大的模型。Gemma 2 9B的性能也超过了Llama 3 8B和其他同规模的开源模型。其次，Gemma 2具有超高效率，能够在单个谷歌Claude TPU主机或NVIDIA H100 GPU上以全精度高效运行推理，从而大幅降低成本。最后，Gemma 2经过优化，可在各种硬件上以惊人的速度运行，包括Google AI Studio、CPU上的量化版本Gemma.cpp以及配备NVIDIA RTX或GeForce RTX的家用电脑。

Gemma 2的高效性能源于其架构创新。该模型交替使用局部滑动窗口注意力和全局注意力层级进行切换，局部注意力层的滑动窗口大小为4096个token，而全局注意力层的设置为8192个token。此外，Gemma 2对每个注意层和最终层的logit进行软封顶，并使用RMSNorm进行前后归一化，以提升训练的稳定性。分组查询注意力（GQA）和知识蒸馏法也被应用于Gemma 2的训练过程中，使得模型能够在较少的数据量下达到更好的效果。

Gemma 2不仅功能强大，还非常注重实用性。其轻量级和开源特性使得开发人员和研究人员能够共享创新成果并将其商业化。Gemma 2具有广泛的框架兼容性，可以通过本地Keras 3.0、vLLM、Gemma.cpp、Llama.cpp与Ollama、Hugging Face Transformers等主要人工智能框架兼容，从而轻松地与个人偏好的工具和工作流程结合使用。Google Cloud客户将能够在Vertex AI上轻松部署和管理Gemma 2，并通过Gemma Cookbook探索新的应用示例和代码。

在安全性方面，Gemma 2也做出了新举措。谷歌提供了「负责任的生成式AI工具包」，LLM Comparator可以让开发人员和研究人员深入评估语言模型，保证安全部署。预训练数据经过严格筛选，并根据一套安全指标进行测试和评估，以识别并降低潜在的偏差和风险。这些措施确保了Gemma 2在提供高效性能的同时，也能保证使用的安全性。

总的来说，Gemma 2系列模型通过其创新的架构设计和高效的性能表现，为研究和开发人员提供了强大的工具，同时也注重实用性和安全性，成为谷歌开源模型中的一大亮点。