谷歌发布最强大模型Gemma,性能碾压Llama 2
作者信息
【原文作者】 AI大模型实验室
【作者简介】 关注大模型技术的创新与发展,探索大模型的实际应用,探讨 AI 未来对企业与社会发展的影响。
【微 信 号】 damoxingLab
文章摘要
【关 键 词】 Gemma、AI语言模型、开源、谷歌、DeepMind
谷歌最近宣布了一款名为Gemma的新型AI语言模型系列,这是一款免费且开源的模型,采用了与谷歌强大的Gemini模型相似的技术。Gemma模型可以在个人电脑上本地运行,这是自OpenAI的ChatGPT在2022年引发AI聊天机器人热潮以来,谷歌首次发布的重要开源LLM。
Gemma系列提供了两种规模的模型:Gemma 2B(含20亿参数)和Gemma 7B(含70亿参数),它们各有预训练版和指令优化版。Gemma由谷歌DeepMind及其他谷歌AI团队联合开发,借鉴了在开发Gemini系列模型过程中获得的技术经验。Gemma源自拉丁语,意为“宝石”,象征其珍贵价值。
尽管Gemma是继ChatGPT发布后谷歌推出的第一个重要的开源LLM,但谷歌在开放AI研究方面的贡献远不止于此。谷歌曾开发了Transformer架构,并推出了TensorFlow、BERT、T5和JAX等关键技术和工具,这些对整个AI领域产生了深远影响。
Gemma的推出似乎是谷歌为了与Meta竞争而做出的举措。Meta通过发布开放权重模型(如LLaMA和Llama 2)引起了广泛关注。谷歌希望通过这一举措吸引更多开发者使用其Vertex AI云平台。
谷歌声称Gemma在多项基准测试中超过了Meta的Llama 2模型。Gemma的性能图显示,其在数学、Python代码生成、常规知识和常识性推理任务上均优于Meta的Llama 2。Gemma的训练资料来源于公开信息资源,并特别排除了包含个人可识别信息和被认为是“敏感”的内容,以保护用户隐私。
谷歌与NVIDIA合作,特别是在NVIDIA的TensorRT-LLM上实现了加速,这使得Gemma能够更好地融入NVIDIA的产品生态,为使用者提供更快的处理速度和更高的效率。Gemma还可以在NVIDIA AI企业版中进行进一步的微调。
Gemma的竞争对手主要有Meta的开源LLM Llama 2、Mistral AI的7B模型、Deci的DecilLM和Microsoft的Phi-2等小型生成式AI模型。在Hugging Face的排行榜上,Gemma在一系列预训练模型的评估中表现出众。
Gemma在设计上非常注重高效性,特别适合在资源受限的环境下运行。Gemma拥有250,000(250k)个词汇的庞大词库,远超过常见模型的32k。这使得Gemma能识别并处理更丰富多样的词汇,提升了模型处理不同内容类型的灵活性。Gemma的“嵌入权重”达到了750百万,这显著提升了模型的效率,使其在生成文本时能更好地运用其对语言的深层理解。
对于最终用户来说,这意味着模型能够提供更准确、更相关且更符合语境的回答,从而在内容创作、聊天机器人和翻译应用中的表现更加出色。谷歌还发布了一个名为“负责任的生成式AI工具包”的配套产品,旨在为开发“安全且负责任”的AI应用提供指导和工具。
原文信息
【原文链接】 阅读原文
【原文字数】 1810
【阅读时长】 7分钟