谷歌 Gemma 2 2B 发布火爆,小模型如何撑起大格局?

AIGC动态2个月前发布 aitechtalk
318 0 0
谷歌 Gemma 2 2B 发布火爆,小模型如何撑起大格局?

 

文章摘要


【关 键 词】 Gemma 2B技术创新稀疏自编码器开源挑战AI未来

Google于8月1日推出了Gemma系列语言模型的更新,发布了2B参数版本的模型,这一版本在保持性能的同时实现了体积更小、更安全、更透明的特点。Gemma 2 2B版本通过蒸馏学习技术优化了NVIDIA TensorRT-LLM库,并在多种硬件上展现了卓越的运行能力。较小的参数量降低了研究开发的门槛,使得模型能在Google Colab的免费T4 GPU服务上流畅运行,为用户提供了灵活且成本效益高的解决方案。

Gemma 2模型的技术创新包括引入了Gemma Scope功能,这是一套开放的稀疏自编码器,包含400多个SAEs,用于分析模型的每一层和子层,为研究人员提供了理解语言模型内部工作原理的工具。Google Deepmind的语言模型可解释性团队通过官方博客对Gemma Scope进行了技术分析,称其旨在帮助研究人员理解Gemma 2语言模型的内部工作原理,推动可解释性研究,构建更强大的系统,开发模型幻觉保护措施,防范自主AI代理的风险。

尽管Gemma 2 2B为开发者提供了灵活且成本效益高的解决方案,但在训练阶段仍然需要投入大量的计算资源。Gemma Scope的训练使用了约相当于15%的Gemma 2 9B训练计算资源(或GPT3的22%训练计算资源)。

业界对Gemma 2 2B的发布反响热烈。UC Berkeley教授Anca Dragan和DAIR.AI的联合创始人Elvis Saravia等学者对Gemma 2的SAE机制进行了解读和测试,给予了高度评价。随着2024年的到来,大模型的光环逐渐褪去,小模型在成本和效率上展现出了更大的优势。技术上,通过蒸馏压缩和参数共享等手段可以显著降低模型规模同时保持性能。Gemma 2 2B版本的亮眼表现为下一步的大模型研究提供了重要方向。

Google的另一系列语言模型Gemini不公开源代码,专为Google自家产品及开发者使用,与Gemma系列形成鲜明对比。而META的Llama系列则高举开源大旗,向OpenAI的GPT系列发起了挑战。OpenAI的GPT系列一直是这个领域无可争议的王者,但在2024年,开始有越来越多的模型向GPT系列发起冲击。META的Llama系列在专家评分的竞技场“Scale Leadboard”上在多个项目中超越了GPT-4系列。

Gemma 2的发布不仅是Google在AI领域的一次自我超越,更是对整个行业的一次挑战。小型化和开源都预示着2024年将是语言模型研究的又一个春天。让我们拭目以待,Gemma 2代表的“小模型”将如何重塑AI的未来。

豆包-智能助手

原文和模型


【原文链接】 阅读原文 [ 1824字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★☆

© 版权声明

相关文章

暂无评论

暂无评论...