知名AI研究者深挖谷歌Gemma:参数不止70亿,设计原则很独特

AIGC动态10个月前发布 almosthuman2014
872 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★☆☆☆

知名AI研究者深挖谷歌Gemma:参数不止70亿,设计原则很独特
 

文章摘要


【关 键 词】 Gemma开源模型谷歌机器学习AI研究

这篇文章介绍了谷歌新推出的开源模型系列「Gemma」,与之前的Gemini相比,Gemma更轻量且免费可用,同时模型权重也开源并允许商用。

文章中提到了Gemma的两种模型规模:2B和7B,并指出Gemma在关键基准测试中超越了其他更大的模型,如Llama-2和Mistral。

文章还提到了Gemma的独特设计原则,包括其大词汇量(256000个单词)和大量的训练数据(6万亿token),以及其架构上的一些特点,如多查询注意力和相对较大的前馈层。

此外,文章还讨论了Gemma使用的归一化层(RMSNorm)和GeGLU激活函数,以及它们与其他模型的区别。

最后,文章得出结论,Gemma为开源大型语言模型(LLM)做出了重要贡献,尤其是7B参数规模的模型,有潜力在实际应用中取代其他模型。

同时,Gemma 2B模型因其能在单个GPU上运行而更加有趣。

原文信息


【原文链接】 阅读原文
【阅读预估】 1310 / 6分钟
【原文作者】 机器之心
【作者简介】 专业的人工智能媒体和产业服务平台

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...