DeepMind携Mamba华人作者推Transformer革命之作！性能暴涨媲美Llama 2，推理能效大幅碾压

AIGC动态2年前 (2024)发布 AIera

4,131 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

【关键词】 DeepMind、RNN、Transformer、Griffin、Hawk

摘要：
谷歌DeepMind推出了两种新的RNN架构——Hawk和Griffin，它们在d基准测试中超越了Transformer。Griffin模型在训练数据减少一半的情况下，全面优于Mamba，并且成功扩展到了14B。Hawk和Griffin在训练FLOPs和保留损失方面展现出与Transformer模型类似的幂律缩放关系，即使参数量达到7B以上。Griffin在处理训练期间未见过的更长序列时表现优于Transformers，同时还能高效地从训练数据中学习复制和检索任务。然而，如果不进行微调，直接使用预训练模型进行复制和精确检索任务的评估，Hawk和Griffin的表现则不如Transformers。

详细摘要：

模型架构：
Hawk和Griffin模型包含残差块、MLP块和时间混合块。时间混合块有三种实现方式：全局多查询注意力（MQA）、局部MQA和循环块。循环块中提出了真实门控线性循环单元（RG-LRU），用于替代MQA。

高效扩展：
Hawk和Griffin模型在参数量达到并超过7B时，展现出与Transformer模型类似的幂律缩放关系。Griffin的保留损失略低于强大的Transformer基线，且在所有模型规模上表现优异。

大规模并行训练：
为了在训练期间有效地对模型进行分片，作者使用了模型并行性跨设备对大型模型进行分片。循环块的通信要求与MLP区块相同，优化器状态参数的内存消耗通过ZeRO和bfloat16表示来最小化。

推理速度：
Griffin和Hawk在推理延迟和吞吐量方面显著优于MQA Transformer。Griffin实现了与Hawk相似的延迟，展示了线性RNN和局部注意力的出色兼容性。

网友评论：
尽管论文效果显著，有网友质疑模型与Mamba的比较不公平，因为使用了不同的数据集进行训练。还有观点认为，DeepMind可能出于竞争考虑，不会公开所有发现的新架构。

作者介绍：
Albert Gu是Mamba架构的作者，目前在CMU担任Assistant Professor。Soham De、Samuel L. Smith、George-Cristian Muraru和Aleksandar Botev都是谷歌DeepMind的研究科学家，他们在机器学习领域有着丰富的研究和实践经验。

原文信息

【原文链接】 阅读原文
【阅读预估】 3681 / 15分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。