RNN效率媲美Transformer，谷歌新架构两连发：同等规模强于Mamba

AIGC动态1年前 (2024)发布 almosthuman2014

2,150 0 0

模型信息

【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

文章摘要

摘要：

谷歌 DeepMind 最近推出了两种新的 AI 模型，Hawk 和 Griffin，它们在基础模型方面为 AI 领域提供了新的选择。这些模型是基于循环神经网络（RNN）的，旨在解决 Transformer 架构在处理长序列时的效率问题。尽管 Transformer 在深度学习和自然语言处理（NLP）领域取得了巨大成功，但其全局注意力的二次复杂性和键值缓存的线性增长限制了其扩展性。

DeepMind 的研究者提出了一种新的门控线性循环层——RG-LRU，并围绕它设计了新的循环块。Hawk 模型结合了 MLP 和循环块，而 Griffin 模型则结合了 MLP、循环块和局部注意力。这些模型在 held-out 损失和训练 FLOPs 之间表现出幂律缩放，最高可达到 7B 参数。Hawk 在下游任务的性能上超越了 Mamba-3B，尽管训练的 tokens 数量只有后者的一半。Griffin 在所有模型规模上实现了比强大 Transformer 基线略低的 held-out 损失。

Hawk 和 Griffin 在 TPU-v3 上的训练效率与 Transformers 相当，并且在推理过程中实现了更高的吞吐量和更低的延迟。Griffin 在处理比训练中观察到的更长序列时表现更好，能够有效地从训练数据中学习复制和检索任务。然而，在未经微调的情况下，它们在复制和精确检索任务上的表现不如 Transformers。

研究者还探讨了 Griffin 模型在端侧高效训练循环模型的挑战，包括如何在多台设备上高效地分片处理模型，以及如何有效地实现线性循环以提高 TPU 的训练效率。此外，他们还研究了模型在推理过程中的外推能力，特别是在需要复制和检索能力的任务中的表现。

Griffin 模型架构 包含残差块、MLP 块和时间混合块，其中循环块使用了 RG-LRU 单元。循环模型在缩放效率上媲美 Transformer，并且在端侧训练中表现出色。研究者还讨论了模型在长上下文建模方面的能力，以及在推理过程中的外推能力。

结论：

Hawk 和 Griffin 模型为 AI 领域提供了新的研究方向，特别是在处理长序列和提高模型效率方面。这些模型的成功展示了 RNN 在现代 AI 应用中的潜力，同时也为未来的研究和开发提供了新的思路。