DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压

AIGC动态9个月前发布 AIera
1,532 0 0

模型信息


【模型公司】 月之暗面
【模型名称】 moonshot-v1-32k
【摘要评分】 ★★★★★

DeepMind携Mamba华人作者推Transformer革命之作!性能暴涨媲美Llama 2,推理能效大幅碾压
 

文章摘要


【关 键 词】 DeepMindRNNTransformerGriffinHawk

摘要:
谷歌DeepMind推出了两种新的RNN架构——HawkGriffin,它们在d基准测试中超越了Transformer。Griffin模型在训练数据减少一半的情况下,全面优于Mamba,并且成功扩展到了14B。Hawk和Griffin在训练FLOPs和保留损失方面展现出与Transformer模型类似的幂律缩放关系,即使参数量达到7B以上。Griffin在处理训练期间未见过的更长序列时表现优于Transformers,同时还能高效地从训练数据中学习复制和检索任务。然而,如果不进行微调,直接使用预训练模型进行复制和精确检索任务的评估,Hawk和Griffin的表现则不如Transformers。

详细摘要:

模型架构:
Hawk和Griffin模型包含残差块、MLP块和时间混合块。时间混合块有三种实现方式:全局多查询注意力(MQA)、局部MQA和循环块。循环块中提出了真实门控线性循环单元(RG-LRU),用于替代MQA。

高效扩展:
Hawk和Griffin模型在参数量达到并超过7B时,展现出与Transformer模型类似的幂律缩放关系。Griffin的保留损失略低于强大的Transformer基线,且在所有模型规模上表现优异。

大规模并行训练:
为了在训练期间有效地对模型进行分片,作者使用了模型并行性跨设备对大型模型进行分片。循环块的通信要求与MLP区块相同,优化器状态参数的内存消耗通过ZeRO和bfloat16表示来最小化。

推理速度:
Griffin和Hawk在推理延迟和吞吐量方面显著优于MQA Transformer。Griffin实现了与Hawk相似的延迟,展示了线性RNN和局部注意力的出色兼容性。

网友评论:
尽管论文效果显著,有网友质疑模型与Mamba的比较不公平,因为使用了不同的数据集进行训练。还有观点认为,DeepMind可能出于竞争考虑,不会公开所有发现的新架构。

作者介绍:
Albert Gu是Mamba架构的作者,目前在CMU担任Assistant Professor。Soham De、Samuel L. Smith、George-Cristian Muraru和Aleksandar Botev都是谷歌DeepMind的研究科学家,他们在机器学习领域有着丰富的研究和实践经验。

原文信息


【原文链接】 阅读原文
【阅读预估】 3681 / 15分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

© 版权声明

相关文章

暂无评论

暂无评论...