谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

AIGC动态10小时前发布 AIera
84 0 0
谷歌Transformer过时了?清华姚班校友等三连击,爆改注意力!

 

文章摘要


【关 键 词】 谷歌注意力机制记忆模型深度学习性能优化

谷歌研究团队提出了一种突破性的AI架构设计框架Miras,通过重新定义注意力机制和记忆管理方式,显著提升了序列模型的性能。该框架的核心创新在于将传统遗忘机制替换为”注意力偏向+保留门”组合,从认知科学中的关联记忆理论获得启发。研究显示,几乎所有现代序列模型的底层学习过程都可归结为关联记忆机制,而传统遗忘机制本质上是对注意力偏向的正则化操作。

Miras框架提供四个关键设计维度:记忆架构、注意力偏向策略、保留门控机制和记忆学习算法。基于该框架开发的三种新型模型Moneta、Yaad和Memora在多项任务中超越Transformer等现有模型。其中Moneta在语言建模任务中困惑度降低23%,Yaad实现89.4%的常识推理准确率,Memora则在记忆密集型任务中达到91.8%的召回率。这些模型在保持线性计算复杂度的同时,训练速度比传统RNN快5-8倍,且在参数量减少40%的情况下仍能保持相当性能。

研究团队对注意力偏向进行了形式化定义,将其作为序列模型的内部记忆目标。不同于传统softmax注意力的ℓ₂范数优化,新框架支持可调节的保留策略,能够根据不同任务需求动态调整记忆机制。具体提出了三类创新性注意力偏向策略:ℓₚ范数实现记忆精度可调、Huber损失增强抗异常能力、鲁棒优化应对最坏情况。这些策略使模型能够更灵活地处理长文档、多语义层和跨段落推理等复杂场景。

在保留门控设计方面,研究突破了传统模型隐式覆盖旧状态的局限,引入显式可控的保留机制。通过弹性网、Bregman散度等方法,模型能够智能判断信息保留强度,平衡新概念学习与旧记忆保持。实验证明,这种设计在”大海捞针”等长文本任务中表现突出,当上下文长度从2K扩展到32K时,新模型仍能保持优于基准模型的性能表现。

扩展性分析显示,Miras框架下的模型在计算效率与性能间展现出更好的平衡。在相同FLOPs预算下,三个变体均优于基准模型,这主要归功于其双层MLP记忆结构和创新的保留门设计。特别是在处理合成噪声数据时,Moneta表现出更强的鲁棒性,验证了𝑝-范数目标函数在噪声环境下的优势。这些突破为下一代序列模型的开发提供了新的理论基础和实践方向。

原文和模型


【原文链接】 阅读原文 [ 3898字 | 16分钟 ]
【原文作者】 新智元
【摘要模型】 deepseek/deepseek-v3-0324
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...