大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

AIGC动态6个月前发布 AIera
1,697 0 0
大模型最强架构TTT问世!斯坦福UCSD等5年磨一剑, 一夜推翻Transformer

 

文章摘要


【关 键 词】 测试时间训练语言模型序列建模自监督学习性能优化

斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和Meta的研究人员提出了一种名为测试时间训练层(Test-Time-Training layers,TTT)的全新架构,旨在替代传统的注意力机制,从而可能彻底改变语言模型方法。

TTT层的提出基于对现有序列模型的深入分析。

TTT层的核心思想是在测试时对隐藏状态进行训练,通过自监督学习更新隐藏状态的权重,实现对每个token的一次梯度下降。

实验结果表明,TTT层在性能上超越了Transformer和Mamba。

TTT层的提出不仅在理论上具有创新性,而且在实际应用中也展现出了巨大的潜力。

研究人员表示,TTT层的构想源于对现有RNN层在长上下文建模中遇到的困难的深入思考。

TTT层的设计包括两个简单的实例:TTT-Linear和TTT-MLP。

总的来说,TTT层的提出为解决长上下文建模中的难题提供了一种新的视角和方法。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 8951字 | 36分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...