文章摘要
【关 键 词】 测试时间训练、语言模型、序列建模、自监督学习、性能优化
斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和Meta的研究人员提出了一种名为测试时间训练层(Test-Time-Training layers,TTT)的全新架构,旨在替代传统的注意力机制,从而可能彻底改变语言模型方法。
TTT层的提出基于对现有序列模型的深入分析。
TTT层的核心思想是在测试时对隐藏状态进行训练,通过自监督学习更新隐藏状态的权重,实现对每个token的一次梯度下降。
实验结果表明,TTT层在性能上超越了Transformer和Mamba。
TTT层的提出不仅在理论上具有创新性,而且在实际应用中也展现出了巨大的潜力。
研究人员表示,TTT层的构想源于对现有RNN层在长上下文建模中遇到的困难的深入思考。
TTT层的设计包括两个简单的实例:TTT-Linear和TTT-MLP。
总的来说,TTT层的提出为解决长上下文建模中的难题提供了一种新的视角和方法。
原文和模型
【原文链接】 阅读原文 [ 8951字 | 36分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...