标签:TTT架构

新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型

一项新的架构TTT(Test-Time Training)向现有的Transformer模型发起了挑战,提出了一种在测试时也能学习的模型,旨在从根本上改变语言模型。TTT的核心思想是...