大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

AIGC动态1年前 (2024)发布 AIera

3,463 0 0

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

文章摘要

【关键词】 测试时间训练、语言模型、序列建模、自监督学习、性能优化

斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和Meta的研究人员提出了一种名为测试时间训练层（Test-Time-Training layers，TTT）的全新架构，旨在替代传统的注意力机制，从而可能彻底改变语言模型方法。

TTT层的提出基于对现有序列模型的深入分析。

TTT层的核心思想是在测试时对隐藏状态进行训练，通过自监督学习更新隐藏状态的权重，实现对每个token的一次梯度下降。

实验结果表明，TTT层在性能上超越了Transformer和Mamba。

TTT层的提出不仅在理论上具有创新性，而且在实际应用中也展现出了巨大的潜力。

研究人员表示，TTT层的构想源于对现有RNN层在长上下文建模中遇到的困难的深入思考。

TTT层的设计包括两个简单的实例：TTT-Linear和TTT-MLP。

总的来说，TTT层的提出为解决长上下文建模中的难题提供了一种新的视角和方法。

原文和模型

【原文链接】 阅读原文 [ 8951字 | 36分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # 大模型 # 序列建模 # 性能优化 # 测试时间训练 # 自监督学习 # 语言模型

文章版权归作者所有，未经允许请勿转载。

长文本之罪：Claude团队新越狱技术，Llama 2到GPT-4无一幸免

机器之心

3,584

业内首次! 全面复现DeepSeek-R1-Zero数学代码能力，训练步数仅需其1/10

机器之心

745

AI Agent 发展史：从 RL 驱动到大模型驱动｜AIR 2025

AI科技评论

1,847

手机 AI 2.0 时代，OriginOS 5 找到了哪些「成功密码」？

极客公园

2,656

AI 加入 Scrum 团队，生产力翻倍？

AI前线

2,204

吞下17亿图片，Meta最强巨兽DINOv3开源！重新定义CV天花板

新智元

685

暂无评论

暂无评论...

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer

文章摘要

原文和模型

第一批正在被AIGC重置的行业有话说

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

相关文章

暂无评论

热门网址

热门文章

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑， 一夜推翻Transformer

文章摘要

原文和模型

第一批正在被AIGC重置的行业有话说

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章

大模型最强架构TTT问世！斯坦福UCSD等5年磨一剑，一夜推翻Transformer