标签：长上下文处理

新架构RNN反超Transformer：每个隐藏状态都是一个模型，一作：从根本上改变语言模型

一项新的架构TTT（Test-Time Training）向现有的Transformer模型发起了挑战，提出了一种在测试时也能学习的模型，旨在从根本上改变语言模型。TTT的核心思想是...

AIGC动态

1年前 (2024)

谷歌Gemini 1.5深夜爆炸上线，史诗级多模态硬刚GPT-5！最强MoE首破100万极限上下文纪录

谷歌DeepMind近日发布了新一代多模态大模型——Gemini 1.5系列。Gemini 1.5 Pro是谷歌最强的MoE大模型，最高可支持10,000K token超长上下文。Gemini 1.5 Pro在...

AIGC动态

1年前 (2024)