标签:长上下文处理

新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型

一项新的架构TTT(Test-Time Training)向现有的Transformer模型发起了挑战,提出了一种在测试时也能学习的模型,旨在从根本上改变语言模型。TTT的核心思想是...

谷歌Gemini 1.5深夜爆炸上线,史诗级多模态硬刚GPT-5!最强MoE首破100万极限上下文纪录

谷歌DeepMind近日发布了新一代多模态大模型——Gemini 1.5系列。Gemini 1.5 Pro是谷歌最强的MoE大模型,最高可支持10,000K token超长上下文。Gemini 1.5 Pro在...