标签:线性注意力

激进架构,400万上下文,彻底开源:MiniMax-01有点“Transformer时刻”的味道了

大模型公司MiniMax于1月15日发布了新模型系列MiniMax-01,该系列包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01是一个总参...

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

2025年被AI业界领袖视为AI Agent的关键年份,预计将对公司生产力产生重大影响。在这一背景下,MiniMax开源了两个新模型:基础语言模型MiniMax-Text-01和视觉...

谷歌爆改Transformer,“无限注意力”让1B小模型读完10部小说,114倍信息压缩

这篇文章介绍了谷歌最新提出的Infini-attention机制,该机制能够使Transformer架构的大模型在有限的计算资源下处理无限长的输入,并实现114倍的内存压缩比。I...