MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文

 

文章摘要


【关 键 词】 AI Agent线性注意力混合专家多模态模型上下文处理

2025年被AI业界领袖视为AI Agent的关键年份,预计将对公司生产力产生重大影响。在这一背景下,MiniMax开源了两个新模型:基础语言模型MiniMax-Text-01和视觉多模态模型MiniMax-VL-01。这些模型首次大规模实现了新的线性注意力机制,显著延长了输入上下文窗口,一次可处理400万token,是其他模型的20-32倍。这对于Agent应用至关重要,因为Agent在工作和协作中需要处理大量上下文信息。

MiniMax-Text-01的创新包括新型线性注意力、改进版混合专家架构、并行策略和通信技术的优化。这些改进使得模型在处理超长上下文时效果与效率显著提升。MiniMax的Lightning Attention基于TransNormer实现,通过右边积核技巧降低计算复杂度。此外,MiniMax还提出了Hybrid-lightning,结合了Lightning Attention和softmax注意力,提升了模型的scaling能力。

在混合专家(MoE)方面,MiniMax通过比较实验证明了MoE模型相对于密集模型的效率优势,并引入了新的allgather通信步骤,解决了扩大MoE模型规模时可能遇到的路由崩溃问题。

MiniMax-Text-01是一个拥有32个专家共4560亿参数的LLM,每个token激活459亿参数,上下文长度可达400万token。在多个学术测试集上,MiniMax-Text-01表现出色,与GPT-4o、Claude 3.5 Sonnet等闭源模型以及Qwen2.5、DeepSeek v3、Llama 3.1等SOTA开源模型媲美甚至超越。

MiniMax还开发了多模态版本MiniMax-VL-01,整合了图像编码器和图像适配器,将图像转换为LLM能理解的token形式。MiniMax-VL-01在多个基准上表现强劲,与SOTA模型媲美,并在某些指标上达到最佳。

MiniMax正在探索更高效的架构,以支持无限的上下文窗口,而不增加计算开销。这将使Agent能够更好地同步上下文信息,提升用户体验。随着多模态token的加入,Agent也将逐步进入物理世界,为AI社区带来更多技术挑战。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2752字 | 12分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...