文章摘要
【关 键 词】 MiniMax、开源模型、长上下文、AI技术、创新突破
MiniMax公司在2025年初发布了MiniMax-01系列模型,包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01,标志着公司首次开源模型。这些模型采用了MiniMax独有的Lightening Attention机制,这是全球首次将Linear Attention机制引入商业化规模的模型中。Lightening Attention借鉴了Linear Attention,通过分块技术解决了因果累积求和操作的缓慢问题,显著提升了模型上下文长度,达到顶尖模型的20-32倍,推理时上下文窗口可达400万token。
MiniMax-01系列模型的参数量高达4560亿,单次激活459亿,在主流模型上下文窗口长度约128k时,MiniMax-01系列模型能在100万token的上下文窗口上训练,推理时上下文窗口可外推到400万tokens。在第三方测评LongBench v2中,MiniMax-Text-01仅次于OpenAI的o1-preview和人类,位列第三。在标准学术基准测试中,MiniMax-01系列模型可与顶级闭源模型相媲美。
长上下文窗口对于模型的Agent能力至关重要,2025年Agent能力将成为AI领域的重点。长上下文窗口在多种Agent应用场景中具有重要意义,如搜索、效率工具、学习工具和AI助理对话。MiniMax-VL-01视觉多模态大模型同样采用了线性注意力架构,拥有400w token上下文窗口,为AI眼镜等智能硬件提供随身AI的能力。
MiniMax表示未来将在线性注意力路径上做到极致,尝试完全取消Softmax注意力层,实现无限的长上下文窗口。此次开源是MiniMax对外高调展示技术实力的转折点,希望帮助其他人开发突破当前模型局限的应用。中国AI公司不仅具备工程化和商业化能力,更有能力推动底层技术创新,新的一年,中国AI公司在AI应用普及和技术攻坚方面值得期待。
原文和模型
【原文链接】 阅读原文 [ 3402字 | 14分钟 ]
【原文作者】 极客公园
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★☆☆