请记住 MiniMax M1:MiniMax 用自己的方法追上R1们,直奔最强Agent模型而去

AI-Agent6小时前发布 Si-Planet
82 0 0
请记住 MiniMax M1:MiniMax 用自己的方法追上R1们,直奔最强Agent模型而去

 

文章摘要


【关 键 词】 模型创新推理强化学习成本

MiniMax M1 的发布标志着该公司在基础模型领域的一次重大突破。该模型采用了线性注意力 Lightning Attention 机制,并将其与传统的 softmax attention 相结合,形成了一种混合架构。这种架构不仅大幅提升了模型的推理能力,还显著降低了训练成本整个强化学习阶段仅需 512 张 H800 GPU,三周内完成训练,租赁成本仅为 53.47 万美金。这一创新使得 MiniMax M1 成为目前性价比最高的推理模型之一。

MiniMax M1 的混合架构设计使其能够支持高达 100 万上下文的输入,输出长度可达 8 万 Token,远超 DeepSeek R1 的 128K 输入和 64K 输出。这种架构在理论上能够将推理长度扩展到数十万个标记,并且以更高效的方式实现。与 DeepSeek R1 相比,M1 在 64K Token 长度的 FLOP 不到 50%,100K Token 长度更是只有 25%。这种效率的提升不仅降低了计算资源的消耗,还为模型在实际应用中的广泛部署提供了可能。

在强化学习方面,MiniMax 创新性地提出了 CISPO(Clipped IS-weight Policy Optimization)方法。与传统的裁剪 token 做法不同,CISPO 保留了所有 token 的更新,只裁剪 importance sampling 权重,从而更好地保留了长推理链条中的关键转折点。实验显示,CISPO 算法的强化学习收敛速度达到现有主流方法的两倍以上。这一创新不仅提高了模型的学习效率与稳定性,还为其在复杂推理任务中的表现提供了有力支持。

MiniMax M1 在多个主流评测集上表现出色。在 AIME 2024 数学奥赛中,M1 达到 86.0% 的成绩,仅次于 DeepSeek R1-0528;在真实代码修复的 SWE-bench Verified 测评中,成绩达到 56.0%,与 DeepSeek R1-0528 的 57.6% 非常接近。在长文本理解的 OpenAI-MRCR(128K)评测中,M1 达到 76.1% 的高分,甚至超过了闭源的 OpenAI o3 和 Claude 4 Opus,仅次于 Gemini 2.5 Pro。这些结果表明,MiniMax M1 在现实场景中的表现优于许多现有模型,尤其是在长上下文理解和工具使用方面。

MiniMax M1 的成功不仅在于其技术创新,还在于其工程落地和实际服务能力的提升。该模型的目标是成为面向真实世界解决复杂生产力场景需求最强的模型,进而打造一个最强的 AI Agent 系统基座。随着 AI agent 的爆发,市场对长上下文、长推理时间和低成本模型的需求日益增长,MiniMax M1 的出现正好满足了这一需求。

MiniMax 在模型训练过程中还面临并解决了一系列新问题。例如,当 Lightning Attention 带来更长的推理空间时,首次出现了训练与推理阶段的精度不匹配问题,团队通过深入理解模型内部运行机制,统一了计算精度。在合成数据的使用上,M1 主动降低甚至完全避免了合成数据的使用,这一做法可能会引发行业的广泛讨论。这些细节的优化和问题的解决,构成了 MiniMax M1 的护城河,使其在竞争中占据了有利位置。

MiniMax M1 的成功并非偶然,而是该公司在技术演进判断基础上的重投入和创新精神的体现。与 DeepSeek 的跟随路径不同,MiniMax 选择了一条截然不同的道路,坚定地走线性注意力架构路线,并因此激发了强化学习方法的创新。这种大胆的探索不仅推动了模型的跨越式进步,也为 AI 领域的未来发展提供了新的思路和方向。

原文和模型


【原文链接】 阅读原文 [ 2726字 | 11分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...