激进架构,400万上下文,彻底开源:MiniMax-01有点“Transformer时刻”的味道了

AIGC动态4小时前发布 Si-Planet
27 0 0
激进架构,400万上下文,彻底开源:MiniMax-01有点“Transformer时刻”的味道了

 

文章摘要


【关 键 词】 MiniMax-01MoE模型线性注意力开源模型性能报告

大模型公司MiniMax于1月15日发布了新模型系列MiniMax-01,该系列包括基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。MiniMax-01是一个总参数为4560亿的MoE(混合专家)模型,由32个Experts组成,在多个主流评测集上,其综合能力与GPT-4o和Claude 3.5 sonnet齐平,上下文长度达到400万token级别,是顶尖模型的20-32倍,且性能衰减最慢。

MiniMax-01是首个依赖线性注意力机制的大规模部署模型,其80层注意力层中,每一层softmax attention层前放置了7层线性注意力lightning attention层。这种线性注意力机制能够将复杂度控制在线性增加,与传统的Softmax attention相比,后者在处理长文本时复杂度成n的平方增加。MiniMax-01的目标是在成本得以控制的同时,给MoE模型带来更长的上下文能力。

MiniMax-01是MiniMax首个开源的模型,其权重等全部对社区公开。MiniMax是国内最早做预训练模型的商业公司之一,在模型的技术路线上一直按自己的想法走,这些路线多次被证明成为业内后来的主流方向。MiniMax-01是该公司技术品味和技术路线在今天的一个集中展示,它再次把很多人相信的实验性要素,一步一步组成它自己信仰的基础模型架构,并用最极致且真刀真枪堆资源的方式实现了出来。

在MoE上,MiniMax一年前全量上线了国内第一个千亿参数的MoE模型。MoE架构会把模型参数划分为多组“专家”,每次推理时只有一部分专家参与计算。这种架构可以让模型在小参数的情况下把计算变得更精细,然后拥有大参数才有的处理复杂任务的能力。MiniMax-01经过各种实验后,确定模型内使用32个专家模块,虽然总参数量达到了4560亿,但每个token激活的参数仅为45.9亿。这个设定的现实考虑,是要让模型在单台机器8个GPU和640GB内存的条件下,使用8位量化处理超过100万个token。同时,它还改进了全新的Expert Tensor Parallel (ETP)和Expert Data Parallel (EDP)架构,它们能帮助降低数据在不同专家模块间通信的成本。

MiniMax-01的性能报告显示,在其他模型处理256k的时间窗口内,MiniMax的模型可以处理多达100万个词的信息。即使模型一次只能专注于一部分内容,它仍然可以通过高效的计算策略和巧妙的设计,将更多信息纳入整体理解。MiniMax在引入线性注意力机制上的“哲学”,和它一直以来追逐MoE模型路线的思想是一脉相承的——就是用更聪明的方式解决问题,把资源发挥到极致,然后通过大量真刀真枪的实验把它在真实场景大规模实现。线性注意力和MoE在MiniMax-01这里,成了绝配。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3400字 | 14分钟 ]
【原文作者】 硅星人Pro
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...