Mamba 架构实现推理性能超 Gemma3-27B!推理模型开始迈入「无注意力」时代

AIGC动态10小时前发布 aitechtalk
76 0 0
Mamba 架构实现推理性能超 Gemma3-27B!推理模型开始迈入「无注意力」时代

 

文章摘要


【关 键 词】 推理模型架构效率创新

PromptCoT-Mamba-7B是首个实现解码显存常量、计算复杂度线性、长上下文稳定扩展且具备强推理能力的模型,标志着推理大模型首次完全不依赖注意力机制而运作。这一突破解决了传统Transformer架构在长序列生成中的显存消耗和计算复杂度问题,为复杂推理任务提供了高效且强大的解决方案。

传统Transformer架构在长序列生成中,随着生成长度的增加,Attention模块需要不断堆积Key-Value Cache,导致显存消耗线性增长和计算复杂度二次方增长,限制了推理深度、解码速度与部署成本。尽管学术界和产业界尝试通过混合架构减少Attention占比,但仍未能完全摆脱对注意力机制的依赖。与此同时,Diffusion LLM(dLLM)路线虽然通过迭代去噪机制优化解码过程,但依然依赖注意力机制,导致计算复杂度和内存开销居高不下。

PromptCoT-Mamba-7B通过无注意力架构,彻底消除了Key-Value Cache,实现了显存常量和线性时间复杂度。其基于Mamba-2的SSD层设计,每生成一个token的计算复杂度为O(NP),而非Transformer的O(TN),在长序列条件下具备显著速度优势。此外,该模型在竞赛数学与代码推理任务上全面超越同尺寸及更大规模的Transformer和混合架构,验证了无注意力架构的潜力。

在主实验中,PromptCoT-Mamba-7B在多个数学和代码推理评测集上表现优异,甚至超过了Google的Gemma3-27B。数学专属版本PromptCoT-Mamba-Math-7B进一步提升了复杂推理任务的表现。在低资源和高资源GPU设定下,该模型的推理吞吐量分别达到Transformer的3.66倍和1.69倍,展现了其在长上下文和实际工程部署中的高效性。

PromptCoT问题合成框架是该模型的核心技术之一,通过生成Rationale模拟人类专家的命题思路,指导竞赛级数学问题的合成。该框架不仅提升了样本生成的逻辑性与难度控制能力,还缓解了复杂推理训练中的数据瓶颈问题。两阶段训练流程进一步增强了模型的通用推理能力和复杂长链路推理能力。

PromptCoT-Mamba的成功不仅证明了无注意力架构在复杂推理任务上的工业级应用潜力,还为未来Mamba体系的推理技术研究提供了完整可复用的技术栈与数据生成范式。这一突破为无注意力推理大模型生态奠定了技术基础,未来任何复杂推理任务只需通过PromptCoT机制扩充领域概念库,即可快速构建新型纯Mamba Reasoning模型。

原文和模型


【原文链接】 阅读原文 [ 1948字 | 8分钟 ]
【原文作者】 AI科技评论
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...