手机实现GPT级智能,比MoE更极致的稀疏技术:省内存效果不减|对话面壁&清华肖朝军

AIGC动态2天前发布 QbitAI
111 0 0
手机实现GPT级智能,比MoE更极致的稀疏技术:省内存效果不减|对话面壁&清华肖朝军

 

文章摘要


【关 键 词】 大模型算力稀疏激活端侧部署架构创新

大模型竞争日益激烈的背景下,算力与效率的平衡成为决定胜负的关键因素。端侧部署作为大模型落地的最后一公里,长期以来面临算力瓶颈的挑战。面壁智能与清华大学提出了一种名为神经元级稀疏激活的技术,通过利用模型本身的稀疏激活性质,在保持性能的同时大幅降低资源消耗。这一技术不仅突破了传统MoE(Mixture of Experts)的局限,还为端侧应用提供了新的可能性。

CFM(Configurable Foundation Models)技术的核心优势在于其原生稀疏性,相比MoE,CFM能够极大提升模型的参数效率。参数效率的提升意味着在相同参数规模下,模型表现更优,同时节省显存和内存。特别是在端侧应用中,参数效率的提升至关重要,因为手机等设备的内存有限,无法像云端一样使用多台GPU服务器进行大规模模型推理。CFM通过神经元级别的稀疏激活,实现了更细粒度的动态性,能够根据任务难度灵活调整激活的神经元数量,从而在保证性能的同时降低计算资源需求。

在模型架构方面,尽管Mamba、RWKV等非transformer架构在计算复杂度上具有优势,但transformer仍然是当前效果最好的架构。其他架构的探索主要集中在效率优化上,而非效果提升。例如,Mamba等线性模型在短文本任务中表现优异,但在长文本任务中仍无法与transformer匹敌。transformer之所以成为主流架构,不仅因为其能够通过大规模训练获得更高的智能,还因为它能够充分利用GPU的硬件性能,踩中了“硬件彩票”

关于小模型的未来发展,目前端侧的小模型通常定义在2-3B参数范围内。尽管小模型在多模态任务中表现良好,但在知识调度和理解能力上仍存在差距。未来,随着FP8等低精度计算技术的普及,小模型的效率将进一步提升。此外,强化学习与高质量数据的结合,以及超长思维链推理能力的突破,将成为小模型发展的关键方向。

在长文本推理领域,transformer架构仍具有显著优势。尽管线性模型在短文本任务中表现优异,但在长文本任务中,由于记忆压缩和信息损失的问题,线性模型的效果仍无法与transformer匹敌。未来,如何解决大模型不可能三角(低计算复杂度、高性能和并行化无法同时实现)的问题,将是模型架构创新的重要挑战。

总体而言,大模型架构的创新仍在不断演进,无论是transformer的改进还是非transformer架构的探索,都在为人工智能的未来发展提供新的可能性。

原文和模型


【原文链接】 阅读原文 [ 3119字 | 13分钟 ]
【原文作者】 量子位
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...