不靠英伟达,中科院在国产 GPU 上跑通 76B 类脑大模型

AIGC动态9小时前发布 aitechtalk
66 0 0
不靠英伟达,中科院在国产 GPU 上跑通 76B 类脑大模型

 

文章摘要


【关 键 词】 类脑模型SpikingBrain超长文本国产GPU能耗降低

大模型发展长期依赖 Transformer 和 NVIDIA GPU 体系,存在计算量和内存消耗大、硬件自主化难等问题,业界一直在寻找新方向。中科院团队提出的全新类脑大模型 SpikingBrain 带来了新的可能。

SpikingBrain 在实验中取得突破性成果。在超长上下文任务上,SpikingBrain – 7B 输入长度达 400 万 token 时,首个 token 生成延迟比传统 Transformer 快 100 倍,几乎可即时响应超长文本任务。其脉冲神经元使模型推理时保持 69.15%的稀疏激活率,降低了算力和能耗。研究团队用 1500 亿 token 训练了 SpikingBrain – 7B 和 SpikingBrain – 76B 两个核心模型,虽数据量少于主流开源大模型,但在多项基准测试中表现接近甚至追平传统 Transformer,且在国产 MetaX C550 GPU 集群上稳定运行,7B 模型 FLOPs 利用率达 23.4%。

研究团队从多层面进行探索。架构上,将全连接注意力替换为线性和混合注意力,引入 spiking 神经元,实现“按需放电”,降低无效计算。系统实验中,在国产 MetaX GPU 集群训练,对底层系统大规模优化,解决内存溢出与死锁问题,还引入 MoE 稀疏专家机制提升性能与效率。训练实验设计 conversion – based pipeline,迁移 Transformer 训练经验,配合事件触发的 spike 编码,解决“不可微”训练障碍。

SpikingBrain 具有重要价值。它回应了大模型的核心痛点,在长文本处理上实现数量级加速,证明类脑机制能带来真实收益;首次在国产 GPU 上完成 76B 规模训练,展示了硬件路线的多种可能;稀疏激活机制降低能耗,为大模型可持续发展提供新答案。不过,SpikingBrain 暂时不能取代 Transformer,其在复杂任务和大规模下的稳定性及类脑机制工具链发展,还需时间验证。但它至少证明了大模型发展并非只有一条路,新路径正在被点亮。

原文和模型


【原文链接】 阅读原文 [ 1644字 | 7分钟 ]
【原文作者】 AI科技评论
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★★☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...