中科院类脑大模型SpikingBrain,2%数据,百倍速度

AIGC动态3小时前发布 AIGCOPEN
20 0 0
中科院类脑大模型SpikingBrain,2%数据,百倍速度

 

文章摘要


【关 键 词】 类脑模型SpikingBrain计算复杂度长文处理模型开源

中国科学院自动化研究所李国齐、徐波团队发布全球首款大规模类脑脉冲大模型SpikingBrain 1.0,展现出诸多显著优势。

当前大语言模型面临计算复杂度难题:如今主流的大语言模型如GPT系列基于Transformer架构,其自注意力机制虽强大,但计算复杂度高。文本长度增加一倍,计算量呈二次方暴增,处理长文本时效率低、成本高,限制了AI处理长篇内容的能力。

SpikingBrain 1.0实现从里到外的颠覆:该模型模拟大脑神经元工作方式,有70亿参数的SpikingBrain – 7B和760亿参数的SpikingBrain – 76B两个版本。一是用“混合线性注意力架构”替代二次方复杂度的自注意力机制,将计算复杂度从二次方降至线性,提升了长文本处理效率;二是采用“自适应阈值脉冲神经元”,其阈值可动态调整,使神经元按需工作,计算稀疏度高达69.15%,显著降低能耗;三是开发高效模型转换技术,能将现有Transformer模型改造成SpikingBrain架构,转换和训练计算量不到从头训练的2%。

SpikingBrain 1.0性能卓越:整套工作在国产GPU算力集群上完成,训练数据仅用2%,性能却与主流模型相当。处理超长文本时,推理启动速度提升几十倍甚至上百倍;模型压缩后在手机CPU上的解码速度远超对手,能耗显著降低。

SpikingBrain 1.0选择开源:团队将技术报告发布在学术网站arXiv和代码托管平台GitHub,中英文双版本公开所有技术细节。SpikingBrain – 7B模型的权重、完整代码、推理框架全部开源,76B模型提供在线试用。这宣告了在Transformer“规模法则”之外,存在另一条通往通用人工智能的道路。

原文和模型


【原文链接】 阅读原文 [ 1525字 | 7分钟 ]
【原文作者】 AIGC开放社区
【摘要模型】 doubao-1-5-pro-32k-250115
【摘要评分】 ★★☆☆☆

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...