马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B

AIGC动态7个月前发布 AIera
1,124 0 0
马斯克烧60亿美元难题,国内大厂有解?开源MoE模算效率黑马登场,3.7B参数单挑Llama 3-70B

 

文章摘要


【关 键 词】 模型发布算力高效性能优越算法创新成本降低

在当前大模型算力需求极高的背景下,浪潮信息推出了一款名为源2.0-M32的混合专家模型。该模型以32个专家的架构,总参数量达到400亿,但激活参数仅需37亿,以约1/19的算力和激活参数,却能对标性能与Llama 3-70B相当。这一创新在大幅降低资源消耗的同时,保持了模型性能。

源2.0-M32在MATH和ARC-Challenge等基准测试中展现出了超越Llama 3-70B的准确率,尤其在编码和MMLU任务中,实现了与Llama 3-70B相当的性能。在代码生成任务中,尽管源2.0-M32的激活参数和计算量显著低于DeepseekV2和Llama 3-70B,但其准确率仍达到了90%以上。

模型架构方面,源2.0-M32采用了基于局部过滤增强的注意力机制,有效提升了自然语言的理解能力。此外,该模型引入了一种新型的门控网络——注意力路由器(Attention Router),该算法结构通过改进专家之间的协同性度量,解决了传统门控机制中专家间关联性缺失的问题,从而提高了模型的推理能力和运行效率。

综合来看,源2.0-M32以其创新的算法结构和高效的算力使用,展示了在大模型领域降低成本、提升性能的潜力,为解决算力荒提供了新的途径。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 4738字 | 19分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★★☆

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...