文章摘要
【关 键 词】 模型发布、算力高效、性能优越、算法创新、成本降低
在当前大模型算力需求极高的背景下,浪潮信息推出了一款名为源2.0-M32的混合专家模型。该模型以32个专家的架构,总参数量达到400亿,但激活参数仅需37亿,以约1/19的算力和激活参数,却能对标性能与Llama 3-70B相当。这一创新在大幅降低资源消耗的同时,保持了模型性能。
源2.0-M32在MATH和ARC-Challenge等基准测试中展现出了超越Llama 3-70B的准确率,尤其在编码和MMLU任务中,实现了与Llama 3-70B相当的性能。在代码生成任务中,尽管源2.0-M32的激活参数和计算量显著低于DeepseekV2和Llama 3-70B,但其准确率仍达到了90%以上。
模型架构方面,源2.0-M32采用了基于局部过滤增强的注意力机制,有效提升了自然语言的理解能力。此外,该模型引入了一种新型的门控网络——注意力路由器(Attention Router),该算法结构通过改进专家之间的协同性度量,解决了传统门控机制中专家间关联性缺失的问题,从而提高了模型的推理能力和运行效率。
综合来看,源2.0-M32以其创新的算法结构和高效的算力使用,展示了在大模型领域降低成本、提升性能的潜力,为解决算力荒提供了新的途径。
原文和模型
【原文链接】 阅读原文 [ 4738字 | 19分钟 ]
【原文作者】 新智元
【摘要模型】 glm-4
【摘要评分】 ★★★★☆
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...