华为盘古大模型开源,推理方案、基础代码全公开!

AIGC动态8小时前发布 ai-front
79 0 0
华为盘古大模型开源,推理方案、基础代码全公开!

 

文章摘要


【关 键 词】 开源模型推理技术优化

华为今日宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型以及基于昇腾的模型推理技术。这一举措被视为华为推进昇腾生态战略的关键步骤,旨在推动大模型技术的研究与创新,加速人工智能在各行各业的应用与价值创造。盘古Pro MoE模型基于分组混合专家模型(MoGE)架构构建,总参数量为720亿,激活参数量达160亿,并针对昇腾300I Duo和800I A2平台进行了系统优化MoGE架构通过专家分组和跨设备计算负载均衡的设计,显著提升了训练和推理场景下的系统吞吐量。在昇腾800I A2上,盘古Pro MoE实现了单卡1148 tokens/s的推理吞吐性能,并通过投机加速技术进一步提升至1528 tokens/s,显著优于同等规模的稠密模型。

华为还公布了昇腾超大规模MoE模型的推理部署方案,包括从点到面的推理框架侧优化技术、FlashComm通算优化技术、四流并发的通算极致掩盖技术、以加法代乘法的昇腾MLA最优实现以及硬件感知亲和的大量创新算子。OmniPlacement负载均衡算法通过专家重排、层间冗余部署和近实时调度,在3个token推理步骤内实现近90%的专家均衡,大幅提升MoE推理性能。投机推理技术通过引入轻量模型或外部知识数据,为大模型生成推理草稿,解码阶段一次推理多个token,提升了计算密度。华为提出的投机推理框架FusionSpec,使得MTP部分框架耗时从10ms左右降为1ms,显著提升了推理性能。

在模型量化方面,华为设计了OptiQuant算法,通过层间自动混精、自动混合校准、离群值抑制、可学习的截断和SSZW参数量化算法,在DeepSeek R1/V3大模型推理场景中,实现了INT8量化模式与FP8的模型推理精度持平,进一步发挥了Atlas 800I A2和CloudMatrix384集群推理硬件性能。FlashComm系列技术通过AllReduce通信优化、以存换传的通信优化和多流并行技术,解决了大模型推理过程中的通信瓶颈,显著降低了端到端时延。

华为还围绕盘古模型和昇腾平台开展了软硬协同系统优化,构建了H2P分层混合并行优化、TopoComm拓扑亲和通信优化、DuoStream多流融合通算掩盖等技术,实现了最优分布式并行推理,提高了计算效率。在算子侧,华为设计开发了MulAttention融合计算、SwiftGMM融合计算、MerRouter融合计算等算子融合技术,充分释放了昇腾芯片的算力。基于上述优化,Pangu Pro MoE的推理性能提升了6~8倍。

此外,华为提出了盘古Embedded,一个在昇腾NPU上开发的高效大语言模型推理器,具备“快思慢想”能力的双系统框架。该框架通过“快思考”模式和“慢思考”模式,在延迟和推理深度之间实现了精妙的平衡,并具备元认知能力,能够根据任务复杂度自动选择最优模式。华为构建的盘古Embedded 7B模型在多个权威的复杂推理基准测试中,表现优于Qwen3-8B和GLM4-9B等规模相近的业界领先模型。

原文和模型


【原文链接】 阅读原文 [ 2295字 | 10分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek-v3
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

“极客训练营”

暂无评论

暂无评论...