文章摘要
【关 键 词】 国产GPU、万卡集群、大模型、算力、摩尔线程
摩尔线程推出了国内首个全功能、兼容CUDA的纯国产GPU万卡集群,具备超过10000张高性能GPU,总算力超过万P,专为万亿参数级别的大模型训练设计。该集群不仅规模庞大,还在计算效率、稳定性和通用性方面达到了国际水平。其有效计算效率(MFU)目标最高可达60%,周均训练有效率目标超过99%,平均无故障运行时间超过15天。集群设计通用,能够加速各种大模型,并支持生态Day0级快速迁移,与CUDA完全兼容。
摩尔线程的智算中心全栈解决方案夸娥(KUAE)升级后,成为国内首个万卡集群。国内算力市场在今年上半年已有多家头部玩家布局万卡集群,但纯国产GPU的万卡集群仍属罕见。随着生成式AI和大模型的快速发展,算力需求变得更加复杂和多样化,万卡集群已成为大模型玩家的最低标配,推动国产GPU进入“万卡时代”。
摩尔线程创始人兼CEO张建中指出,当前正处于生成式人工智能的黄金时代,GPU成为加速新技术浪潮的创新引擎。夸娥万卡智算集群作为摩尔线程全栈AI战略的重要组成部分,为各行业的数智化转型提供了强大算力。摩尔线程致力于解决国家和行业在大算力方面的需求。
为了打造一个好用的万卡集群,摩尔线程提出了“好用公式”:规模够大、计算通用、生态兼容。夸娥万卡集群具备五大特点:超大算力、有效计算效率、高稳定性、通用性和生态友好。集群实现了单集群规模超万卡,浮点运算能力达到10Exa-Flops,显存容量和传输带宽均达PB级,全面提升计算性能。通过系统软件、框架和算法的优化,集群的MFU值最高可达60%。在稳定性方面,集群平均无故障运行时间超过15天,最长可实现大模型稳定训练30天以上。
夸娥万卡集群专为通用计算场景设计,支持多种大模型架构和模态,并采用高效且用户友好的MUSA编程语言,完全兼容CUDA,配合自动化迁移工具Musify,实现新模型的即时迁移。摩尔线程在超大规模组网互联、集群有效计算效率、训练高稳定与高可用、故障快速定位与可诊断工具、生态快速迁移等方面进行了深入研究和优化。
摩尔线程的万卡集群不仅解决了当前算力不足的问题,还为大模型训练提供了强大的支持。随着大模型的快速迭代更新,算力需求不断增加,摩尔线程通过万卡集群和全栈方式,打造了一个大模型训练的超级加工厂,匹配大模型快速更迭的速度。摩尔线程的前瞻性策略和决定,使其在国产GPU领域取得了领先地位,市场认可度也在不断提升。
原文和模型
【原文链接】 阅读原文 [ 2896字 | 12分钟 ]
【原文作者】 量子位
【摘要模型】 gpt-4o
【摘要评分】 ★★★★★