英伟达平替？国产GPU万卡集群来了

AIGC动态1年前 (2024)发布 admin

2,679 0 0

文章摘要

近年来，大语言模型的迅猛发展对算力的需求急剧增加，尤其是高端GPU如英伟达A100的供不应求，给行业带来了挑战和机遇。摩尔线程作为国内唯一能够在功能上对标英伟达的GPU企业，提出了“集群化”的解决方案，旨在突破国产GPU的算力瓶颈。

在2024年世界人工智能大会前夕，摩尔线程宣布其夸娥智算集群解决方案实现重大升级，从千卡级别扩展至万卡规模，以支持万亿参数级别的大模型训练，提供高效、稳定、广泛适用的通用算力。AI大模型时代，万卡集群已成为标配。Google、Meta和OpenAI等巨头都在使用数万块高端GPU进行大模型训练，证明了大规模算力的重要性。

大模型的发展趋势显示，参数规模和数据量的急剧增长需要更大规模的算力支持。摩尔线程的解决方案不仅在规模上满足需求，还强调算力的通用性，以适应不断变化的技术需求和多元算力需求。大模型训练需要一个“大且通用”的加速计算平台，以缩短训练时间，实现模型能力的快速迭代。

建设万卡集群并非易事，它涉及超大规模组网互联、提高集群有效计算效率、训练高稳定性和高可用性等复杂问题。摩尔线程的夸娥万卡智算集群方案，以全功能GPU为基础，提供软硬一体化的系统级算力解决方案，包括夸娥计算集群、夸娥集群管理平台和夸娥大模型服务平台，旨在解决大规模GPU算力的建设和运营管理问题。

夸娥万卡智算方案具备五大特点：单一集群规模突破万卡，总算力超万P；集群有效计算效率目标超过60%；卓越的稳定性，周均训练有效率最高可达99%以上；强大的计算通用性，专为通用计算设计；良好的CUDA兼容能力，生态适配Instant On，加速新模型Day0级迁移。夸娥万卡智算方案具备五大特点：单一集群规模突破万卡，总算力超万P；集群有效计算效率目标超过60%；卓越的稳定性，周均训练有效率最高可达99%以上；强大的计算通用性，专为通用计算设计；良好的CUDA兼容能力，生态适配Instant On，加速新模型Day0级迁移。

摩尔线程的产品为客户提供了一个高兼容性、高稳定性、高扩展性及高算力利用率的国产化工具，能够在国外产品无法使用时快速替代。摩尔线程与多家国内大模型企业合作，成功运行在其夸娥集群上，展示了其在大模型训练和应用中的重要性。

摩尔线程与青海移动、青海联通等头部央企签约，推动万卡集群在各地方的应用落地。摩尔线程展示了攀登的决心，尽管建设万卡集群是一项艰巨的任务，但这条道路是难而正确的，不仅为了解决某一家企业的算力需求，更是为了应对全行业的算力短缺问题。

摩尔线程万卡级夸娥智算中心全栈解决方案的发布，标志着国产GPU在算力水平上取得了重大突破，将优先解决复杂万亿参数大模型训练的难题。摩尔线程的定位早已超越GPU公司，成为一家专注AI的加速计算平台企业。