直击算力焦虑，这家清华系 AI 创企搞了个千卡异构混训平台，算力利用率最高达 97.6%

AIGC动态1年前 (2024)发布 ai-front

2,991 0 0

直击算力焦虑，这家清华系 AI 创企搞了个千卡异构混训平台，算力利用率最高达 97.6%

文章摘要

【关键词】 异构训练、AI芯片、混合计算、模型优化、算力挑战

GPT-4等大型模型在自然语言处理、机器翻译和文本生成等领域取得了显著成就，但随着模型参数的增加，计算和内存需求也随之增加，给算力和内存带来了巨大挑战。

为了解决这一问题，无问芯穹联合创始人兼CEO夏立雪在2024年世界人工智能大会上发布了全球首个千卡规模异构芯片混训平台，该平台支持AMD、华为昇腾等六种异构芯片的大模型混合训练，最高利用率可达97.6%。

目前，全球大模型训练主要采用PyTorch、Megatron等计算框架与英伟达GPU进行分布式训练。

尽管英伟达GPU在算力供给中占主导地位，但中国本土芯片制造商也在研发高能效AI处理器，为大模型训练提供多样化算力支持。

然而，大模型训练需要大量GPU卡并行运算，如Llama3-70B模型需要900张H100 GPU卡持续工作10个月。

在实际应用中，可能无法集齐足够数量的同型号GPU卡，需要将不同品牌、规格的GPU卡混合使用以满足训练需求。

异构芯片混合训练面临两大挑战：一是异构卡通信库差异导致通信困难；二是算力不均衡导致性能损失。

为解决这些问题，无问芯穹与清华、上交联合研究团队提出了一种针对大模型的异构分布式混合训练系统，包括多芯片互通互联的复杂性和算力不均衡导致性能损失的挑战。

针对通信问题，研究团队实现了无穹集合通信库(IHCCM)，支持基于CPU或基于GPU的两种通信方式。

基于CPU的通信方案注重异构集群的可扩展性，通过高速PCIe交换机和IPoIB或以太网实现高效数据传输。

基于GPU的通信方案采用RDMA技术和InfiniBand网络进行高效数据交换，通过标准化的分布式通信接口规范实现异构GPU间的通信。

针对算力不均衡问题，研究团队提出了基于流水线并行的非均匀拆分策略和基于数据并行的异构训练。

通过合理分配不同芯片的计算任务，实现资源的最优配置。

同时，还需考虑芯片位置顺序、模型embedding层计算量、显存大小与重算策略等因素，以实现整体训练吞吐量的最大化。

目前，该系统框架已在任意两种不同硬件组成的异构混训集群上实现Llama2-7B/70B模型的训练，算力利用率达到97.6%。

研究团队希望继续整合更多异构算力，推高大模型技术能力的上限，打破单一芯片品牌训练资源瓶颈。

未来将持续探索提升异构集群算力整合效率的方法，构建适应多模型与多芯片格局的AI Native基础设施。

此外，AIGC技术正重塑创新边界，InfoQ推出《大模型领航者AIGC实践案例集锦》电子书，深度对话30位大模型专家，展示大模型在多个行业的应用成果。

AICon全球人工智能开发与应用大会聚焦大模型训练与推理等前沿议题，汇聚AI和大模型落地场景与最佳实践，帮助与会者把握大模型时代机遇。

原文和模型

【原文链接】 阅读原文 [ 3596字 | 15分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

Moonshot AI

月之暗面是一家 AI 初创大模...

# AIGC动态 # GPT-GPTs # 大模型 # AI芯片 # 异构训练 # 模型优化 # 混合计算 # 算力挑战

文章版权归作者所有，未经允许请勿转载。

亚马逊祭出地表最强全家桶，多模态Nova却败给Claude 3.5！

新智元

2,054

100%英伟达的错：黄仁勋确认Blackwell缺陷修复，明年初出货

机器之心

1,482

清华汪玉教授团队支招：如何把“大”模型部署到“小”设备上 | Q福利

AI前线

2,059

AI智能体引擎加持：天玑9400让「完全体」AI手机提前问世了

机器之心

2,376

GPT-5 放弃追求智能上限了？

AI科技评论

723

台积电封装，疯狂扩产

admin

2,535

暂无评论

暂无评论...

直击算力焦虑，这家清华系 AI 创企搞了个千卡异构混训平台，算力利用率最高达 97.6%

文章摘要

原文和模型

美国启动「曼哈顿计划2.0」，AI进入奥本海默时刻？60亿砸向无人机，已有800个AI项目

MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

相关文章

暂无评论

热门网址

热门文章

直击算力焦虑，这家清华系 AI 创企搞了个千卡异构混训平台，算力利用率最高达 97.6%

文章摘要

原文和模型

美国启动「曼哈顿计划2.0」，AI进入奥本海默时刻？60亿砸向无人机，已有800个AI项目

MoE也有Scaling Law，「百万专家」利用率近100%！DeepMind华人挑战MoE极限

相关文章

暂无评论

Trac-AI IDE

极客训练营-扫码领取免费材料

讯飞文书-办公助手

热门网址

热门文章