当大模型Scaling Law继续,万卡集群算力释放在「百舸」这里找到一条通途
文章摘要
【关 键 词】 AI算力、大模型、GPU集群、异构计算、百度百舸
在人工智能行业进入大模型时代,算力需求呈爆炸式增长,尤其在模型训练和推理方面。AI模型训练算力需求的增长速度远超摩尔定律,导致对GPU等硬件的要求提高,大规模GPU算力集群成为行业趋势。国内外科技厂商纷纷布局AI算力基础设施,以满足日益增长的算力需求。
百度推出的AI异构计算平台“百舸”,通过多芯混合训练AI集群,帮助客户高效落地大模型应用。百舸4.0版本在系统性提升GPU集群算力利用率方面进行了深入优化,实现了算力浪费降至1/10,万卡集群下的大模型训练和推理更快、更省。百舸4.0的架构从底层硬件到工具层分为资源层、组件层、大模型加速层和工具层,针对大模型的训推、部署和调优等全流程进行了优化。
百舸4.0具备多芯异构特性,构建了GPU和多类型AI芯片组成的单一智算集群,兼容国内外主流AI芯片的混合训练,并全面适配。在多芯混合训练任务中,百舸4.0将性能损失控制在业界最低水平。此外,百舸4.0在集群部署、大模型训推和效果调优方面进行了优化,帮助客户省去了大量配置和调试工作,最快1小时便能创建万卡规模集群。
百舸4.0在大模型加速层全新升级了AIAK训练加速,支持万亿参数MoE模型训练,提升了单个芯片的效能和整体训练效率。同时,AIAK推理加速在速度和成本方面进行了优化,提升了长文本推理任务的效率,并引入了投机式推理策略降低成本。
百舸4.0在万卡规模AI任务上的有效训练时长占比达到99.5%,最大化利用计算资源,降低浪费,提高成本效益。此外,百舸4.0通过自研的训推一体技术,提升了算力资源利用率至90%,为客户节省成本。
百舸4.0在能耗效率、单卡算力效率、并行扩展效率、有效训练时长和资源利用率等五大行业痛点问题上进行了技术突破,提供了万卡集群的最优解。百度云通过自研的液冷方案提升了数据中心能源效率,AIAK训练加速方案提升了GPU有效利用率,优化了并行策略,提升了集群稳定性,并实现了高算力资源利用率。
随着集群规模的扩大,未来将面临更复杂的软硬件协同、算力调度等问题,需要持续的技术突破来克服。百舸4.0的发布有助于增强百度AI基础设施的可持续性与领先性,为客户在业务场景中落地大模型应用降本增效,为AIGC爆发和AI普惠铺平道路。
原文和模型
【原文链接】 阅读原文 [ 3771字 | 16分钟 ]
【原文作者】 机器之心
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★