当大模型Scaling Law继续，万卡集群算力释放在「百舸」这里找到一条通途

AIGC动态11个月前发布 almosthuman2014

2,015 0 0

文章摘要

在人工智能行业进入大模型时代，算力需求呈爆炸式增长，尤其在模型训练和推理方面。AI模型训练算力需求的增长速度远超摩尔定律，导致对GPU等硬件的要求提高，大规模GPU算力集群成为行业趋势。国内外科技厂商纷纷布局AI算力基础设施，以满足日益增长的算力需求。

百度推出的AI异构计算平台“百舸”，通过多芯混合训练AI集群，帮助客户高效落地大模型应用。百舸4.0版本在系统性提升GPU集群算力利用率方面进行了深入优化，实现了算力浪费降至1/10，万卡集群下的大模型训练和推理更快、更省。百舸4.0的架构从底层硬件到工具层分为资源层、组件层、大模型加速层和工具层，针对大模型的训推、部署和调优等全流程进行了优化。

百舸4.0具备多芯异构特性，构建了GPU和多类型AI芯片组成的单一智算集群，兼容国内外主流AI芯片的混合训练，并全面适配。在多芯混合训练任务中，百舸4.0将性能损失控制在业界最低水平。此外，百舸4.0在集群部署、大模型训推和效果调优方面进行了优化，帮助客户省去了大量配置和调试工作，最快1小时便能创建万卡规模集群。

百舸4.0在大模型加速层全新升级了AIAK训练加速，支持万亿参数MoE模型训练，提升了单个芯片的效能和整体训练效率。同时，AIAK推理加速在速度和成本方面进行了优化，提升了长文本推理任务的效率，并引入了投机式推理策略降低成本。

百舸4.0在万卡规模AI任务上的有效训练时长占比达到99.5%，最大化利用计算资源，降低浪费，提高成本效益。此外，百舸4.0通过自研的训推一体技术，提升了算力资源利用率至90%，为客户节省成本。

百舸4.0在能耗效率、单卡算力效率、并行扩展效率、有效训练时长和资源利用率等五大行业痛点问题上进行了技术突破，提供了万卡集群的最优解。百度云通过自研的液冷方案提升了数据中心能源效率，AIAK训练加速方案提升了GPU有效利用率，优化了并行策略，提升了集群稳定性，并实现了高算力资源利用率。

随着集群规模的扩大，未来将面临更复杂的软硬件协同、算力调度等问题，需要持续的技术突破来克服。百舸4.0的发布有助于增强百度AI基础设施的可持续性与领先性，为客户在业务场景中落地大模型应用降本增效，为AIGC爆发和AI普惠铺平道路。