榨取大模型算力，百度想了一些招

2,018 0 0

文章摘要

在当前的科技领域，算力已成为一种极其宝贵的资源，其重要性甚至超过了黄金。随着OpenAI发布o1-preview，即“草莓”模型，算力的需求和消耗达到了前所未有的高度。头部玩家的模型训练规模已经达到10万卡级别，而“草莓”模型的算力消耗可能更大，这使得算力问题变得更加突出。

为了应对这一挑战，企业和研究人员需要在两个方面下功夫：一是提高算力资源的堆叠，二是提高现有算力资源的利用效率。前者需要巨额资金投入，而后者则需要对算力调用的各个环节进行精细控制。百度智能云AI计算部负责人王雁鹏在一次技术分享中，详细拆解了大模型时代的算力浪费问题，并提出了百度百舸提升算力利用率的策略。

在大模型时代，算力的有效利用率不足50%，这意味着大量的算力被浪费。为了提高算力的有效利用率，需要在能耗效率、单卡算力效率、并行扩展效率、有效训练时间和资源利用率这五个方面进行改进。百度通过液冷方案降低了数据中心的能源效率，提高了单卡算力的利用，并通过RDMA网络和自动并行策略提升了并行扩展的效率。

此外，百度还通过优化故障定位和任务恢复时间，提高了AI训练的有效时间。在硬件资源有限的情况下，百度通过弹性队列、多推理混布和弹性伸缩机制，实现了资源利用率的最大化。面对国内算力受限的挑战，百度通过抽象层的设计和跨芯通讯库，解决了不同芯片的通信问题，并利用异构并行切分策略，使得芯片性能在复杂互连条件下得到发挥。

随着大模型训练规模的不断扩大，算力之争将更加激烈。百度在算力性能榨取方面的探索，不仅体现了技术层面的“少花钱多办事”的理念，也响应了国内算力受限的现实情况。为了应对更大规模的算力竞争，业界需要提前做好准备。