OpenAI陷巨大算力荒，国内大厂抢先破局！打破单芯片限制，算力效率提升33%

AIGC动态1年前 (2024)发布 AIera

2,345 0 0

文章摘要

新智元报道指出，随着人工智能（AI）技术的发展，对算力的需求日益增长，已经超越了单芯片所能提供的算力。文章通过分析当前AI领域内大规模神经网络训练的现状，揭示了算力需求的庞大规模以及现有硬件资源的局限性。

文章首先提到，即使是英伟达最先进的芯片也无法满足当前AI对算力的需求。举例来说，Llama 3模型训练需要24576块H100芯片组成的集群，Meta计划年底前建成由35万块H100搭建的基础设施，而GPT-4模型则在10000-25000张A100芯片上完成训练。这些例子表明，AI的发展已经进入了一个全新的阶段，即需要大规模集群来提供所需的算力。

然而，摩尔定律的限制意味着单纯依靠芯片制程的进步已经无法满足AI对算力的无限需求。因此，必须寻找新的方法来解决算力瓶颈问题。文章指出，通过构建更大的集群来突破算力瓶颈是一种可行的解决方案。英伟达在GTC 24大会上推出的DGX SuperPOD就是一个很好的例子，它通过加速计算、网络和软件的协同工作，为万亿参数模型的训练和推理提供了稳定的支持。

尽管如此，随着集成芯片数量的增加，算法效率不高、计算资源不足、互联带宽受限等技术挑战也随之而来。文章强调，AI系统的性能不仅取决于GPU等加速器的异构扩展能力，还需要考虑互联带宽的限制和算法优化。例如，GPT-4集群的算力利用率仅为32%到36%，这表明在当前技术条件下，算力利用率已经接近极限。

为了解决这些问题，文章提出了几个关键的创新方向。首先是硬件方面的创新，浪潮信息发布的“融合架构3.0”是一个全新的大规模计算架构，通过高速互联总线对计算存储进行解耦，实现了融合架构和算法模型之间的适配。其次是互联方面的创新，随着系统集群规模的扩大，高速互联变得愈加重要。文章提到，英伟达的DGX SuperPOD利用了第五代NVLink链接和Quantum-X800 InfiniBand网络，为系统中每个GPU提供高达每秒1800GB/s的带宽。此外，浪潮信息提出的“超级AI以太网”通过端网协同，实现了模型训练的极致计算效率。

最后，软件方面的创新也至关重要。文章指出，需要开发相应的调度软件来实现业务感知、资源自动调度和弹性扩展。此外，在大模型开发过程中，故障隔离自愈变得越来越重要，可以通过软件系统实现断点续算，一旦出现故障，就可以无缝退回到上一个checkpoint。

综上所述，文章强调，AI的发展已经进入了一个全新的阶段，需要通过系统性的创新思维来应对AI的挑战。这包括硬件、互联和软件等多个方面的协同创新，以实现更高效的算力利用和更快速的AI发展。