OpenAI陷巨大算力荒,国内大厂抢先破局!打破单芯片限制,算力效率提升33%

AIGC动态8个月前发布 AIera
915 0 0
OpenAI陷巨大算力荒,国内大厂抢先破局!打破单芯片限制,算力效率提升33%

 

文章摘要


【关 键 词】 人工智能算力需求硬件创新互联技术软件优化

新智元报道指出,随着人工智能(AI)技术的发展,对算力的需求日益增长,已经超越了单芯片所能提供的算力。文章通过分析当前AI领域内大规模神经网络训练的现状,揭示了算力需求的庞大规模以及现有硬件资源的局限性。

文章首先提到,即使是英伟达最先进的芯片也无法满足当前AI对算力的需求。举例来说,Llama 3模型训练需要24576块H100芯片组成的集群,Meta计划年底前建成由35万块H100搭建的基础设施,而GPT-4模型则在10000-25000张A100芯片上完成训练。这些例子表明,AI的发展已经进入了一个全新的阶段,即需要大规模集群来提供所需的算力。

然而,摩尔定律的限制意味着单纯依靠芯片制程的进步已经无法满足AI对算力的无限需求。因此,必须寻找新的方法来解决算力瓶颈问题。文章指出,通过构建更大的集群来突破算力瓶颈是一种可行的解决方案。英伟达在GTC 24大会上推出的DGX SuperPOD就是一个很好的例子,它通过加速计算、网络和软件的协同工作,为万亿参数模型的训练和推理提供了稳定的支持。

尽管如此,随着集成芯片数量的增加,算法效率不高、计算资源不足、互联带宽受限等技术挑战也随之而来。文章强调,AI系统的性能不仅取决于GPU等加速器的异构扩展能力,还需要考虑互联带宽的限制和算法优化。例如,GPT-4集群的算力利用率仅为32%到36%,这表明在当前技术条件下,算力利用率已经接近极限。

为了解决这些问题,文章提出了几个关键的创新方向。首先是硬件方面的创新,浪潮信息发布的“融合架构3.0”是一个全新的大规模计算架构,通过高速互联总线对计算存储进行解耦,实现了融合架构和算法模型之间的适配。其次是互联方面的创新,随着系统集群规模的扩大,高速互联变得愈加重要。文章提到,英伟达的DGX SuperPOD利用了第五代NVLink链接和Quantum-X800 InfiniBand网络,为系统中每个GPU提供高达每秒1800GB/s的带宽。此外,浪潮信息提出的“超级AI以太网”通过端网协同,实现了模型训练的极致计算效率。

最后,软件方面的创新也至关重要。文章指出,需要开发相应的调度软件来实现业务感知、资源自动调度和弹性扩展。此外,在大模型开发过程中,故障隔离自愈变得越来越重要,可以通过软件系统实现断点续算,一旦出现故障,就可以无缝退回到上一个checkpoint。

综上所述,文章强调,AI的发展已经进入了一个全新的阶段,需要通过系统性的创新思维来应对AI的挑战。这包括硬件、互联和软件等多个方面的协同创新,以实现更高效的算力利用和更快速的AI发展。

原文和模型


【原文链接】 阅读原文 [ 4621字 | 19分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...