GPU训Llama 3.1疯狂崩溃，竟有大厂用CPU服务器跑千亿参数大模型？

AIGC动态1年前 (2024)发布 AIera

2,179 0 0

文章摘要

在人工智能领域，对于高端GPU的狂热追求并非总是最佳解决方案。尽管GPU在并行处理能力上具有优势，但其显存容量受限，且成本高昂，对于科研人员和应用厂商来说，需要实现更高的成本效益，就得另谋他路。浪潮信息的研发工程师通过技术创新，仅用4颗CPU，就让千亿参数的「源2.0」在通用服务器上成功运行。

要在单台服务器中实现千亿参数大模型的推理，需要经过预填充阶段和解码阶段，这两个阶段对计算能力和数据搬运效率提出了高要求。通用服务器在算法层面和硬件资源方面都具有优势，例如超大内存、高速带宽和AI加速功能。浪潮信息的通用服务器支持PyTorch、TensorFlow等主流AI框架，以及DeepSpeed等开发工具，满足了用户对开放生态的需求。

然而，仅靠硬件创新是不够的，CPU在大规模并行计算上存在局限。为了解决这一问题，浪潮信息提出了「张量并行」和「NF4量化」两项技术创新。张量并行通过将卷积算子进行张量切分，使得4颗CPU可以同时获取算法权重进行计算加速，提升了计算效率。NF4量化方法则在不影响精度的情况下，将模型参数量化成低比特数据，减小了权重大小和传输的数据量，提高了数据搬运效率。

此外，浪潮信息还采用了嵌套量化技术，进一步压缩模型的权重参数，显著减少了所需的存储空间，并提高了数据搬运效率。这些技术创新使得通用服务器在运行千亿参数大模型时，推理性能得到了显著提升，为AI领域提供了一种新的解决方案。

总的来说，通用服务器在运行千亿参数大模型方面展现出了其独特的优势，通过软硬件的协同优化和算法创新，成功实现了实时推理，为AI领域的发展提供了新的可能性。这表明，在AI技术迅速发展的今天，通用服务器有望成为推动AI应用普及的重要力量。