GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?

AIGC动态5个月前发布 AIera
809 0 0
GPU训Llama 3.1疯狂崩溃,竟有大厂用CPU服务器跑千亿参数大模型?

 

文章摘要


【关 键 词】 AI技术CPU创新张量并行NF4量化通用服务器

在人工智能领域,对于高端GPU的狂热追求并非总是最佳解决方案。尽管GPU在并行处理能力上具有优势,但其显存容量受限,且成本高昂,对于科研人员和应用厂商来说,需要实现更高的成本效益,就得另谋他路。浪潮信息的研发工程师通过技术创新,仅用4颗CPU,就让千亿参数的「源2.0」在通用服务器上成功运行。

要在单台服务器中实现千亿参数大模型的推理,需要经过预填充阶段和解码阶段,这两个阶段对计算能力和数据搬运效率提出了高要求。通用服务器在算法层面和硬件资源方面都具有优势,例如超大内存、高速带宽和AI加速功能。浪潮信息的通用服务器支持PyTorch、TensorFlow等主流AI框架,以及DeepSpeed等开发工具,满足了用户对开放生态的需求。

然而,仅靠硬件创新是不够的,CPU在大规模并行计算上存在局限。为了解决这一问题,浪潮信息提出了「张量并行」和「NF4量化」两项技术创新。张量并行通过将卷积算子进行张量切分,使得4颗CPU可以同时获取算法权重进行计算加速,提升了计算效率。NF4量化方法则在不影响精度的情况下,将模型参数量化成低比特数据,减小了权重大小和传输的数据量,提高了数据搬运效率。

此外,浪潮信息还采用了嵌套量化技术,进一步压缩模型的权重参数,显著减少了所需的存储空间,并提高了数据搬运效率。这些技术创新使得通用服务器在运行千亿参数大模型时,推理性能得到了显著提升,为AI领域提供了一种新的解决方案。

总的来说,通用服务器在运行千亿参数大模型方面展现出了其独特的优势,通过软硬件的协同优化和算法创新,成功实现了实时推理,为AI领域的发展提供了新的可能性。这表明,在AI技术迅速发展的今天,通用服务器有望成为推动AI应用普及的重要力量。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 3287字 | 14分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...