想跑千亿大模型？算力厂商放大招！CPU通用服务器成为新选择

AIGC动态1年前 (2024)发布 QbitAI

2,044 0 0

文章摘要

浪潮信息在其NF8260G7通用服务器上成功运行了千亿参数规模的源2.0大模型，这一技术突破使得传统行业在不更换硬件的情况下也能利用AI技术。该服务器仅使用了4颗英特尔6448H芯片，无需GPU或其他AI加速卡，展示了通用服务器在AI算力上的潜力。

运行千亿参数大模型需要巨大的计算、内存和通信资源。例如，模型需要200-300GB的显存空间，内存与计算单元间的通信带宽至少需每秒2TB。软件优化也是关键，因为现有大模型多针对GPU设计，CPU算力与大模型的匹配程度不及GPU。CPU与内存间的数据同步导致带宽利用率低，增加了通信开销。

浪潮信息的技术攻关克服了这些难题。NF8260G7服务器采用英特尔至强6448H处理器，具备32核心、2.4GHz主频、60MB L3缓存，配合1024GB DDR5内存和995GB/s的内存读带宽。芯片的AMX AI加速功能适配大模型运算特点。服务器采用全链路UPI总线互连，减少通信延迟，提高传输速率至16GT/s。

为提升计算效率，CPU需进行张量并行计算。浪潮信息将源2.0模型的矩阵计算拆分至多个处理器，实现4颗CPU的计算加速。张量并行要求CPU间数据同步，增加通信带宽需求。UPI总线互联满足此需求。为降低通信带宽门槛，浪潮信息采用NF4量化技术，减少模型权重的内存占用。

尽管AI加速芯片性能强劲，但CPU方案在部署成本、内存容量和通信带宽上有优势。通用服务器的内存容量远超GPU显存，且CPU间通信效率满足大模型运行需求。随着CPU加入AI加速指令集，其AI算力也在提升。

浪潮信息的方案不仅降低了千亿大模型的部署成本，还推动了通用算力向智能算力的转变。这有助于AI技术更深入地应用于各行各业，实现更广泛的智能涌现。浪潮信息将继续在算力、算法和数据上发力，推动AI技术的系统突破。