想跑千亿大模型?算力厂商放大招!CPU通用服务器成为新选择

AIGC动态5个月前发布 QbitAI
854 0 0
想跑千亿大模型?算力厂商放大招!CPU通用服务器成为新选择

 

文章摘要


【关 键 词】 AI算力通用服务器英特尔芯片张量并行智能应用

浪潮信息在其NF8260G7通用服务器上成功运行了千亿参数规模的源2.0大模型,这一技术突破使得传统行业在不更换硬件的情况下也能利用AI技术。该服务器仅使用了4颗英特尔6448H芯片,无需GPU或其他AI加速卡,展示了通用服务器在AI算力上的潜力。

运行千亿参数大模型需要巨大的计算、内存和通信资源。例如,模型需要200-300GB的显存空间,内存与计算单元间的通信带宽至少需每秒2TB。软件优化也是关键,因为现有大模型多针对GPU设计,CPU算力与大模型的匹配程度不及GPU。CPU与内存间的数据同步导致带宽利用率低,增加了通信开销。

浪潮信息的技术攻关克服了这些难题。NF8260G7服务器采用英特尔至强6448H处理器,具备32核心、2.4GHz主频、60MB L3缓存,配合1024GB DDR5内存和995GB/s的内存读带宽。芯片的AMX AI加速功能适配大模型运算特点。服务器采用全链路UPI总线互连,减少通信延迟,提高传输速率至16GT/s。

为提升计算效率,CPU需进行张量并行计算。浪潮信息将源2.0模型的矩阵计算拆分至多个处理器,实现4颗CPU的计算加速。张量并行要求CPU间数据同步,增加通信带宽需求。UPI总线互联满足此需求。为降低通信带宽门槛,浪潮信息采用NF4量化技术,减少模型权重的内存占用。

尽管AI加速芯片性能强劲,但CPU方案在部署成本、内存容量和通信带宽上有优势。通用服务器的内存容量远超GPU显存,且CPU间通信效率满足大模型运行需求。随着CPU加入AI加速指令集,其AI算力也在提升。

浪潮信息的方案不仅降低了千亿大模型的部署成本,还推动了通用算力向智能算力的转变。这有助于AI技术更深入地应用于各行各业,实现更广泛的智能涌现。浪潮信息将继续在算力、算法和数据上发力,推动AI技术的系统突破。

“极客训练营”

原文和模型


【原文链接】 阅读原文 [ 2658字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...