文章摘要
【关 键 词】 AI算力、通用服务器、英特尔芯片、张量并行、智能应用
浪潮信息在其NF8260G7通用服务器上成功运行了千亿参数规模的源2.0大模型,这一技术突破使得传统行业在不更换硬件的情况下也能利用AI技术。该服务器仅使用了4颗英特尔6448H芯片,无需GPU或其他AI加速卡,展示了通用服务器在AI算力上的潜力。
运行千亿参数大模型需要巨大的计算、内存和通信资源。例如,模型需要200-300GB的显存空间,内存与计算单元间的通信带宽至少需每秒2TB。软件优化也是关键,因为现有大模型多针对GPU设计,CPU算力与大模型的匹配程度不及GPU。CPU与内存间的数据同步导致带宽利用率低,增加了通信开销。
浪潮信息的技术攻关克服了这些难题。NF8260G7服务器采用英特尔至强6448H处理器,具备32核心、2.4GHz主频、60MB L3缓存,配合1024GB DDR5内存和995GB/s的内存读带宽。芯片的AMX AI加速功能适配大模型运算特点。服务器采用全链路UPI总线互连,减少通信延迟,提高传输速率至16GT/s。
为提升计算效率,CPU需进行张量并行计算。浪潮信息将源2.0模型的矩阵计算拆分至多个处理器,实现4颗CPU的计算加速。张量并行要求CPU间数据同步,增加通信带宽需求。UPI总线互联满足此需求。为降低通信带宽门槛,浪潮信息采用NF4量化技术,减少模型权重的内存占用。
尽管AI加速芯片性能强劲,但CPU方案在部署成本、内存容量和通信带宽上有优势。通用服务器的内存容量远超GPU显存,且CPU间通信效率满足大模型运行需求。随着CPU加入AI加速指令集,其AI算力也在提升。
浪潮信息的方案不仅降低了千亿大模型的部署成本,还推动了通用算力向智能算力的转变。这有助于AI技术更深入地应用于各行各业,实现更广泛的智能涌现。浪潮信息将继续在算力、算法和数据上发力,推动AI技术的系统突破。
原文和模型
【原文链接】 阅读原文 [ 2658字 | 11分钟 ]
【原文作者】 量子位
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★