文章摘要
【关 键 词】 英特尔至强、性能提升、内存控制器、MRDIMM、大语言模型
英特尔至强6性能核处理器以其显著的推理性能提升2.4倍而受到业界关注。其架构、核数和内存带宽的大幅提升是性能激增的关键因素。尽管至强6性能核处理器的Die shot或架构图尚未公开,但英特尔发布的晶圆照片显示,其网格构成更像是5×10,而非5×9或6×8。每个芯片中的内核数量为44个,内存控制器占用6个网格,这引发了对内存控制器面积增大原因的讨论,可能与MRDIMM支持有关。
至强6性能核处理器在内存控制器上的投入显著,至少在一段时间内将独占MRDIMM的优势。在服务器内存方面,NUMA(非统一内存访问)是一个关键概念,随着CPU内核数量的增加,内存访问请求冲突迅速增加,NUMA通过将内核分为若干组,每组拥有独立的缓存和内存空间,减少冲突。至强6性能核处理器可以将每个计算单元芯片作为一个SNC,每个域拥有4个内存通道,这被称为SNC3 Mode。如果需要通过其他芯粒的缓存代理访问所有内存,则为HEX Mode。
至强6性能核处理器的内核规模和内存控制器数量增加,导致访问时延上升。例如,至强6900P在SNC3 Mode的时延略高于上一代至强处理器的Quad Mode。如果至强6900P设为HEX Mode,时延增加会更明显。SNC3 Mode由于时延低,将成为至强6服务器的默认模式,适合虚拟化/容器化应用和并行化程度高的计算。HEX Mode则适合大型数据库和科学计算等应用。
MRDIMM是至强6性能核处理器提升内存带宽的直接方法,也是其相比其他产品的独特能力。MRDIMM增加了多路复用数据缓冲器和改进了寄存时钟驱动器,实现带宽翻倍。MRDIMM的支持者主要是内存厂商,如美光、SK海力士、威刚等。MRDIMM的目标速率为8,800 MT/s,未来将逐步提升至12,800 MT/s、17,600 MT/s。
至强6900P由于插座尺寸大增,双路机型的内存槽数量减少,但通过使用256GB的MRDIMM,可以获得6TB内存容量。MRDIMM的实际运行频率略低,导致轻量级应用不能明显获益,但对计算密集型应用如加密、科学计算、信号处理、AI训练和推理等,MRDIMM的内存带宽优势将得到充分发挥。
在大语言模型推理中,MRDIMM的带宽优势得到充分发挥,性能提升在30%以上。内存带宽的增长幅度大于CPU内核数量的增长,内存或显存容量决定了模型的规模上限,而带宽决定了token输出的上限。至强6性能核处理器配MRDIMM的组合,将为大语言模型落地后的推理成本提供新的解题思路。
原文和模型
【原文链接】 阅读原文 [ 3008字 | 13分钟 ]
【原文作者】 新智元
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★