从AWS Graviton 4，揭秘Arm Neoverse V2

AIGC动态1年前 (2024)发布 admin

2,947 0 0

文章摘要

【关键词】 AWS云服务、Graviton 4、Arm服务器、Neoverse V2、性能测试

亚马逊网络服务（AWS）是云服务领域的领导者，也是Arm服务器技术的早期采用者。2018年，AWS推出了Graviton 1，采用16个Cortex A72内核。经过三代发展，Graviton 4搭载了96个Neoverse V2内核，后者是Arm Cortex X3的服务器版本，也是Arm Neoverse V系列的最新产品。Graviton 4的系统架构采用了Arm的CMN-700网格互连，配置了36MB共享L3缓存，内核间的缓存行反弹延迟在30-60纳秒之间。

Graviton 4支持更大的实例，采用双插槽配置，提供192个内核和1536GB DDR5内存。在双插槽配置下，跨越插槽边界的延迟为138.6纳秒，与英特尔的Sapphire Rapids相似。Graviton 4在核心到核心延迟方面表现良好，与Graviton 2和3相当，同时提供了更多的内核数量。

Neoverse V2核心是Arm高性能核心系列的一部分，其宽度和重新排序能力与AMD的Zen 4相当。Graviton 4中的Neoverse V2运行速度高达2.8 GHz，双插槽实例的时钟速度降低到2.7 GHz。Neoverse V2使用了8组件TAGE预测器，表比Neoverse V1更大，减少了分支冲突的可能性。

在分支预测方面，Neoverse V2表现出色，与Golden Cove相似。然而，Zen 4可以处理更长的模式和更高的分支数。Neoverse V2的分支目标缓存采用三级BTB方案，能够处理非常大的分支足迹。Neoverse V2的返回堆栈有31个条目，处理调用+返回对的延迟与台式机Zen 4相当。

Neoverse V2的指令获取和解码阶段通过32项提取队列和64 KB L1指令缓存来提高性能。它还具有1536项微操作缓存，每周期可提供8个微操作。Neoverse V2的重命名和分配阶段每周期可以处理8个微操作，但测试结果显示实际为6个。Neoverse V2的执行引擎能够越过停滞的指令，保持执行单元的运行。

在整数和浮点/矢量执行方面，Neoverse V2具有6个ALU和四个128位管道，能够处理基本的FP和矢量整数运算。Neoverse V2的加载/存储单元包括三个地址生成单元（AGU），其中两个可以处理加载和存储，一个专用于加载。Neoverse V2的TLB设置为两级，L1 DTLB和L2 TLB。

Neoverse V2的L1数据缓存为64 KB，采用64B对齐，最小访问延迟为4个周期。L2缓存为1或2 MB，Graviton 4选择了2 MB选项，延迟为11个周期。Neoverse V2的L3带宽较低，单核的L3带宽为30 GB/s。

在基准测试中，Graviton 4在libx264编码4K视频和7-Zip压缩大型文件方面表现不一。Graviton 4在libx264中表现不佳，但在7-Zip中轻松击败了八核Bergamo CCX。Neoverse V2在两种工作负载下的平均IPC均高于Zen 4，但Zen 4的更高时钟频率和SMT能力使其具有优势。

总体而言，Graviton 4的双插槽配置在缓存一致性操作和DDR5设置方面表现出色，尽管跨插槽带宽和延迟有待提高。Neoverse V2核心在性能和效率方面取得了平衡，但在某些方面仍有提升空间。