文章摘要
【关 键 词】 AI推理、芯片性能、能效竞争、内存带宽、市场选择
在AI推理领域,尽管英伟达的GPU保持着其在AI训练领域的领导地位,但竞争对手正在迅速追赶,尤其是在能效方面。最近,ML Commons发布了MLPerf Inference v4.1的竞赛结果,显示了AMD、谷歌、UntetherAI和英伟达等公司的最新芯片性能。
MLPerf Inference竞赛包括多个类别和子类别,其中“封闭数据中心”类别的提交数量最多。这个类别要求在不进行重大软件修改的情况下运行推理任务,评估的是批量处理查询的能力。新增的Mixture of Experts基准测试反映了LLM部署的趋势,即将大型语言模型分解为针对特定任务优化的小型模型,以提高效率和降低成本。
在封闭数据中心基准测试中,基于英伟达H200 GPU和GH200超级芯片的参赛者获胜。英伟达的Blackwell芯片在LLM问答任务中表现出色,性能是之前芯片的2.5倍。Untether AI的speedAI240预览芯片在图像识别任务中与H200性能相当。谷歌的Trillium在图像生成任务上的性能约为H100和H200的一半,而AMD的Instinct在LLM问答任务上的性能与H100相当。
英伟达Blackwell芯片的成功归因于其能够使用4位浮点精度运行LLM,以及显著提升的内存带宽。Blackwell芯片设计用于联网和伸缩性,支持多达18个NVLink连接,总带宽达到每秒1.8兆字节。英伟达预计Blackwell芯片将在六个月内上市。
Untether AI在功耗和边缘计算方面表现出色,其芯片采用内存内计算,显著减少了模型数据在内存与计算核心间传输所需的时间和资源。在MLPerf的“封闭边缘”子类别中,Untether AI的speedAI240预览芯片在延迟性能和吞吐量方面均优于NVIDIA L40S。
Cerebras和FuriosaAI虽然未提交MLPerf评测,但也发布了新的推理芯片。Cerebras专注于制造大型芯片,以提高内存带宽,而Furiosa的芯片采用了张量收缩处理器架构,以更有效地实现AI推理中的矩阵乘法。
IBM也发布了新款Spyre芯片,旨在满足企业生成式AI工作负载需求,并计划于2025年第一季度推向市场。这些进展表明,AI推理芯片市场的竞争正在加剧,买家将有更多的选择。
原文和模型
【原文链接】 阅读原文 [ 2853字 | 12分钟 ]
【原文作者】 AI前线
【摘要模型】 moonshot-v1-32k
【摘要评分】 ★★★★★