揭开Groq LPU神秘面纱：世界最快硬件加速器的底层架构设计！

AIGC动态1年前 (2024)发布 AIera

2,730 0 0

模型信息

【模型公司】 OpenAI
【模型名称】 gpt-4-0125-preview
【摘要评分】 ★★★★★

文章摘要

Groq, 一家创业公司，因其自研的硬件加速器LPU（Language Processing Unit）一夜爆火，实现了500个token/s的推理速度，秒杀了ChatGPT。这种性能的飞跃归功于其背后的语言处理单元硬件LPU，以及Groq研发团队在LPU上应用的创新硬件架构设计和强大的编译器。

Groq LPU的设计基础是其张量流处理器（TSP），这一设计在2020年和2022年的计算机体系结构顶会ISCA上发表的两篇论文中有所描述。TSP的架构与传统的CPU或GPU芯片大相径庭，旨在提供更高的确定性，从而消除硬件的复杂性，使编译器能够获得更大的权力，精确调度和控制指令的执行。

TSP的设计彻底颠覆了传统多核芯片的平铺架构，采用2d网格方式排列功能单元，每一列只包含特定类型的功能单元，称为切片（slice）。这种设计使得TSP能以SIMD（单指令多数据）方式执行指令，每个功能切片由20个tile组成，每个tile能够处理16个数，从而一个完整的切片可以处理并生成最大320个元素的向量。

TSP的编译器和指令集（ISA）设计是其成功的关键之一。由于TSP硬件中没有非确定性行为，编译器可以准确了解每条指令的延迟，以及程序中的数据流。编译器识别计算任务之间的依赖关系，并分配到TSP的可用功能单元上并行执行。

将多个TSP以机架的形式组合在一起，形成一个能够提供大量吞吐量的分布式系统，是LPU的基础。这种分布式多TSP系统的设计目标围绕着确定性数据流和指令执行，以及节点之间的低延迟通信。系统中任何两个TSP之间最多有5个hops，支持145个相互互连的机架，包括10440个TSP。

在这种扩展的分布式系统中，编译器在软件计划网络中的作用至关重要。编译器能够对TSP内以及整个网络中的数据移动进行周期准确的了解，并在编译时静态解析所有内容。这种方式不仅改善了网络中的延迟，还实现了确定性负载均衡，有效地利用系统中的可用带宽，并减少整体延迟。

总的来说，Groq LPU的设计展示了硬件架构和编译器设计方面的创新，通过提供高度确定性和精确的性能控制，为AI推理提供了前所未有的速度和效率。

原文信息

【原文链接】 阅读原文
【阅读预估】 3490 / 14分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。