揭开Groq LPU神秘面纱:世界最快硬件加速器的底层架构设计!

AIGC动态10个月前发布 AIera
1,142 0 0

模型信息


【模型公司】 OpenAI
【模型名称】 gpt-4-0125-preview
【摘要评分】 ★★★★★

揭开Groq LPU神秘面纱:世界最快硬件加速器的底层架构设计!
 

文章摘要


【关 键 词】 硬件加速器LPU架构编译器设计性能优化分布式系统

Groq, 一家创业公司,因其自研的硬件加速器LPU(Language Processing Unit)一夜爆火,实现了500个token/s的推理速度,秒杀了ChatGPT。这种性能的飞跃归功于其背后的语言处理单元硬件LPU,以及Groq研发团队在LPU上应用的创新硬件架构设计和强大的编译器。

Groq LPU的设计基础是其张量流处理器(TSP),这一设计在2020年和2022年的计算机体系结构顶会ISCA上发表的两篇论文中有所描述。TSP的架构与传统的CPU或GPU芯片大相径庭,旨在提供更高的确定性,从而消除硬件的复杂性,使编译器能够获得更大的权力,精确调度和控制指令的执行。

TSP的设计彻底颠覆了传统多核芯片的平铺架构,采用2d网格方式排列功能单元,每一列只包含特定类型的功能单元,称为切片(slice)。这种设计使得TSP能以SIMD(单指令多数据)方式执行指令,每个功能切片由20个tile组成,每个tile能够处理16个数,从而一个完整的切片可以处理并生成最大320个元素的向量。

TSP的编译器和指令集(ISA)设计是其成功的关键之一。由于TSP硬件中没有非确定性行为,编译器可以准确了解每条指令的延迟,以及程序中的数据流。编译器识别计算任务之间的依赖关系,并分配到TSP的可用功能单元上并行执行。

将多个TSP以机架的形式组合在一起,形成一个能够提供大量吞吐量的分布式系统,是LPU的基础。这种分布式多TSP系统的设计目标围绕着确定性数据流和指令执行,以及节点之间的低延迟通信。系统中任何两个TSP之间最多有5个hops,支持145个相互互连的机架,包括10440个TSP。

在这种扩展的分布式系统中,编译器在软件计划网络中的作用至关重要。编译器能够对TSP内以及整个网络中的数据移动进行周期准确的了解,并在编译时静态解析所有内容。这种方式不仅改善了网络中的延迟,还实现了确定性负载均衡,有效地利用系统中的可用带宽,并减少整体延迟。

总的来说,Groq LPU的设计展示了硬件架构和编译器设计方面的创新,通过提供高度确定性和精确的性能控制,为AI推理提供了前所未有的速度和效率。

原文信息


【原文链接】 阅读原文
【阅读预估】 3490 / 14分钟
【原文作者】 新智元
【作者简介】 智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。

© 版权声明
“绘蛙”

相关文章

暂无评论

暂无评论...