比 GPT-4 快 18 倍、自研芯片比英伟达 GPU 快 10 倍的 Groq，能否撼动英伟达？

AIGC动态2年前 (2024)发布 Founder Park

2,213 0 0

作者信息

【原文作者】 Founder Park
【作者简介】 来自极客公园，专注与科技创业者聊「真问题」。
【微信号】 Founder-Park

文章摘要

【关键词】 Groq、AI芯片、张量流处理器、LPU、Tensor Streaming Processor

Groq AI芯片引发热议：

Groq，这个硅谷公司最近因其自研芯片在大模型推理时的高速度引起了国内外人工智能领域的广泛关注。其产品能够在每秒处理近500个token，这意味着一句话的响应时间不到2秒，速度之快甚至超过了翻译软件。Groq的这种速度表现，让人们在使用大模型生成答案时，感受到了前所未有的快速响应。

Groq的技术实现：

Groq的技术核心是名为TSP（Tensor Streaming Processor）的微架构设计。TSP通过功能切片设计、确定性执行和软件定义的方法，实现了高性能和高效率的张量计算。TSP的核心思想是将多核处理器组织结构进行功能切片重组，并围绕张量计算构建。这种设计充分利用了深度学习操作的数据局部性，发掘了机器学习负载中的并行性，并确保了确定性执行。

Groq将TSP转化为专用集成电路（ASIC），这种ASIC针对特定应用或算法进行了高度优化，以实现最佳性能。Groq的第一款TSP ASIC在900 MHz的标称时钟频率下，实现了每平方毫米硅片1万亿次操作/秒的计算密度。在ResNet50图像分类任务上，性能提升了4倍。

Groq的网络设计：

为了将多个TSP组织在一起，Groq设计了Dragonfly网络。这个网络采用多级层次化结构，将系统分割成多个子组，并通过路由器连接这些子组。这种设计提供了高带宽容量，特别是对于跨节点间的全局通信，确保了系统规模扩大时，每个TSP仍能保持高带宽接入。

Groq的背景：

Groq成立于2016年，创始团队来自谷歌，曾设计了谷歌自研AI芯片TPU系列。Groq的首席执行官Jonathan Ross曾承担了TPU的20%工作。Groq在高性能计算会议上展示了其在LPU上运行LLM的低延迟性能，并在Anyscale的LLMPerf排行榜上取得了突出成绩。

Groq的可用性：

尽管Groq的速度令人惊艳，但其成本可能较高。Groq的产品形态是ASIC，不是通用产品，而是定制产品。这意味着只有特定的大模型才能使用Groq的LPU。此外，Groq的硬件采购和运营成本也相对较高。

总结：

Groq的技术实现和网络设计展示了其在AI芯片领域的创新能力。然而，其专用集成电路的性质和较高的成本可能会限制其在市场上的广泛应用。尽管如此，Groq的出现无疑为AI芯片领域带来了新的活力和竞争。