芯片战争早已打响！谷歌15个月打造首个TPU，欲和老黄平起平坐

AIGC动态1年前 (2024)发布 AIera

2,115 0 0

文章摘要

在当前由英伟达主导的AI硬件时代，谷歌的张量处理单元（TPU）提供了一种不同的解决方案。本文将探讨TPU的发展历程和其独特的架构设计。

TPU的历史背景和重要性
TPU的出现与神经网络的发展历程紧密相关。神经网络经历了多次起伏，其背后的专用硬件加速器（ASIC）也同样经历了多次的发展和放弃。在神经网络效率低下的问题和缺乏合适硬件的双重困境下，GPU最终打破了僵局。随着大模型的推动，各种硬件加速器层出不穷，而TPU作为第一批大规模部署的加速器之一，无疑将成为未来计算领域的重要组成部分。

TPU之所以引人注目，是因为它被广泛应用于谷歌的各项服务中，服务用户超过10亿。与此同时，谷歌也拥有全球第三大公共云。在这样的背景下，TPU成为了英伟达GPU的一个真正的竞争对手。

TPU的起源和快速交付
谷歌对机器学习的重视始于2010年代初，随后通过一系列的收购和研究项目，如Google Brain、DeepMind等，加深了对深度学习的投入。在意识到GPU虽然强大但并非专为神经网络设计后，谷歌开始探索FPGA和ASIC两种选择。最终，谷歌选择了ASIC，并迅速组建了一支才华横溢的团队，包括David Patterson等重要人物。

谷歌在开发TPU时采用了35年前提出的“systolic system”架构，这种架构简单、成本低廉，非常适合进行矩阵计算。通过与LSI公司的合作，以及采用较老的工艺和较低的时钟频率，谷歌在短短15个月内就完成了TPU的开发和部署。

TPU架构的技术细节
TPU的核心是矩阵乘法单元，它采用了systolic array（脉动阵列）的设计，能够高效地执行矩阵乘法操作。TPU v1通过PCIe接口与主机通信，并直接访问自己的DDR3存储。它执行8位整数乘法，利用量化技术避免了浮点计算的开销。TPU v1的指令集非常简单，只有大约20条指令，这使得芯片用于解码和相关活动的开销非常低。

在性能比较中，TPU v1的矩阵乘法单元的MAC数量是英伟达K80 GPU的25倍，片上内存是K80 GPU的3.5倍。TPU v1的推理速度比K80 GPU和Haswell CPU快15到30倍，计算效率是GPU的25到29倍。

结论
TPU的出现不仅是对英伟达GPU统治地位的挑战，也是对AI硬件领域多样性的一种贡献。它的成功部署和应用证明了专用硬件加速器在AI发展中的重要性，并为未来的计算解决方案提供了新的思路。随着技术的不断完善和发展，TPU有望在AI硬件竞争中占据一席之地。