芯片战争早已打响!谷歌15个月打造首个TPU,欲和老黄平起平坐

AIGC动态6个月前发布 AIera
767 0 0
芯片战争早已打响!谷歌15个月打造首个TPU,欲和老黄平起平坐

 

文章摘要


【关 键 词】 TPU谷歌神经网络硬件加速器矩阵乘法

在当前由英伟达主导的AI硬件时代,谷歌的张量处理单元(TPU)提供了一种不同的解决方案。本文将探讨TPU的发展历程和其独特的架构设计。

TPU的历史背景和重要性
TPU的出现与神经网络的发展历程紧密相关。神经网络经历了多次起伏,其背后的专用硬件加速器(ASIC)也同样经历了多次的发展和放弃。在神经网络效率低下的问题和缺乏合适硬件的双重困境下,GPU最终打破了僵局。随着大模型的推动,各种硬件加速器层出不穷,而TPU作为第一批大规模部署的加速器之一,无疑将成为未来计算领域的重要组成部分。

TPU之所以引人注目,是因为它被广泛应用于谷歌的各项服务中,服务用户超过10亿。与此同时,谷歌也拥有全球第三大公共云。在这样的背景下,TPU成为了英伟达GPU的一个真正的竞争对手。

TPU的起源和快速交付
谷歌对机器学习的重视始于2010年代初,随后通过一系列的收购和研究项目,如Google Brain、DeepMind等,加深了对深度学习的投入。在意识到GPU虽然强大但并非专为神经网络设计后,谷歌开始探索FPGA和ASIC两种选择。最终,谷歌选择了ASIC,并迅速组建了一支才华横溢的团队,包括David Patterson等重要人物。

谷歌在开发TPU时采用了35年前提出的“systolic system”架构,这种架构简单、成本低廉,非常适合进行矩阵计算。通过与LSI公司的合作,以及采用较老的工艺和较低的时钟频率,谷歌在短短15个月内就完成了TPU的开发和部署。

TPU架构的技术细节
TPU的核心是矩阵乘法单元,它采用了systolic array(脉动阵列)的设计,能够高效地执行矩阵乘法操作。TPU v1通过PCIe接口与主机通信,并直接访问自己的DDR3存储。它执行8位整数乘法,利用量化技术避免了浮点计算的开销。TPU v1的指令集非常简单,只有大约20条指令,这使得芯片用于解码和相关活动的开销非常低。

在性能比较中,TPU v1的矩阵乘法单元的MAC数量是英伟达K80 GPU的25倍,片上内存是K80 GPU的3.5倍。TPU v1的推理速度比K80 GPU和Haswell CPU快15到30倍,计算效率是GPU的25到29倍。

结论
TPU的出现不仅是对英伟达GPU统治地位的挑战,也是对AI硬件领域多样性的一种贡献。它的成功部署和应用证明了专用硬件加速器在AI发展中的重要性,并为未来的计算解决方案提供了新的思路。随着技术的不断完善和发展,TPU有望在AI硬件竞争中占据一席之地。

原文和模型


【原文链接】 阅读原文 [ 2763字 | 12分钟 ]
【原文作者】 新智元
【摘要模型】 gpt-4
【摘要评分】 ★★★★★

© 版权声明

相关文章

暂无评论

暂无评论...