The New Stack ·

谷歌将其TPU系列分为两种以适应智能时代

💡 原文英文，约1400词，阅读约需5分钟。

📝

内容提要

谷歌在Cloud Next上推出了TPU 8t和TPU 8i两款新芯片，分别针对训练和推理进行优化。TPU 8t适合训练，保持3D环形互连，而TPU 8i则提升内存带宽，专注于推理性能。谷歌认为，单一加速器无法同时满足这两种需求，分化是提升性价比的关键。新芯片支持裸金属访问，方便开发者使用。

🎯

关键要点

谷歌在Cloud Next上推出了TPU 8t和TPU 8i两款新芯片，分别针对训练和推理进行优化。
TPU 8t适合训练，保持3D环形互连，使用标准SparseCores加速不规则内存访问模式。
TPU 8i专注于推理，采用新的Collectives Acceleration Engine，显著降低全局同步操作的延迟。
TPU 8i的网络拓扑采用Dragonfly灵感的Boardfly布局，优化了芯片间的连接。
TPU 8i的内存带宽高于TPU 8t，适应了推理工作负载的需求。
谷歌声称TPU 8t在训练方面的性价比比Ironwood高出约2.7倍，TPU 8i在推理方面的性价比提高了80%。
TPU 8t和8i是首款提供裸金属访问的TPU，方便客户自行管理主机。
谷歌还宣布了与TPU 8t和8i配合使用的基础设施更新，包括Virgo网络和Axion N4A等新产品。

🔎

延伸解读

TPU 8t与TPU 8i的设计差异

TPU 8t和TPU 8i分别针对训练和推理进行了优化，反映了谷歌对不同工作负载需求的深刻理解。TPU 8t保持了3D环形互连，适合处理复杂的训练任务，而TPU 8i则采用了新的Collectives Acceleration Engine，显著降低推理过程中的延迟。这种设计分化使得每款芯片在其特定领域内的性能得以最大化。

市场竞争与技术选择

谷歌的TPU 8系列与AWS的Trainium3和Nvidia的Vera Rubin NVL72形成了鲜明对比。AWS主张单一芯片可以同时处理训练和推理，而谷歌则认为分化是提升性能的关键。这种不同的技术选择可能会影响客户在选择云计算服务时的决策，尤其是在高性能计算需求日益增长的背景下。

裸金属访问的意义

TPU 8t和8i首次提供裸金属访问，允许客户自行管理主机。这一变化将吸引那些对低延迟和高性能有严格要求的开发者，尤其是在机器学习和推理任务中。谷歌的TorchTPU支持也可能改变开发者的基础设施选择，减少对Nvidia的依赖。

❓

延伸问答

TPU 8t和TPU 8i的主要区别是什么？

TPU 8t适合训练，保持3D环形互连，而TPU 8i专注于推理，提升内存带宽并采用新的网络拓扑。

谷歌为何决定将TPU系列分为训练和推理两种芯片？

谷歌认为单一加速器无法同时满足训练和推理的需求，因此分化是提升性价比的关键。

TPU 8i如何优化推理性能？

TPU 8i采用新的Collectives Acceleration Engine，显著降低全局同步操作的延迟，并提高内存带宽。

TPU 8t在训练方面的性价比如何？

谷歌声称TPU 8t在训练方面的性价比比Ironwood高出约2.7倍。

TPU 8i的内存带宽与TPU 8t相比有什么优势？

TPU 8i的内存带宽高于TPU 8t，更适应推理工作负载的需求。

谷歌在TPU 8t和8i中引入了哪些基础设施更新？

谷歌宣布了Virgo网络和Axion N4A等新产品，以支持TPU 8t和8i的使用。

🏷️