内容提要
谷歌在Cloud Next上推出了TPU 8t和TPU 8i两款新芯片,分别针对训练和推理进行优化。TPU 8t适合训练,保持3D环形互连,而TPU 8i则提升内存带宽,专注于推理性能。谷歌认为,单一加速器无法同时满足这两种需求,分化是提升性价比的关键。新芯片支持裸金属访问,方便开发者使用。
关键要点
-
谷歌在Cloud Next上推出了TPU 8t和TPU 8i两款新芯片,分别针对训练和推理进行优化。
-
TPU 8t适合训练,保持3D环形互连,使用标准SparseCores加速不规则内存访问模式。
-
TPU 8i专注于推理,采用新的Collectives Acceleration Engine,显著降低全局同步操作的延迟。
-
TPU 8i的网络拓扑采用Dragonfly灵感的Boardfly布局,优化了芯片间的连接。
-
TPU 8i的内存带宽高于TPU 8t,适应了推理工作负载的需求。
-
谷歌声称TPU 8t在训练方面的性价比比Ironwood高出约2.7倍,TPU 8i在推理方面的性价比提高了80%。
-
TPU 8t和8i是首款提供裸金属访问的TPU,方便客户自行管理主机。
-
谷歌还宣布了与TPU 8t和8i配合使用的基础设施更新,包括Virgo网络和Axion N4A等新产品。
延伸解读
TPU 8t与TPU 8i的设计差异
TPU 8t和TPU 8i分别针对训练和推理进行了优化,反映了谷歌对不同工作负载需求的深刻理解。TPU 8t保持了3D环形互连,适合处理复杂的训练任务,而TPU 8i则采用了新的Collectives Acceleration Engine,显著降低推理过程中的延迟。这种设计分化使得每款芯片在其特定领域内的性能得以最大化。
市场竞争与技术选择
谷歌的TPU 8系列与AWS的Trainium3和Nvidia的Vera Rubin NVL72形成了鲜明对比。AWS主张单一芯片可以同时处理训练和推理,而谷歌则认为分化是提升性能的关键。这种不同的技术选择可能会影响客户在选择云计算服务时的决策,尤其是在高性能计算需求日益增长的背景下。
裸金属访问的意义
TPU 8t和8i首次提供裸金属访问,允许客户自行管理主机。这一变化将吸引那些对低延迟和高性能有严格要求的开发者,尤其是在机器学习和推理任务中。谷歌的TorchTPU支持也可能改变开发者的基础设施选择,减少对Nvidia的依赖。
延伸问答
TPU 8t和TPU 8i的主要区别是什么?
TPU 8t适合训练,保持3D环形互连,而TPU 8i专注于推理,提升内存带宽并采用新的网络拓扑。
谷歌为何决定将TPU系列分为训练和推理两种芯片?
谷歌认为单一加速器无法同时满足训练和推理的需求,因此分化是提升性价比的关键。
TPU 8i如何优化推理性能?
TPU 8i采用新的Collectives Acceleration Engine,显著降低全局同步操作的延迟,并提高内存带宽。
TPU 8t在训练方面的性价比如何?
谷歌声称TPU 8t在训练方面的性价比比Ironwood高出约2.7倍。
TPU 8i的内存带宽与TPU 8t相比有什么优势?
TPU 8i的内存带宽高于TPU 8t,更适应推理工作负载的需求。
谷歌在TPU 8t和8i中引入了哪些基础设施更新?
谷歌宣布了Virgo网络和Axion N4A等新产品,以支持TPU 8t和8i的使用。