模块化:模块化本地支持AI工作负载的动态形状

模块化:模块化本地支持AI工作负载的动态形状

💡 原文英文,约1100词,阅读约需4分钟。
📝

内容提要

本文介绍了PyTorch-XLA、TensorFlow图执行和PyTorch 2图执行等混合方法,Modular AI引擎支持动态形状,执行模型更快。使用桶和填充策略进行缓解时,XLA的编译时间显著降低,但Modular AI引擎在各种平台上的模型执行时间仍然比TensorFlow+XLA快2倍至4倍。

🎯

关键要点

  • 介绍了混合方法,包括PyTorch-XLA、TensorFlow图执行和PyTorch 2图执行。
  • Torch-XLA在PyTorch的即时执行中添加了JIT编译器,但无法达到最佳性能。
  • TensorFlow图执行是目前生产中最常用的基础设施,支持动态形状。
  • PyTorch 2提供了图编程范式,但目前仅限于简单用例,尚处于测试阶段。
  • Modular AI引擎的动态编译器在动态形状支持方面优于现有基础设施。
  • 使用BERT-base模型进行比较,Modular AI引擎在编译时间上比XLA快5-7倍。
  • Modular AI引擎在BERT模型执行时间上比TensorFlow快3-9倍,比XLA快2-4倍。
  • 使用桶和填充策略可以显著降低XLA的编译时间,但Modular AI引擎仍然更快。
➡️

继续阅读