💡
原文英文,约1100词,阅读约需4分钟。
📝
内容提要
本文介绍了PyTorch-XLA、TensorFlow图执行和PyTorch 2图执行等混合方法,Modular AI引擎支持动态形状,执行模型更快。使用桶和填充策略进行缓解时,XLA的编译时间显著降低,但Modular AI引擎在各种平台上的模型执行时间仍然比TensorFlow+XLA快2倍至4倍。
🎯
关键要点
- 介绍了混合方法,包括PyTorch-XLA、TensorFlow图执行和PyTorch 2图执行。
- Torch-XLA在PyTorch的即时执行中添加了JIT编译器,但无法达到最佳性能。
- TensorFlow图执行是目前生产中最常用的基础设施,支持动态形状。
- PyTorch 2提供了图编程范式,但目前仅限于简单用例,尚处于测试阶段。
- Modular AI引擎的动态编译器在动态形状支持方面优于现有基础设施。
- 使用BERT-base模型进行比较,Modular AI引擎在编译时间上比XLA快5-7倍。
- Modular AI引擎在BERT模型执行时间上比TensorFlow快3-9倍,比XLA快2-4倍。
- 使用桶和填充策略可以显著降低XLA的编译时间,但Modular AI引擎仍然更快。
➡️