Inflection AI将其LLM推理堆栈从NVIDIA迁移至Intel Gaudi的经验教训

Inflection AI将其LLM推理堆栈从NVIDIA迁移至Intel Gaudi的经验教训

💡 原文英文,约800词,阅读约需3分钟。
📝

内容提要

Inflection AI将其LLM推理堆栈从NVIDIA GPU迁移至Intel Gaudi加速器,以应对GPU供应短缺和价格上涨。经过几周的调整和优化,性能接近NVIDIA。解决了不支持的操作和执行模式问题,提升了性能,并为未来硬件设计提供了经验。

🎯

关键要点

  • Inflection AI将其LLM推理堆栈从NVIDIA GPU迁移至Intel Gaudi加速器,以应对GPU供应短缺和价格上涨。
  • 选择Intel是因为其在企业硬件领域的广泛应用,能够利用现有数据中心投资进行AI部署。
  • 迁移过程经历了几周的调整和内核重写,最终实现了接近NVIDIA的性能。
  • 在迁移过程中,发现PyTorch的部分操作在Intel的SynapseAI后端不被支持,导致性能下降。
  • 通过重写不支持的操作,性能提升近15倍,并消除了段错误。
  • 在执行模式上,Eager模式的延迟高于NVIDIA,而Lazy模式的性能更差。
  • 通过识别和移除动态操作,结合HPU图的使用,实现了4倍的速度提升。
  • 利用Habana的torch-based分析工具,优化了硬件利用率,提升了计算吞吐量。
  • 此次迁移的经验为未来硬件设计提供了宝贵的见解,证明性能与灵活性可以兼得。

延伸问答

Inflection AI为什么将其LLM推理堆栈从NVIDIA迁移至Intel Gaudi?

Inflection AI迁移至Intel Gaudi是为了应对GPU供应短缺和价格上涨,寻求更灵活的硬件解决方案。

迁移过程中遇到了哪些技术挑战?

迁移过程中遇到的挑战包括PyTorch部分操作在Intel的SynapseAI后端不被支持,导致性能下降和段错误。

如何解决不支持的操作问题?

通过重写不支持的操作,Inflection AI实现了近15倍的性能提升,并消除了段错误。

Eager模式和Lazy模式在性能上有什么区别?

Eager模式的延迟高于NVIDIA,而Lazy模式的性能更差,导致执行速度减慢。

Inflection AI如何优化Gaudi硬件的利用率?

Inflection AI利用Habana的torch-based分析工具,优化了硬件利用率,提升了计算吞吐量。

此次迁移的经验对未来硬件设计有什么启示?

此次迁移的经验表明,性能与灵活性可以兼得,为未来硬件设计提供了宝贵的见解。

➡️

继续阅读