torch.compile是PyTorch 2.0后用于加速代码的技术,通过JIT编译优化为NVIDIA内核。首次运行可能较慢,但后续会加快。它由Torch Dynamo和Torch Inductor组成,减少Python开销并优化CPU-GPU通信。
本文介绍了Torch Inductor编译模型的基本知识和最佳实践。Torch Inductor通过即时编译优化PyTorch模型,支持动态形状和多后端选择,但存在无法保存优化模型和推理启动慢的缺点。AOTInductor可提前编译,显著降低延迟。建议使用torch.Tensor类型作为输入,简化前向传递逻辑,以提高编译效率。
完成下面两步后,将自动完成登录并继续当前操作。