本文讨论了如何在PyTorch中使用Triton内核进行透明追踪和编译。用户可以通过@triton.jit创建Triton内核,并利用torch.compile和torch.export进行优化。注册的自定义操作可以在追踪和编译中被识别,而未注册的操作需使用TorchDynamo进行追踪。最终,Triton内核可通过AOTInductor进行预编译,以提升性能。
完成下面两步后,将自动完成登录并继续当前操作。