本文探讨了CUDA内核性能测量,包括“热”状态和“冷”状态。由于缓存效应,性能测量可能与实际性能不符。为消除缓存影响,可在每次运行内核前刷新GPU L2缓存。通过示例代码展示了这一过程,并比较了两种状态下的延迟差异。
完成下面两步后,将自动完成登录并继续当前操作。