本文介绍了一种新的稀疏化格式 V:N:M,可在 NVIDIA 的 Sparse Tensor Cores 上执行任意 N:M 比例的稀疏化计算,并通过高性能稀疏库 Spatha 实现了高达 37 倍的加速。该技术可在现代 transformers 中实现高稀疏度而几乎不降低准确性的二阶裁剪技术。
完成下面两步后,将自动完成登录并继续当前操作。