小红花·文摘

本文介绍了一种新的稀疏化格式 V:N:M，可在 NVIDIA 的 Sparse Tensor Cores 上执行任意 N:M 比例的稀疏化计算，并通过高性能稀疏库 Spatha 实现了高达 37 倍的加速。该技术可在现代 transformers 中实现高稀疏度而几乎不降低准确性的二阶裁剪技术。