VENOM:一种向量化的 N:M 格式,释放稀疏张量核心的能量
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的稀疏化格式 V:N:M,可在 NVIDIA 的 Sparse Tensor Cores 上执行任意 N:M 比例的稀疏化计算,并通过高性能稀疏库 Spatha 实现了高达 37 倍的加速。该技术可在现代 transformers 中实现高稀疏度而几乎不降低准确性的二阶裁剪技术。
🎯
关键要点
- 深度学习模型对计算效率和功耗提出了更高的要求。
- 稀疏化可以使模型更小、提高计算效率。
- 提出了一种新的稀疏化格式 V:N:M。
- 该格式可在 NVIDIA 的 Sparse Tensor Cores 上执行任意 N:M 比例的稀疏化计算。
- 通过高性能稀疏库 Spatha 实现了高达 37 倍的加速。
- 在现代 transformers 中实现高稀疏度,几乎不降低准确性的二阶裁剪技术。
➡️