BriefGPT - AI 论文速递 ·

快速可控的后训练稀疏性：使用全局约束在几分钟内学习最佳稀疏分配

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

该研究提出了多种稀疏训练方法，以降低计算开销和内存占用。通过参数有效的稀疏训练（PST）和自动稀疏训练算法（AutoSparse），在视觉和语言模型上实现了显著的性能提升。此外，研究还探讨了动态稀疏重参数化和自适应稀疏训练，显示出在资源受限情况下的高效性和准确性。

🎯

❓

参数有效的稀疏训练 (PST) 方法通过减少可训练参数数量，降低计算开销和内存占用，提升稀疏训练的资源效率。

AutoSparse 在 ImageNet-1K 数据集上实现了显著的性能提升，训练和推断 FLOPS 分别减少 2 倍和 7 倍，且效率高于现有的稀疏方法。

动态稀疏重参数化方法在固定参数预算下达到最佳准确率，探索结构自由度比增加额外参数更有效。

结构化剪枝框架 (STP) 在极度激进的剪枝情况下，仍能保持 95.11% 的 Top-1 准确率，显示出其有效性。

基于梯度修正的自适应稀疏训练方法在多个数据集上实现了时间和空间的双重高效率，准确率提高多达 5.0%，或训练时长缩短高达 52.1%。

稀疏训练可以显著降低计算和内存开销，同时在视觉和语言模型上实现性能提升，适用于资源受限的环境。

🏷️