MaskLLM:英伟达出品,用于大模型的可学习`N:M`稀疏化 | NeurIPS'24 - 晓飞的算法工程笔记
💡
原文中文,约5600字,阅读约需14分钟。
📝
内容提要
论文提出了一种名为MaskLLM的可学习半结构化剪枝方法,通过大规模数据集学习N:M掩码,以降低大型语言模型的计算开销。该方法支持跨任务的稀疏模式迁移学习,显著提升模型性能和训练效率。实验结果表明,MaskLLM在多个大型语言模型上表现优异。
🎯
关键要点
- 论文提出了一种名为MaskLLM的可学习半结构化剪枝方法。
- MaskLLM旨在通过大规模数据集学习N:M掩码,降低大型语言模型的计算开销。
- 该方法支持跨任务的稀疏模式迁移学习,提升模型性能和训练效率。
- MaskLLM在多个大型语言模型上表现优异,实验结果显示显著改进。
- N:M稀疏性限制每组连续的M个参数中最多只能有N个非零值。
- MaskLLM通过Gumbel Softmax采样将N:M模式稀疏化建模为可学习的分布。
- 可学习半监督稀疏性通过采样过程解决掩码选择的不可微分特性。
- Gumbel Max和Gumbel Softmax用于实现可微分掩码采样。
- 学习LLMs的掩码时引入稀疏权重正则化以解决梯度消失问题。
- 稀疏性的迁移学习通过预计算的掩码构造新的掩码,提升训练效率和质量。
- 论文提出的掩码先验可以通过一次性剪枝方法获得,增强初始化阶段的概率。
➡️