MaskLLM:英伟达出品,用于大模型的可学习`N:M`稀疏化 | NeurIPS'24 - 晓飞的算法工程笔记

💡 原文中文,约5600字,阅读约需14分钟。
📝

内容提要

论文提出了一种名为MaskLLM的可学习半结构化剪枝方法,通过大规模数据集学习N:M掩码,以降低大型语言模型的计算开销。该方法支持跨任务的稀疏模式迁移学习,显著提升模型性能和训练效率。实验结果表明,MaskLLM在多个大型语言模型上表现优异。

🎯

关键要点

  • 论文提出了一种名为MaskLLM的可学习半结构化剪枝方法。
  • MaskLLM旨在通过大规模数据集学习N:M掩码,降低大型语言模型的计算开销。
  • 该方法支持跨任务的稀疏模式迁移学习,提升模型性能和训练效率。
  • MaskLLM在多个大型语言模型上表现优异,实验结果显示显著改进。
  • N:M稀疏性限制每组连续的M个参数中最多只能有N个非零值。
  • MaskLLM通过Gumbel Softmax采样将N:M模式稀疏化建模为可学习的分布。
  • 可学习半监督稀疏性通过采样过程解决掩码选择的不可微分特性。
  • Gumbel Max和Gumbel Softmax用于实现可微分掩码采样。
  • 学习LLMs的掩码时引入稀疏权重正则化以解决梯度消失问题。
  • 稀疏性的迁移学习通过预计算的掩码构造新的掩码,提升训练效率和质量。
  • 论文提出的掩码先验可以通过一次性剪枝方法获得,增强初始化阶段的概率。
➡️

继续阅读