Wanda++:通过区域梯度修剪大型语言模型
📝
内容提要
本研究解决了大型语言模型修剪中的性能损失问题,提出了一种新颖的修剪框架Wanda++,通过使用解码器块级的区域梯度来提升修剪评分。Wanda++显著提高了语言建模任务的困惑度,并在下游任务中表现良好,展现了与稀疏感知微调的兼容性和快速修剪能力。
🏷️
标签
➡️