Wanda++:通过区域梯度修剪大型语言模型

📝

内容提要

本研究解决了大型语言模型修剪中的性能损失问题,提出了一种新颖的修剪框架Wanda++,通过使用解码器块级的区域梯度来提升修剪评分。Wanda++显著提高了语言建模任务的困惑度,并在下游任务中表现良好,展现了与稀疏感知微调的兼容性和快速修剪能力。

🏷️

标签

➡️

继续阅读