深入探究语言模型的深度修剪

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文通过考虑自适应度量标准,如Shapley值,探讨了不同的块重要性度量标准,并将分析从完整的块扩展到单个自注意力和前馈层。结果显示,自注意力层更容易修剪,甚至可以删除多达33%的自注意层而不会对Mistral 7b的MMLU性能造成任何降低。通过训练轻量级的加性偏差或低秩线性适配器来模拟修剪的层的性能恢复,避免了初始块的性能下降。这种模拟更新的性能恢复要么是竞争性的,要么是优于基于学习的技术。

🎯

关键要点

  • 本文探讨了不同的块重要性度量标准,考虑了自适应度量标准,如Shapley值。
  • 分析从完整的块扩展到单个自注意力和前馈层。
  • 自注意力层更容易修剪,最多可以删除33%的自注意层而不影响Mistral 7b的MMLU性能。
  • 通过训练轻量级的加性偏差或低秩线性适配器来模拟修剪层的性能恢复。
  • 这种模拟更新的性能恢复避免了初始块的性能下降,MMLU的绝对改进率高达5%。
  • 模拟更新的性能恢复要么是竞争性的,要么优于基于学习的技术。
➡️

继续阅读