深入探究语言模型的深度修剪

通过考虑自适应度量标准，如 Shapley 值，本文探讨了不同的块重要性度量标准，并将分析从完整的块扩展到单个自注意力和前馈层，突出显示了自注意力层更容易修剪的倾向，甚至可以删除多达 33% 的自注意层而不会对 Mistral 7b 的 MMLU 性能造成任何降低，并且通过训练轻量级的加性偏差或低秩线性适配器来模拟修剪的层的性能恢复，这种模拟更新的性能恢复避免了初始块的性能下降（MMLU...

本文通过考虑自适应度量标准，如Shapley值，探讨了不同的块重要性度量标准，并将分析从完整的块扩展到单个自注意力和前馈层。结果显示，自注意力层更容易修剪，甚至可以删除多达33%的自注意层而不会对Mistral 7b的MMLU性能造成任何降低。通过训练轻量级的加性偏差或低秩线性适配器来模拟修剪的层的性能恢复，避免了初始块的性能下降。这种模拟更新的性能恢复要么是竞争性的，要么是优于基于学习的技术。