小红花·文摘

本文通过考虑自适应度量标准，如Shapley值，探讨了不同的块重要性度量标准，并将分析从完整的块扩展到单个自注意力和前馈层。结果显示，自注意力层更容易修剪，甚至可以删除多达33%的自注意层而不会对Mistral 7b的MMLU性能造成任何降低。通过训练轻量级的加性偏差或低秩线性适配器来模拟修剪的层的性能恢复，避免了初始块的性能下降。这种模拟更新的性能恢复要么是竞争性的，要么是优于基于学习的技术。