小红花·文摘

本文提出了一种名为BlockPruner的无训练结构化修剪方法，能够有效识别和去除冗余的多头注意力和多层感知机块。研究表明，在移除多层之前，模型性能仅轻微下降，剪枝显著降低了内存和计算成本。通过对Transformer模块的冗余性分析，发现可以安全剪枝大量Attention层，从而提升性能。最终，该方法在多个数据集上表现优于现有技术。