本文提出了一种名为BlockPruner的无训练结构化修剪方法,能够有效识别和去除冗余的多头注意力和多层感知机块。研究表明,在移除多层之前,模型性能仅轻微下降,剪枝显著降低了内存和计算成本。通过对Transformer模块的冗余性分析,发现可以安全剪枝大量Attention层,从而提升性能。最终,该方法在多个数据集上表现优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。