超越线性近似：一种新颖的注意力矩阵剪枝方法

本研究解决了大型语言模型在边缘设备部署时面临的内存和计算限制问题。提出了一种直接优化注意力矩阵的剪枝方法，与现有线性近似方法不同，该方法考虑了Softmax注意力机制的非线性特性。研究结果表明，该方法在显著降低计算成本的同时，能够有效保持模型性能，为资源受限设备上的高效推理奠定了新的理论基础。

本文介绍了一种名为FinerCut的剪枝方法，适用于Transformer网络。FinerCut能有效剪枝自注意力层和前馈神经网络层，实现模型精简和多任务剪枝。与其他方法相比，FinerCut无需微调或重建，并提供可视化工具，帮助观察剪枝层的位置和类型，为未来高效语言模型设计提供灵感。

FinerCut Transformer 前馈神经网络剪枝自注意力层