加速需求：一种修剪变换器的方法

原文约300字，阅读约需1分钟。发表于：。

一种用于提高预训练变换器体系结构效率的 OPTIN 框架，通过中间特征蒸馏捕捉模型参数的长程依赖（称为轨迹），在不需要重新训练的情况下在自然语言、图像分类、迁移学习和语义分割任务方面产生最先进的结果。同时，在满足 FLOP 限制的情况下，OPTIN 框架将网络进行压缩，保持竞争性准确性性能和提高吞吐量。

Auto-Train-Once（ATO）算法自动减少深度神经网络的计算和存储成本。通过训练目标模型和控制器网络，指导目标模型权重的学习，并利用新颖的随机梯度算法增强模型训练和控制器网络训练之间的协调，提高剪枝性能。实验结果表明该方法在多种模型架构和数据集上实现了最先进的性能。