Mask2Former 风格模型的高效 Transformer 编码器

原文约600字，阅读约需2分钟。发表于：。

基于视觉 Transformer 的模型在图像分割任务上取得了显著的改进。然而，这些架构对计算资源的使用可能对部署设备造成负担。为了克服这一挑战，我们引入了 ECO-M2F，即 EffiCient TransfOrmer Encoders for Mask2Former 风格的模型。ECO-M2F 提供了一种根据输入图像的特定需求自适应计算级别的策略，以替代当前的一刀切方法。为了实现性能和计算效率之间的平衡，我们提出了一个三步骤的方法，其中包括训练原始架构以实现从编码器的早期退出、创建每个训练样本所需的理想编码器层数的派生数据集，以及使用上述派生数据集训练一个基于输入图像预测编码器层数的门控网络。此外，只需重复第二和第三步骤即可改变计算精度折衷，从而大大缩短重新训练时间。在公开数据集上的实验证明，所提出的方法在保持性能的同时降低了期望的编码器计算成本，适应各种用户计算资源，对架构配置具有灵活性，并且可以扩展到除分割任务外的目标检测。

基于视觉Transformer的ECO-M2F模型提出了一种自适应计算级别的策略，以提高图像分割任务的计算效率。通过训练原始架构、创建派生数据集和使用门控网络，该方法在保持性能的同时降低了编码器计算成本。实验证明该方法适应各种用户计算资源，并可扩展到目标检测任务。

编码器