ToCom:一次训练随意使用,华为提出通用的ViT标记压缩器 | ECCV 2024 - 晓飞的算法工程笔记
原文中文,约8100字,阅读约需20分钟。发表于: 。标记压缩通过减少冗余标记的数量(例如,修剪不重要的标记或合并相似的标记)来加快视觉变换器(ViTs)的训练和推理。然而,当这些方法应用于下游任务时,如果训练和推理阶段的压缩程度不匹配,会导致显著的性能下降,这限制了标记压缩在现成训练模型上的应用。因此提出了标记补偿器(ToCom),以解耦两个阶段之间
本文介绍了标记补偿器(ToCom)的方法,解决了标记压缩在训练和推理阶段压缩程度不匹配导致的性能下降问题。ToCom通过自蒸馏训练在预训练模型上描述不同压缩程度下模型之间的差距。在推理过程中,ToCom可以直接插入到下游现成模型中,提高模型性能。实验结果表明,ToCom能够有效解耦训练和推理过程中的标记压缩程度,并提高标记压缩性能。