观察、分析与解决:通过带掩码图像建模预训练探索强大轻量化视觉 Transformer
原文中文,约300字,阅读约需1分钟。发表于: 。通过对轻量级视觉 Transformer(ViTs)的掩码图像建模(MIM)预训练方法与对比学习(CL)预训练方法在不同数据规模下的行为对比研究,观察到了 MIM 预训练在高层学习上的劣质表现以及其对数据不足下游任务的不理想 Fine-tuning 表现,进而提出了预训练退火策略来解决这一问题,实验证明了该方法在不同视觉任务中的有效性。
通过研究轻量级视觉Transformer(ViTs)的预训练方法,发现MIM预训练在高层学习和数据不足下游任务中表现不佳。提出了预训练退火策略来解决这一问题,并证明了其在不同视觉任务中的有效性。