通过硬补丁挖掘引导掩蔽视觉建模

通过引入一个辅助损失预测器和一个逐渐引导训练过程的易难遮罩策略，我们提出了 Hard Patches Mining (HPM) 方法来增强模型作为教师的能力，通过预测基于补丁的损失并确定遮罩的位置，从而显著改进了图像和视频的基准性能，并验证了确定难以重建的位置对于更好的表示的有效性。

本文介绍了计算机视觉领域的新趋势：视觉Transformer和掩蔽的图像建模(MIM)。通过引入注意力引导掩蔽(AttMask)策略，证明其在基于蒸馏的MIM和分类记号的自监督学习上比随机掩蔽更有效。实验证明，AttMask加速了学习过程并提高了性能。