通过硬补丁挖掘引导掩蔽视觉建模
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了计算机视觉领域的新趋势:视觉Transformer和掩蔽的图像建模(MIM)。通过引入注意力引导掩蔽(AttMask)策略,证明其在基于蒸馏的MIM和分类记号的自监督学习上比随机掩蔽更有效。实验证明,AttMask加速了学习过程并提高了性能。
🎯
关键要点
- 计算机视觉领域的新趋势包括视觉Transformer和掩蔽的图像建模(MIM)。
- 图像记号掩蔽与文本中的掩蔽不同,因其记号数量和相关性不同。
- 提出了一种从随机掩蔽到知情掩蔽的转变,以生成具有挑战性的预文本任务。
- 在基于蒸馏的MIM中,教师Transformer编码器生成关注图以指导学生的掩蔽。
- 引入了注意力引导掩蔽(AttMask)策略,证明其在基于蒸馏的MIM和自监督学习上比随机掩蔽更有效。
- AttMask加速了学习过程并提高了各种下游任务的性能。
- 实现代码可在指定的URL中找到。
➡️