Transformer 在屏蔽图像建模中证明能够学习特征 - 位置相关性

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

本文介绍了计算机视觉领域的新趋势:视觉Transformer和掩蔽的图像建模(MIM),通过引入注意力引导掩蔽(AttMask)策略,提高了MIM和基于蒸馏的自监督学习的效果,实验证明AttMask加速了学习过程并提高了性能。

🎯

关键要点

  • 本文介绍了计算机视觉领域的新趋势:视觉Transformer和掩蔽的图像建模(MIM)。
  • 在MIM中,图像记号掩蔽与文本中的掩蔽不同,因其记号数量和相关性不同。
  • 提出了一种从随机掩蔽到知情掩蔽的转变,以生成具有挑战性的预文本任务。
  • 在基于蒸馏的MIM中,教师Transformer编码器生成关注图,用于指导学生的掩蔽。
  • 引入了新的掩蔽策略:注意力引导掩蔽(AttMask),其效果优于随机掩蔽。
  • AttMask加速了学习过程,并在各种下游任务中提高了性能。
  • 实现代码可在指定的URL中找到。
➡️

继续阅读