基于遮蔽图像建模的异构生成式知识蒸馏
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文介绍了视觉 Transformer 和掩蔽的图像建模在计算机视觉领域中的新趋势,提出了一种新的掩蔽策略,称为注意力引导掩蔽 (AttMask),证明了它在密集的基于蒸馏的 MIM 以及分类记号的普通基于蒸馏的自监督学习上比随机掩蔽效果更好。
🎯
关键要点
- 本文介绍了视觉 Transformer 和掩蔽的图像建模在计算机视觉领域中的新趋势。
- 图像记号掩蔽与文本中的掩蔽不同,因其记号数量和相关性不同。
- 提出了一种从随机掩蔽到知情掩蔽的转变,以生成具有挑战性的预文本任务。
- 在基于蒸馏的 MIM 中,教师 Transformer 编码器生成关注图以指导学生的掩蔽。
- 引入了一种新的掩蔽策略,称为注意力引导掩蔽 (AttMask)。
- AttMask 在密集的基于蒸馏的 MIM 和分类记号的自监督学习上效果优于随机掩蔽。
- AttMask 加速了学习过程并提高了各种下游任务的性能。
- 实现代码可在指定的 URL 提供。
➡️