高效的视觉 - 语言预训练:基于聚类遮挡

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

我们提出了一种简单的策略,用于在视觉语言对比学习中提高表示质量和训练速度。该策略通过遮盖相似的图像补丁群集,并强制模型仅根据上下文预测遮盖的视觉结构的单词,提供额外的学习信号。这种策略在所学表示的质量方面表现良好,并且通过减少每个图像中使用的数据来加速训练。

🎯

关键要点

  • 提出了一种简单的策略,用于在视觉语言对比学习中提高表示质量和训练速度。
  • 该策略通过遮盖相似的图像补丁群集,提供额外的学习信号。
  • 模型仅根据上下文预测遮盖的视觉结构的单词。
  • 这种策略在所学表示的质量方面表现良好。
  • 通过减少每个图像中使用的数据来加速训练。
➡️

继续阅读