Combining Descriptions with Images to Enhance Zero-Shot Visual Recognition

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种新的预训练策略GRAIN,旨在提升视觉语言模型在细粒度实体识别和未见概念的零-shot性能。通过对齐文本描述和图像表示,模型在识别新概念和其他任务中的检索性能显著提高。

🎯

关键要点

  • 本研究提出了一种新的预训练策略GRAIN,旨在提升视觉语言模型的零-shot性能。
  • GRAIN通过对齐文本描述和图像表示,显著提高了细粒度实体识别和未见概念的识别能力。
  • 研究引入了Products-2023数据集,展示了模型在识别新概念方面的能力。
  • 模型在其他下游任务中的检索性能也得到了显著提升。
➡️

继续阅读