Combining Descriptions with Images to Enhance Zero-Shot Visual Recognition
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新的预训练策略GRAIN,旨在提升视觉语言模型在细粒度实体识别和未见概念的零-shot性能。通过对齐文本描述和图像表示,模型在识别新概念和其他任务中的检索性能显著提高。
🎯
关键要点
- 本研究提出了一种新的预训练策略GRAIN,旨在提升视觉语言模型的零-shot性能。
- GRAIN通过对齐文本描述和图像表示,显著提高了细粒度实体识别和未见概念的识别能力。
- 研究引入了Products-2023数据集,展示了模型在识别新概念方面的能力。
- 模型在其他下游任务中的检索性能也得到了显著提升。
➡️