将描述与图像相结合以促进零-shot视觉识别
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出GRAIN预训练策略,解决视觉语言模型在细粒度实体识别和新概念泛化中的不足,显著提升零-shot性能,并引入Products-2023数据集,展示模型在新概念识别和下游任务中的检索能力。
🎯
关键要点
- 本研究提出GRAIN预训练策略,解决视觉语言模型在细粒度实体识别和新概念泛化中的不足。
- GRAIN策略通过对齐图像区域中的文本描述和总体图像表示,显著提升了零-shot性能。
- 引入Products-2023数据集,展示模型在新概念识别方面的能力。
- 模型在其他下游任务中的检索性能显著提高。
🏷️
标签
➡️