小红花·文摘

本研究提出了一种新的预训练策略GRAIN，旨在提升视觉语言模型在细粒度实体识别和未见概念的零-shot性能。通过对齐文本描述和图像表示，模型在识别新概念和其他任务中的检索性能显著提高。