本研究提出了一种新的预训练策略GRAIN,旨在提升视觉语言模型在细粒度实体识别和未见概念的零-shot性能。通过对齐文本描述和图像表示,模型在识别新概念和其他任务中的检索性能显著提高。
完成下面两步后,将自动完成登录并继续当前操作。