增强视觉语言模型的多模态组合推理能力:使用生成式负样本挖掘

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

本研究提出了一种基于 intra-modal 和 cross-modal rank loss 的策略,用于解决 Vision and Language Models 在细粒度任务上的挑战。该策略不需要额外的注释或参数,可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时,该方法在三个细粒度基准测试上显著提高了性能,并增强了 X-VLM 在细粒度推理上的表现。

原文中文,约300字,阅读约需1分钟。
阅读原文