增强视觉语言模型的多模态组合推理能力:使用生成式负样本挖掘
原文中文,约300字,阅读约需1分钟。发表于: 。通过挖掘负样本并生成具有挑战性的负样本,在两种模态(图像和文本)中显著提高大规模视觉语言模型在多模态组合推理任务中的性能。
本研究提出了一种基于 intra-modal 和 cross-modal rank loss 的策略,用于解决 Vision and Language Models 在细粒度任务上的挑战。该策略不需要额外的注释或参数,可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时,该方法在三个细粒度基准测试上显著提高了性能,并增强了 X-VLM 在细粒度推理上的表现。