增强视觉语言模型的多模态组合推理能力：使用生成式负样本挖掘

通过挖掘负样本并生成具有挑战性的负样本，在两种模态（图像和文本）中显著提高大规模视觉语言模型在多模态组合推理任务中的性能。

本研究提出了一种基于 intra-modal 和 cross-modal rank loss 的策略，用于解决 Vision and Language Models 在细粒度任务上的挑战。该策略不需要额外的注释或参数，可应用于任何使用图像 - 文本对比损失训练的 VLMs。在应用于 CLIP 上时，该方法在三个细粒度基准测试上显著提高了性能，并增强了 X-VLM 在细粒度推理上的表现。