通过困难负样本增强多模态对比学习中的概念理解
原文中文,约300字,阅读约需1分钟。发表于: 。通过合成困难的负面文字示例,引入了一种新的预训练方法来改善视觉 - 语言模型中细粒度概念理解的问题,并介绍了一个新的具有挑战性的用于评估颜色、物体和大小细粒度对齐的数据集 InpaintCOCO。
本研究提出了一种基于rank loss的策略,用于解决Vision and Language Models在细致理解和fine-grained任务上的挑战。该方法在CLIP上的测试中表现出显著的性能提升,并增强了X-VLM在细粒度推理上的表现。