更好地理解“No”:一种数据驱动的方法,以增强CLIP中的否定意识

📝

内容提要

本研究解决了CLIP在理解否定(如不能区分“停车”和“禁止停车”)方面的不足,认为这一问题源于缺乏包含否定的数据。研究者提出了一种利用大型语言模型生成否定包含的标题的数据生成管道,并基于这些数据对CLIP进行了微调,开发了NegationCLIP,显著提高了对否定的敏感性。该研究还提出了NegRefCOCOg基准,以评估视觉语言模型处理否定的能力,实验结果表明,NegationCLIP在多个...

🏷️

标签

➡️

继续阅读