视觉-语言模型对否定理解不足

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了NegBench基准,用于评估视觉-语言模型对否定理解的能力。结果表明,现代模型表现不佳,但通过微调CLIP模型,可以显著提高其对否定查询的召回率和准确率。

🎯

关键要点

  • 本研究提出了NegBench基准,用于评估视觉-语言模型对否定理解的能力。
  • NegBench基准包含18个任务变体和79,000个例子。
  • 现代视觉-语言模型在处理否定时表现不佳。
  • 通过微调CLIP模型,可以显著提高对否定查询的召回率和准确率。
➡️

继续阅读