视觉-语言模型对否定理解不足
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了NegBench基准,用于评估视觉-语言模型对否定理解的能力。结果表明,现代模型表现不佳,但通过微调CLIP模型,可以显著提高其对否定查询的召回率和准确率。
🎯
关键要点
- 本研究提出了NegBench基准,用于评估视觉-语言模型对否定理解的能力。
- NegBench基准包含18个任务变体和79,000个例子。
- 现代视觉-语言模型在处理否定时表现不佳。
- 通过微调CLIP模型,可以显著提高对否定查询的召回率和准确率。
➡️