本研究提出了NegBench基准,用于评估视觉-语言模型对否定理解的能力。结果表明,现代模型表现不佳,但通过微调CLIP模型,可以显著提高其对否定查询的召回率和准确率。
完成下面两步后,将自动完成登录并继续当前操作。