该研究提出了一种新方法“带有矛盾和蕴含的描述扩展”(CECE),有效解决了视觉语言模型在对象、属性和空间关系推理中的挑战。CECE显著提升了解释性,并在图像-文本对齐基准测试中取得了先进的结果,无需额外微调。
完成下面两步后,将自动完成登录并继续当前操作。