小红花·文摘

该研究提出了一种新方法“带有矛盾和蕴含的描述扩展”（CECE），有效解决了视觉语言模型在对象、属性和空间关系推理中的挑战。CECE显著提升了解释性，并在图像-文本对齐基准测试中取得了先进的结果，无需额外微调。