小红花·文摘

本文介绍了一种新框架，显著提升了视觉与语言模型在构成性语言编码能力上的表现，尤其是在零样本视觉识别任务中。研究表明，该模型在识别细粒度概念方面表现更佳，并提出了新的评价方法以解决学习偏差问题。通过新模型架构和训练技术的引入，研究提高了模型的解释能力和组合推理能力，展示了视觉与语言任务中的最新进展与挑战。