本文介绍了一种新框架,显著提升了视觉与语言模型在构成性语言编码能力上的表现,尤其是在零样本视觉识别任务中。研究表明,该模型在识别细粒度概念方面表现更佳,并提出了新的评价方法以解决学习偏差问题。通过新模型架构和训练技术的引入,研究提高了模型的解释能力和组合推理能力,展示了视觉与语言任务中的最新进展与挑战。
完成下面两步后,将自动完成登录并继续当前操作。