小红花·文摘

本文探讨了视觉-语言模型的结构与性能，提出了MERU模型和CompPrompts数据集等多种方法，以提高图像与文本的组合能力。研究表明，这些方法在分类和检索任务中表现优越，推动了多模态学习的发展。