本文探讨了视觉-语言模型的结构与性能,提出了MERU模型和CompPrompts数据集等多种方法,以提高图像与文本的组合能力。研究表明,这些方法在分类和检索任务中表现优越,推动了多模态学习的发展。
完成下面两步后,将自动完成登录并继续当前操作。