本文探讨了多模态大型语言模型(MLLMs)在视觉语言表示学习中的应用,强调合成数据对模型性能的提升。研究表明,合成数据训练显著提高了模型在图像文本检索和理解非物体类词汇的能力,同时保持零样本准确度。实验结果验证了该方法在多个基准测试中的优越性,展示了合成数据在多模态模型训练中的潜力。
本研究提出了一种通过相对对比学习来学习视觉和语义对齐的新方法,以实现新颖物体的描述。该方法通过设置适当的对比学习目标,将增强标签在列表中的排名作为相对相关性标签,提高了学习到的多模态表示的判别能力。在两个数据集上进行评估,显示了该方法在改进新颖物体描述的视觉语言表示方面的显著优势,证明了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。