本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下,图像文本检索的R@1提升分别为5.6〜35.0%和16.8〜46.1%。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。
本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用 MLLMs 扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格的引入。在图像文本检索中,在微调和零样本设置下,分别获得了5.6%至35.0%和16.8%至46.1%的R@1提升。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。
Wikipedia-based Image Text(WIT)数据集包含37.6百万个实体丰富的图像文本示例,可用于多模态模型的预训练和图像文本检索等下游任务。WIT数据集有四个主要优势:规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化,并提供一个非常具有挑战性的真实世界的测试集。
UC2是一个跨语言跨模态表示学习框架,通过引入其他语言的图像标题扩充数据集,提出两个新的预训练任务,实现了新的最先进状态。在多语言图像文本检索和多语言视觉问答基准上表现优异。
本文提出了一种测试时反馈方法,用于解决视觉-语言模型输出与任务目标不匹配的问题。通过采用CLIP作为奖励模型,在图像分类、图像文本检索和图像标题生成等任务中进行训练。实验证明,这种方法可以显著提高不同视觉-语言模型的结果。
完成下面两步后,将自动完成登录并继续当前操作。