小红花·文摘

本文介绍了多模态大型语言模型（MLLMs）如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题，并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下，图像文本检索的R@1提升分别为5.6〜35.0％和16.8〜46.1％。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。