利用 MLLM 的能力进行可迁移的文本到图像人物再识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用 MLLMs 扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格的引入。在图像文本检索中,在微调和零样本设置下,分别获得了5.6%至35.0%和16.8%至46.1%的R@1提升。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。
🎯
关键要点
- 多模态大型语言模型(MLLMs)通过提高数据质量增强视觉语言表示学习。
- 使用MLLMs扩展每个图像的多个标题。
- 采用“文本切割”方法防止偏见和内在标题风格的引入。
- 在图像文本检索中,微调和零样本设置下分别获得5.6%至35.0%和16.8%至46.1%的R@1提升。
- 零样本结果与目标数据集上的微调相媲美。
- 鼓励更多对MLLMs的多方面使用的探索。
➡️