利用 MLLM 的能力进行可迁移的文本到图像人物再识别

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用 MLLMs 扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格的引入。在图像文本检索中,在微调和零样本设置下,分别获得了5.6%至35.0%和16.8%至46.1%的R@1提升。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

🎯

关键要点

  • 多模态大型语言模型(MLLMs)通过提高数据质量增强视觉语言表示学习。
  • 使用MLLMs扩展每个图像的多个标题。
  • 采用“文本切割”方法防止偏见和内在标题风格的引入。
  • 在图像文本检索中,微调和零样本设置下分别获得5.6%至35.0%和16.8%至46.1%的R@1提升。
  • 零样本结果与目标数据集上的微调相媲美。
  • 鼓励更多对MLLMs的多方面使用的探索。
➡️

继续阅读