MLLMReID: 基于多模态大型语言模型的人员再识别
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下,图像文本检索的R@1提升分别为5.6〜35.0%和16.8〜46.1%。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。
🎯
关键要点
- 多模态大型语言模型(MLLMs)通过提高数据质量增强视觉语言表示学习。
- 使用MLLMs扩展每个图像的多个标题。
- 采用“文本切割”方法防止偏见和内在标题风格。
- 在微调和零样本设置下,图像文本检索的R@1提升分别为5.6〜35.0%和16.8〜46.1%。
- 零样本结果与目标数据集上的微调相媲美。
- 鼓励更多对MLLMs的多方面使用的探索。
➡️