小红花·文摘

本文介绍了多模态大型语言模型（MLLMs）如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题，并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下，图像文本检索的R@1提升分别为5.6〜35.0％和16.8〜46.1％。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

基于 LVLM 的多模态表示学习在视觉位置识别中的应用

BriefGPT - AI 论文速递 ·

本文介绍了多模态大型语言模型（MLLMs）如何通过提高数据质量来增强视觉语言表示学习。使用 MLLMs 扩展每个图像的多个标题，并通过“文本切割”方法来防止偏见和内在标题风格的引入。在图像文本检索中，在微调和零样本设置下，分别获得了5.6%至35.0%和16.8%至46.1%的R@1提升。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

BriefGPT - AI 论文速递 ·

MLLMReID: 基于多模态大型语言模型的人员再识别

BriefGPT - AI 论文速递 ·