基于 LVLM 的多模态表示学习在视觉位置识别中的应用
原文中文,约300字,阅读约需1分钟。发表于: 。通过融合图像数据和文本描述来构建具有辨别力的全局表示,本研究提出了一种新的多模式视觉地点识别解决方案,通过适应性地重新校准文本令牌并跨模态传播信息,实现了优于现有方法的性能提升。
本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下,图像文本检索的R@1提升分别为5.6〜35.0%和16.8〜46.1%。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。