推进视觉语言模型的领域间辨识性在连续学习中

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了LLaVO视觉跨域学习器,使用语言模型将图像转换为文本描述,并在源/目标领域生成的文本描述上进行微调。实验证明该方法在领域概括和无监督领域自适应设置下有效。

🎯

关键要点

  • 深度学习模型的进展基于独立且同分布的假设,限制了其在领域转移场景中的应用。
  • 跨域学习旨在提取领域不变的知识,以减少训练和测试数据之间的领域转移。
  • 传统视觉跨域学习方法仅关注图像模态,忽略了文本模态的利用。
  • 本文提出了大型语言模型作为视觉跨域学习器(LLaVO)。
  • LLaVO使用视觉-语言模型将图像转换为详细的文本描述。
  • 通过设计的指令模板对源/目标领域生成的文本描述进行微调。
  • 在领域概括和无监督领域自适应设置下进行了广泛实验,验证了方法的有效性。
➡️

继续阅读