推进视觉语言模型的领域间辨识性在连续学习中
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了LLaVO视觉跨域学习器,使用语言模型将图像转换为文本描述,并在源/目标领域生成的文本描述上进行微调。实验证明该方法在领域概括和无监督领域自适应设置下有效。
🎯
关键要点
- 深度学习模型的进展基于独立且同分布的假设,限制了其在领域转移场景中的应用。
- 跨域学习旨在提取领域不变的知识,以减少训练和测试数据之间的领域转移。
- 传统视觉跨域学习方法仅关注图像模态,忽略了文本模态的利用。
- 本文提出了大型语言模型作为视觉跨域学习器(LLaVO)。
- LLaVO使用视觉-语言模型将图像转换为详细的文本描述。
- 通过设计的指令模板对源/目标领域生成的文本描述进行微调。
- 在领域概括和无监督领域自适应设置下进行了广泛实验,验证了方法的有效性。
➡️