文本知识的重要性:跨模态共教带来的一般化视觉类别发现

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一个两阶段的TextGCD框架,通过使用视觉-语言模型实现多模态的广义类别发现。实验证明该方法在八个数据集上具有优势。

🎯

关键要点

  • 提出了一个两阶段的TextGCD框架。
  • 该框架通过使用视觉-语言模型实现多模态的广义类别发现。
  • 采用检索式文本生成和跨模态共同教学的方法。
  • 设计了自适应类别对齐策略和软投票机制以整合多模态线索。
  • 实验证明该方法在八个数据集上具有优势。
  • 在ImageNet-1k和CUB数据集上,精确度分别超过最佳竞争者7.7%和10.8%。
➡️

继续阅读