文本知识的重要性:跨模态共教带来的一般化视觉类别发现
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一个两阶段的TextGCD框架,通过使用视觉-语言模型实现多模态的广义类别发现。实验证明该方法在八个数据集上具有优势。
🎯
关键要点
- 提出了一个两阶段的TextGCD框架。
- 该框架通过使用视觉-语言模型实现多模态的广义类别发现。
- 采用检索式文本生成和跨模态共同教学的方法。
- 设计了自适应类别对齐策略和软投票机制以整合多模态线索。
- 实验证明该方法在八个数据集上具有优势。
- 在ImageNet-1k和CUB数据集上,精确度分别超过最佳竞争者7.7%和10.8%。
➡️