文本知识的重要性:跨模态共教带来的一般化视觉类别发现

原文约300字,阅读约需1分钟。发表于:

通过使用强大的视觉 - 语言模型,本文提出了一个两阶段的 TextGCD 框架,通过检索式文本生成和跨模态共同教学来实现多模态的广义类别发现,并设计了自适应类别对齐策略以及软投票机制以整合多模态线索。实验证明我们的方法在八个数据集上具有较大的优势,尤其在 ImageNet-1k 和 CUB 上的所有精确度方面超过最佳竞争者分别为 7.7% 和 10.8%。

本文提出了一个两阶段的TextGCD框架,通过使用视觉-语言模型实现多模态的广义类别发现。实验证明该方法在八个数据集上具有优势。

相关推荐 去reddit讨论