本文研究了无遮挡多类目标检测,提出了三种方法:使用语言描述、图像样例或两者结合。通过大型语言模型生成描述,结合视觉聚合器和多模态分类器,实验结果表明新方法优于传统方案,尤其在开放词汇目标检测和新颖类分类上表现突出。
完成下面两步后,将自动完成登录并继续当前操作。