小红花·文摘

本研究提出了一种基于DETR的视觉交集网络（VINO），解决了开放集物体检测中语言与视觉模态之间的巨大差异所带来的挑战。VINO通过建立多图像视觉库来保留各个类别的语义交集，提高了特征表示的优化能力和效率。VINO在资源要求较低的情况下，达到了与视觉-语言模型相媲美的性能。