与DINO对话:通过语言连接自监督视觉骨干以实现开放词汇分割
📝
内容提要
本研究解决了开放词汇分割中图像与自由形式文本概念的分割问题,现有模型在空间定位方面存在困难。我们提出的Talk2DINO方法,结合了DINOv2的空间精确性与CLIP的语言理解,利用注意力图选择性地将视觉补丁与文本嵌入对齐,显著提高了分割质量及前景与背景的区分能力。实验结果表明,Talk2DINO在多个无监督OVS基准测试中表现优异。
➡️