与DINO对话:通过语言连接自监督视觉骨干以实现开放词汇分割

📝

内容提要

本研究解决了开放词汇分割中图像与自由形式文本概念的分割问题,现有模型在空间定位方面存在困难。我们提出的Talk2DINO方法,结合了DINOv2的空间精确性与CLIP的语言理解,利用注意力图选择性地将视觉补丁与文本嵌入对齐,显著提高了分割质量及前景与背景的区分能力。实验结果表明,Talk2DINO在多个无监督OVS基准测试中表现优异。

➡️

继续阅读