CALICO:基于大型视觉语言模型的部件聚焦语义共同分割

📝

内容提要

本研究解决了大型视觉语言模型(LVLMs)在多图像间进行分割基础比较时的操作不足,尤其是在物体部件的细颗粒度上。论文提出了一种新任务,即部件聚焦语义共同分割,并引入了CALICO,首个能够在多图像中进行分割和推理的LVLM。实验表明,CALICO在仅微调0.3%模型参数的情况下,实现了在部件聚焦语义共同分割任务中的优越性能。

🏷️

标签

➡️

继续阅读