CALICO:基于大型视觉语言模型的部件聚焦语义共同分割
📝
内容提要
本研究解决了大型视觉语言模型(LVLMs)在多图像间进行分割基础比较时的操作不足,尤其是在物体部件的细颗粒度上。论文提出了一种新任务,即部件聚焦语义共同分割,并引入了CALICO,首个能够在多图像中进行分割和推理的LVLM。实验表明,CALICO在仅微调0.3%模型参数的情况下,实现了在部件聚焦语义共同分割任务中的优越性能。
🏷️
标签
➡️