用于开放词汇分割的协同视觉 - 文本表示优化
原文中文,约300字,阅读约需1分钟。发表于: 。基于最先进的视觉 - 语言模型(如 CLIP),我们提出了一种内容相关的转移方法,在开放词汇分割任务中通过与输入图像进行交互来自适应增强每个文本嵌入,同时引入了一种表示补偿策略以维持 CLIP 的零样本能力,实现了视觉和文本表示的协同优化。我们的方法在流行的开放词汇语义分割基准上达到了卓越的性能,在 ADE20K 上的平光设置中,我们达到了 27.1 PQ,73.5 SQ 和 32.9 RQ 的性能。
该研究提出了一种基于视觉-语言模型的内容相关转移方法,通过与输入图像交互来增强每个文本嵌入,并引入了一种表示补偿策略以维持零样本能力。该方法在开放词汇分割任务中表现出色,性能达到27.1 PQ,73.5 SQ和32.9 RQ。