基于 VLMs 的异构标签体系下的跨领域语义分割
内容提要
本文提出了一系列无监督领域自适应方法,利用视觉基础模型和视觉语言模型,增强跨模态性能。通过动态加权一致性损失和类别级别特征分布规则化,提升了图像语义分割的泛化能力,实验结果表明这些方法在多个基准上优于现有技术。
关键要点
-
提出了一种新的 VFMSeg 流水线,利用 2D 视觉基础模型的先验知识增强跨模态的无监督领域自适应框架。
-
基于视觉语言模型的领域自适应方法结合了提示微调和三元组损失训练策略,提高了开放词汇的普适性。
-
提出了一种不确定性感知和地区一致性的跨域语义分割一致性正则化方法,通过动态加权的一致性损失提升知识传递的可靠性。
-
通过影像级对齐和类别级别特征分布规则化,提出了一种新的无监督域自适应方法,显著提高了分割模型的泛化能力。
-
提出了一种在线无监督域自适应算法,通过最小化源潜在特征与目标特征之间的分布距离,改善图像的语义分割模型的泛化性能。
-
提出了一种新的无监督域自适应方法,结合视频对抗训练和视频自我训练,成功将模拟数据转移到实际场景中。
-
SemiVL 方法结合视觉-语言模型的先验知识与半监督语义分割,显著提高了语义决策边界的性能。
延伸问答
VFMSeg 流水线的主要功能是什么?
VFMSeg 流水线利用 2D 视觉基础模型的先验知识,增强跨模态的无监督领域自适应框架,以提供更精确的无标签目标领域标签。
如何提高开放词汇的普适性?
通过结合参数高效的提示微调和三元组损失训练策略,基于视觉语言模型的方法提高了开放词汇的普适性。
不确定性感知和地区一致性在跨域语义分割中的作用是什么?
不确定性感知和地区一致性通过动态加权的一致性损失提升知识传递的可靠性,使得从教师模型到学生模型的知识更具意义。
新提出的无监督域自适应方法有哪些关键步骤?
该方法通过影像级对齐和类别级别特征分布规则化,分为粗、细两个阶段来解决域差异问题。
在线无监督域自适应算法的主要目标是什么?
该算法旨在通过最小化源潜在特征与目标特征之间的分布距离,改善图像的语义分割模型的泛化性能。
SemiVL 方法如何提高语义决策边界的性能?
SemiVL 方法结合视觉-语言模型的先验知识与半监督语义分割,通过空间微调策略和语言引导解码器设计来提高性能。