BriefGPT - AI 论文速递 ·

基于 VLMs 的异构标签体系下的跨领域语义分割

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文提出了一系列无监督领域自适应方法，利用视觉基础模型和视觉语言模型，增强跨模态性能。通过动态加权一致性损失和类别级别特征分布规则化，提升了图像语义分割的泛化能力，实验结果表明这些方法在多个基准上优于现有技术。

🎯

❓

VFMSeg 流水线利用 2D 视觉基础模型的先验知识，增强跨模态的无监督领域自适应框架，以提供更精确的无标签目标领域标签。

通过结合参数高效的提示微调和三元组损失训练策略，基于视觉语言模型的方法提高了开放词汇的普适性。

不确定性感知和地区一致性通过动态加权的一致性损失提升知识传递的可靠性，使得从教师模型到学生模型的知识更具意义。

该方法通过影像级对齐和类别级别特征分布规则化，分为粗、细两个阶段来解决域差异问题。

该算法旨在通过最小化源潜在特征与目标特征之间的分布距离，改善图像的语义分割模型的泛化性能。

SemiVL 方法结合视觉-语言模型的先验知识与半监督语义分割，通过空间微调策略和语言引导解码器设计来提高性能。

🏷️