VL4AD:让语义分割认识未知类别,无需额外数据和训练的OOD语义分割 | ECCV'24 - 晓飞的算法工程笔记

💡 原文中文,约3100字,阅读约需8分钟。
📝

内容提要

VL4AD模型通过视觉-语言编码器提升像素级异常检测,解决未知语义类别的检测难题。该模型采用新评分函数,实现无数据、无训练的异常监督,优化类别描述与识别能力。

🎯

关键要点

  • VL4AD模型用于解决语义分割网络难以检测未知语义类别的异常问题。
  • 该模型通过视觉-语言编码器增强对离群样本的感知,避免额外的数据收集和模型训练。
  • 引入新的评分函数,实现无数据、无训练的异常监督。
  • 视觉编码器与文本编码器共同预训练,生成掩码预测分数和掩码分类分数。
  • 通过余弦相似性计算掩码分类分数,提高类别识别能力。
  • max-logit提示集成引入概念词汇多样性,增强模型对OOD输入的敏感性。
  • 合并相关ID类为超类,优化模型在测试期间的性能。
  • 新评分函数能够检测近OOD类,无需额外训练或数据准备。
  • 通过整合新的OOD概念,确保OOD对象正确分类,避免错误分配。
➡️

继续阅读