VL4AD:让语义分割认识未知类别,无需额外数据和训练的OOD语义分割 | ECCV'24 - 晓飞的算法工程笔记
💡
原文中文,约3100字,阅读约需8分钟。
📝
内容提要
VL4AD模型通过视觉-语言编码器提升像素级异常检测,解决未知语义类别的检测难题。该模型采用新评分函数,实现无数据、无训练的异常监督,优化类别描述与识别能力。
🎯
关键要点
- VL4AD模型用于解决语义分割网络难以检测未知语义类别的异常问题。
- 该模型通过视觉-语言编码器增强对离群样本的感知,避免额外的数据收集和模型训练。
- 引入新的评分函数,实现无数据、无训练的异常监督。
- 视觉编码器与文本编码器共同预训练,生成掩码预测分数和掩码分类分数。
- 通过余弦相似性计算掩码分类分数,提高类别识别能力。
- max-logit提示集成引入概念词汇多样性,增强模型对OOD输入的敏感性。
- 合并相关ID类为超类,优化模型在测试期间的性能。
- 新评分函数能够检测近OOD类,无需额外训练或数据准备。
- 通过整合新的OOD概念,确保OOD对象正确分类,避免错误分配。
➡️