反馈是否能够增强大型视觉 - 语言模型的语义基础能力?
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
SemiVL是一种结合了视觉-语言模型的方法,通过空间微调策略和语言引导解码器的设计,以及提供类别定义的语言指导,实现了更好的语义决策边界。在4个语义分割数据集上评估时,SemiVL明显优于以前的半监督方法,例如在COCO上mIoU提高了+13.5,在Pascal VOC上mIoU提高了+6.1。
🎯
关键要点
- SemiVL结合了视觉-语言模型的先验知识与半监督语义分割的方法。
- 通过空间微调策略和语言引导解码器的设计,实现了更好的语义决策边界。
- 在4个语义分割数据集上评估时,SemiVL明显优于以前的半监督方法。
- 在COCO数据集上,mIoU提高了+13.5,使用232个已注释图像。
- 在Pascal VOC数据集上,mIoU提高了+6.1,使用92个标签。
➡️