LLaFS: 当大型语言模型遇上小样本分割
原文中文,约400字,阅读约需1分钟。发表于: 。LLaFS 是第一个尝试在少样本分割中利用大型语言模型(LLMs)的研究,通过设计输入指令和模拟人类视觉机制提供多模态引导,实现文本感知 LLM 处理图像相关任务,同时通过伪样本合成和课程学习进行数据增强和优化,在多个数据集上取得最先进的结果,展示了利用 LLMs 进行少样本计算机视觉任务的潜力。
本文介绍了广义Few-Shot语义分割(GFS-Seg)数据集,用于分析在少示例的新类别和足够示例的基础类别下的泛化能力。提出了上下文感知原型学习(CAPL)方法,通过利用共现先验知识和动态丰富上下文信息来提高模型性能。实验表明CAPL在Few-Shot Segmentation上具有竞争力的泛化性能。