SAM4MLLM:结合多模态大型语言模型和SAM实现高精度引用表达分割 | ECCV'24 - 晓飞的算法工程笔记
💡
原文中文,约3000字,阅读约需7分钟。
📝
内容提要
SAM4MLLM是一种创新方法,结合多模态大型语言模型(MLLM)与Segment Anything Model(SAM),实现像素级引用表达分割。该方法通过主动询问生成提示点,提升分割精度,无需改变模型架构或引入新标记。实验验证了其在复杂任务中的有效性,展示了MLLM在像素感知任务中的潜力。
🎯
关键要点
- SAM4MLLM是一种结合多模态大型语言模型(MLLM)与Segment Anything Model(SAM)的方法。
- 该方法无需改变模型架构或引入新标记,提升了引用表达分割(RES)的精度。
- 通过主动询问生成提示点,SAM4MLLM有效连接了MLLM和SAM。
- 在多个RES基准上进行实验,验证了SAM4MLLM在复杂像素感知任务中的有效性。
- SAM4MLLM通过引入像素级信息,使MLLM能够理解像素级细节。
- 该方法使用少量文本提示token编码高质量的连续分割掩码。
- SAM4MLLM采用了两种提示点生成方案:提示点生成(PPG)和主动查询提示点(PQPP)。
- PPG直接生成提示点和边界框,而PQPP利用对话能力主动询问提示点是否在掩码内。
- 在训练过程中,使用与RES相关的三个数据集来指导模型。
- 为了保持MLLM的泛化能力,冻结了大部分网络参数,仅调整视觉重采样器和LoRA适配器。
➡️