SAM4MLLM:结合多模态大型语言模型和SAM实现高精度引用表达分割 | ECCV'24 - 晓飞的算法工程笔记
原文中文,约3000字,阅读约需7分钟。发表于: 。来源:晓飞的算法工程笔记 公众号,转载请注明出处 论文: SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation 论文地址:https://arxiv.org/abs/2409.
SAM4MLLM是一种创新方法,结合多模态大型语言模型(MLLM)与Segment Anything Model(SAM),实现像素级引用表达分割。该方法通过主动询问生成提示点,提升分割精度,无需改变模型架构或引入新标记。实验验证了其在复杂任务中的有效性,展示了MLLM在像素感知任务中的潜力。