无监督基础下的大型多模态模型中的新兴像素定位

当前大型多模态模型面临着定位语言组件与视觉实体之间关系的挑战。本文提出了一种“关注与分割”的方法，展示了在无明确定位监督的情况下，模型可以自发地培养出基础能力，并通过引入基于扩散的视觉编码器，提升了模型的定位能力。研究结果表明，我们的方法在定位会话生成任务中未使用任何定位监督，仍表现出竞争力，在基础面具召回率上超过了大量监督模型。

大型多模态模型在视觉聊天上有突破，但基础能力不足。研究人员创建了GVC数据集和Grounding-Bench基准，通过连接分割模型与语言模型的新模型，支持GVC和视觉提示，表现优异。代码将于2023年12月发布。

GVC数据集 Grounding-Bench 多模态模型新模型无监督视觉聊天