无监督基础下的大型多模态模型中的新兴像素定位
大型多模态模型在视觉聊天上有突破,但基础能力不足。研究人员创建了GVC数据集和Grounding-Bench基准,通过连接分割模型与语言模型的新模型,支持GVC和视觉提示,表现优异。代码将于2023年12月发布。
原文中文,约400字,阅读约需1分钟。
大型多模态模型在视觉聊天上有突破,但基础能力不足。研究人员创建了GVC数据集和Grounding-Bench基准,通过连接分割模型与语言模型的新模型,支持GVC和视觉提示,表现优异。代码将于2023年12月发布。