研究人员创造了一个用于基础视觉聊天的数据集,并引入了一个名为Grounding-Bench的基准。他们提出了一种模型设计,通过将分割模型与语言模型相连接来支持GVC和各种类型的视觉提示。实验结果表明,他们的模型在Grounding-Bench上表现优异,并在经典的基准测试中也取得了有竞争力的性能。
完成下面两步后,将自动完成登录并继续当前操作。