LLaVA-Grounding: 大型多模态模型的基于视觉的聊天
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究人员创造了一个用于基础视觉聊天的数据集,并引入了一个名为Grounding-Bench的基准。他们提出了一种模型设计,通过将分割模型与语言模型相连接来支持GVC和各种类型的视觉提示。实验结果表明,他们的模型在Grounding-Bench上表现优异,并在经典的基准测试中也取得了有竞争力的性能。
🎯
关键要点
- 研究人员创造了一个用于基础视觉聊天(GVC)的数据集。
- 引入了一个名为Grounding-Bench的基准,以评估GVC的能力。
- 提出了一种模型设计,将分割模型与语言模型相连接,以支持GVC和各种视觉提示。
- 实验结果显示,该模型在Grounding-Bench上表现优异。
- 模型在经典基准测试中,如RefCOCO/+/g和Flickr30K实体中也取得了有竞争力的性能。
- 代码将在指定的URL发布。
🏷️
标签
➡️