LLaVA-Grounding: 大型多模态模型的基于视觉的聊天

原文约500字，阅读约需2分钟。发表于：。

最近在大型多模态模型（LMMs）的重要突破中，人们越来越意识到视觉聊天的基础能力。然而，尽管近期的努力使 LMMs 能够支持基础能力，但它们的聊天表现通常是独立的，并且在被要求进行基础时其聊天性能显著下降。该问题的根源在于缺乏一个用于基础视觉聊天（GVC）的数据集。为了解决这个问题，我们创造了能够结合基础和聊天能力的 GVC 数据。为了更好地评估 GVC 的能力，我们引入了一个名为 Grounding-Bench 的基准。此外，我们提出了一种模型设计，可以通过将分割模型与语言模型相连接来支持 GVC 和各种类型的视觉提示。实验结果表明，我们的模型在 Grounding-Bench 上优于其他 LMMs。此外，我们的模型在经典的基础基准测试中，如 RefCOCO/+/g 和 Flickr30K 实体中，也取得了有竞争力的性能。我们的代码将在此 https URL 发布。

研究人员创造了一个用于基础视觉聊天的数据集，并引入了一个名为Grounding-Bench的基准。他们提出了一种模型设计，通过将分割模型与语言模型相连接来支持GVC和各种类型的视觉提示。实验结果表明，他们的模型在Grounding-Bench上表现优异，并在经典的基准测试中也取得了有竞争力的性能。

Grounding-Bench 基础能力大型多模态模型聊天能力视觉聊天

LLaVA-Grounding: 大型多模态模型的基于视觉的聊天

验证