OMG-LLaVA：图像层、对象层、像素层推理和理解的桥梁

提出了一种新颖的 OMG-LLaVA 框架，将强大的像素级视觉理解与推理能力相结合，接受各种视觉和文本提示以实现灵活的用户交互。通过将视觉信息、感知先验和视觉提示整合为 LLM 可以理解用户的文本指令，并基于视觉信息提供文本响应和像素级分割结果。OMG-LLaVA 在一个模型中实现了图像级、对象级和像素级的推理和理解，达到了或超过了多个基准测试的专门方法的性能。

近期，多模态大型语言模型（MLLM）在视觉与语言任务上表现出色。研究人员提出了使用VCoder作为多模态LLM的感知工具，以改善其在识别或计数图像中的实体方面的问题。他们还创建了COST数据集，用于训练和评估MLLM在对象感知任务上的表现。实验证据证明了VCoder在对象级感知能力上相比其他多模态LLM的改进。