Cambrian-1：全面开放、以视觉为中心的多模态 LLMs 研究

我们引入了 Cambrian-1，一种以视觉为中心的多模态 LLMs（MLLMs）系列，通过视觉指导调整作为接口，评估各种视觉表示，并提出了空间视觉聚合器（SVA）来进一步改进视觉定位，同时降低标记数量。此外，我们讨论了从公开可用的资源中策划高质量的视觉指导调整数据的重要性，并提供了模型权重、代码、支持工具、数据集以及详细的指导调整和评估方案，希望我们的发布能够激发和加速多模态系统和视觉表示学习的进步。

通过研究评估作品，发现两个问题：1）视觉内容对于很多样本来说是不必要的；答案可以从问题和选项中推断出来，或者来自于LLM中的世界知识。2）在LLM和LVLM训练中存在数据泄漏。为解决这些问题，提出了MMStar，一个由人工精选的多模态基准。在MMStar上评估了16个LVLM，调查了它们的多模态能力、数据泄漏和实际多模态增益。

LVLM MMStar 多模态基准多模态能力数据泄漏