NVLM：开放前沿级多模态大语言模型

本研究针对当前多模态大语言模型在视觉-语言任务中的表现不足，提出了NVLM 1.0系列模型，显著提升了该领域的性能。通过综合比较现有模型，提出了一种新架构，优化了训练效率及多模态推理能力。研究表明，数据集质量和任务多样性重于规模，推动了视觉-语言任务的研究进展。

通过研究评估作品，发现两个问题：1）视觉内容对于很多样本来说是不必要的；答案可以从问题和选项中推断出来，或者来自于世界知识。2）在训练中存在数据泄漏。为解决这些问题，提出了MMStar，一个具有6个核心能力和18个详细方向的多模态基准。在MMStar上评估了16个主要的LVLM，并调查了它们的数据泄漏和实际多模态增益。

LVLM 多模态基准大语言模型数据泄漏核心能力视觉内容