小红花·文摘

Kosmos-G模型利用多模态大型语言模型（MLLMs）的视觉感知能力生成多图像的视觉-语言输入。为提高感知准确性，提出了VCoder工具，并创建了COST数据集用于训练和评估。研究表明，VCoder在对象感知能力上优于其他模型。本文还回顾了MLLMs的架构、对齐策略和训练技术，分析了其在视觉理解任务上的表现，为未来研究奠定基础。