比较视觉指导优化
原文中文,约500字,阅读约需2分钟。发表于: 。比较两个图像的共性和差异(CaD)是一种基本的人类能力,它是高级视觉推理和解释的基础,对于生成详细的和与上下文相关的描述、执行比较分析、新颖性检测以及基于视觉数据做出明智决策至关重要。然而,令人惊讶的是,最先进的人类视觉智能模型 - 大型多模态模型(LMMs)在这些基本概念上付出的关注甚少。我们开发并提出了一种新的两阶段方法 CaD-VI 来收集合成视觉指令,同时还提供了一个包含 349K...
介绍了CaD-VI方法和CaD-Inst数据集,用于收集合成视觉指令。该方法提高了大型多模态模型的CaD定位能力,性能优于目前技术水平17.5%。还提出了一个评估基准,用于评估LMMs的CaD理解能力。