DH-Bench:探测大型视觉语言模型的深度和高度感知
原文中文,约400字,阅读约需1分钟。发表于: 。本研究聚焦于大型视觉语言模型(VLMs)的几何理解,尤其是对场景中物体的深度和高度感知。尽管VLMs在基本几何特性如形状和大小的感知上表现出色,但在深度和高度推理方面面临显著挑战。通过引入一系列基准数据集来评估这些能力,我们发现现有VLMs在深度和高度感知上普遍存在不足,旨在为提升VLMs在真实世界应用中的几何理解能力铺平道路。
研究者提出了一种渐进式流水线和基准测试SPEC来评估视觉语言模型在细粒度的视觉语言概念理解方面的能力。发现四个领先的模型在SPEC上表现接近随机猜测,揭示了局限性。研究者提出了一种简单有效的方法来优化模型的性能,改善了SPEC的结果。其他基准测试结果也验证了该方法的可迁移性。