DH-Bench：探测大型视觉语言模型的深度和高度感知

本研究聚焦于大型视觉语言模型（VLMs）的几何理解，尤其是对场景中物体的深度和高度感知。尽管VLMs在基本几何特性如形状和大小的感知上表现出色，但在深度和高度推理方面面临显著挑战。通过引入一系列基准数据集来评估这些能力，我们发现现有VLMs在深度和高度感知上普遍存在不足，旨在为提升VLMs在真实世界应用中的几何理解能力铺平道路。

研究者提出了一种渐进式流水线和基准测试SPEC来评估视觉语言模型在细粒度的视觉语言概念理解方面的能力。发现四个领先的模型在SPEC上表现接近随机猜测，揭示了局限性。研究者提出了一种简单有效的方法来优化模型的性能，改善了SPEC的结果。其他基准测试结果也验证了该方法的可迁移性。

可迁移性基准测试性能优化细粒度视觉语言模型语言模型