如何确定黑箱视觉语言模型的首选图像分布？

该研究解决了大型多模态模型在专门视觉任务中的优化难题，提出了一种新颖且具有普适性的 методология 以识别黑箱视觉语言模型的首选图像分布。通过对三维对象的不同渲染类型进行应用，研究表明，在计算机辅助设计（CAD）等复杂结构的精确解读中取得显著成效，并通过新引入的CAD-VQA数据集为模型性能评估提供了基准。

研究者提出了一种渐进式流水线和基准测试SPEC来评估视觉语言模型在细粒度的视觉语言概念理解方面的能力。发现四个领先的模型在SPEC上表现接近随机猜测，揭示了局限性。研究者提出了一种简单有效的方法来优化模型的性能，并在其他基准测试上验证了方法的可迁移性。

可迁移性基准测试性能优化细粒度视觉语言模型语言模型