分析视觉符号的语言

本研究探讨了视觉语言的统计特性，识别出视觉符号与自然语言之间的显著相似性和基本差异。研究发现，虽然视觉语言遵循Zipf分布，但其缺乏统一的语法结构，并表现出较高的困惑度和较弱的层次组织，这为设计更有效的计算机视觉模型提供了重要见解。

视觉语言模型（VLM）在细粒度视觉语言理解方面仍存在挑战。我们提出了一种渐进式流水线和基准测试SPEC，发现四个领先的VLM在该测试中的表现接近随机猜测。我们的方法显著提升了VLM在细粒度理解上的性能，并在其他基准测试中验证了其可迁移性。

可迁移性基准测试性能提升细粒度理解视觉语言模型