视觉语言模型(VLM)在细粒度视觉语言理解方面仍存在挑战。我们提出了一种渐进式流水线和基准测试SPEC,发现四个领先的VLM在该测试中的表现接近随机猜测。我们的方法显著提升了VLM在细粒度理解上的性能,并在其他基准测试中验证了其可迁移性。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: