小红花·文摘

本文探讨了视觉-语言模型（VLM）在细粒度视觉理解中的局限性，并提出了一种优化其性能的新方法。研究发现，VLM在表示视觉概念时依赖非视觉属性，并揭示了多语言偏差问题。通过构建新数据集和基准测试，分析了VLM的优势与不足，为未来研究提供了方向。