本研究提出了Pix2Cap-COCO,这是首个用于提升细粒度视觉理解的全景像素级字幕数据集。通过自动化标注流程,利用GPT-4V生成与像素对齐的字幕,显著提升了多模态模型的性能。
本文探讨了视觉-语言模型(VLM)在细粒度视觉理解中的局限性,并提出了一种优化其性能的新方法。研究发现,VLM在表示视觉概念时依赖非视觉属性,并揭示了多语言偏差问题。通过构建新数据集和基准测试,分析了VLM的优势与不足,为未来研究提供了方向。
完成下面两步后,将自动完成登录并继续当前操作。