小红花·文摘

本研究提出了Pix2Cap-COCO，这是首个用于提升细粒度视觉理解的全景像素级字幕数据集。通过自动化标注流程，利用GPT-4V生成与像素对齐的字幕，显著提升了多模态模型的性能。

BriefGPT - AI 论文速递 ·

本文探讨了视觉-语言模型（VLM）在细粒度视觉理解中的局限性，并提出了一种优化其性能的新方法。研究发现，VLM在表示视觉概念时依赖非视觉属性，并揭示了多语言偏差问题。通过构建新数据集和基准测试，分析了VLM的优势与不足，为未来研究提供了方向。

BriefGPT - AI 论文速递 ·