本研究提出了Pix2Cap-COCO,这是首个用于提升细粒度视觉理解的全景像素级字幕数据集。通过自动化标注流程,利用GPT-4V生成与像素对齐的字幕,显著提升了多模态模型的性能。
完成下面两步后,将自动完成登录并继续当前操作。