视觉数据类型理解不会由于扩展视觉 - 语言模型而出现
原文中文,约300字,阅读约需1分钟。发表于: 。最新的视觉语言模型(VLM)在识别视觉语义内容方面取得了显著的成功,但在识别视觉数据类型方面存在盲区。本文通过引入 “视觉数据类型识别” 这一新任务,探索并提升 VLM 在识别视觉数据类型方面的能力,通过分析模型的预训练分布,并在微调过程中引入数据类型信息,实现了显著的性能提升。
本文介绍了SyViC数据集和数据生成代码,以及细调模型的策略,旨在提高视觉语言模型对非物体类词汇的理解和组合推理能力。实验表明,用人工合成数据进行训练可以在不牺牲零样本能力的情况下大幅提高模型性能。在ARO上提高了9.9%,在VL-Checklist上提高了4.3%。