小红花·文摘

本文介绍了一种无监督学习任务，联合建模视觉场景图和语言依赖树，构建了VLParse数据集，并提出了VLGAE框架用于视觉语言短语理解。研究强调了视觉信息和语言依赖关系在VL结构建模中的重要性，并提出了VLUE评估基准，以评估视觉语言处理模型的泛化能力和效率。此外，探讨了通过小型数据集和新训练范式提升VL模型表现的方法，推动了大规模视觉语言模型的发展。