本文介绍了一种无监督学习任务,联合建模视觉场景图和语言依赖树,构建了VLParse数据集,并提出了VLGAE框架用于视觉语言短语理解。研究强调了视觉信息和语言依赖关系在VL结构建模中的重要性,并提出了VLUE评估基准,以评估视觉语言处理模型的泛化能力和效率。此外,探讨了通过小型数据集和新训练范式提升VL模型表现的方法,推动了大规模视觉语言模型的发展。
完成下面两步后,将自动完成登录并继续当前操作。