该研究提出了综合连续场景图生成数据集,探索现有方法在学习新对象时的保留情况,并引入新的图卷积网络以解决图像遮挡问题。研究还提出了统一框架OvSGTR和基于因果推断的对象关系预测方法,显著提升了场景图生成性能。此外,开发了图像到文本模型,降低了构建成本,并提出了基于场景图的三维理解方法和开放词汇生成框架。
本文介绍了多种创新的场景图生成方法,包括综合连续场景图生成(CSEGG)、边缘双场景图生成(EdgeSGG)和终身场景图生成(LSGG)。研究表明,这些方法在对象关系预测和长尾问题上取得显著提升,尤其在视觉语言任务中表现优异。此外,空间-时间知识嵌入变压器(STKET)和Text-Image结合模型(TISGG)在生成视频场景图和解决长尾问题方面也展现了优势。
完成下面两步后,将自动完成登录并继续当前操作。