小红花·文摘

该研究提出了综合连续场景图生成数据集，探索现有方法在学习新对象时的保留情况，并引入新的图卷积网络以解决图像遮挡问题。研究还提出了统一框架OvSGTR和基于因果推断的对象关系预测方法，显著提升了场景图生成性能。此外，开发了图像到文本模型，降低了构建成本，并提出了基于场景图的三维理解方法和开放词汇生成框架。