本文介绍了DB-SGG、DSGG和TISGG等场景图生成模型的创新方法,旨在解决数据不平衡和语义歧义问题。这些模型通过新的框架和策略,在长尾分布和三元组识别方面取得了显著的性能提升,展示了在场景图生成任务中的先进成果。
本文介绍了全景场景图(PSG)生成的新任务,创建了高质量数据集并提出多种改进方法。研究了图像到文本模型(ISRG),显著降低了场景图构建成本。探讨了基于Transformer的DSGG方法,取得了先进的生成效果,并提出了基于结构图的物体检测框架,提升了检测准确性。
本文介绍了一种新型基于Transformer的场景图生成方法DSGG,该方法通过图感知查询进行图预测,有效解决了节点关系的紧凑表示和语义重叠问题。实验结果表明,该模型在场景图生成任务中显著提升了性能,尤其在全景场景图生成方面表现突出。
完成下面两步后,将自动完成登录并继续当前操作。