SGTR+:使用 Transformer 进行端到端场景图生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

提出了一种名为RepSGG的新型架构,用于生成场景图。通过将实体表示为查询,目标表示为键,并使用最大注意力权重表示它们之间的关系,实现了更细粒度和灵活的特征表达。通过在训练期间进行仿射变换,对关系的逻辑进行修改,以提高性能平衡。实验结果表明,RepSGG在Visual Genome和Open Images V6数据集上具有先进或可比较的性能,并具有快速推理速度。

🎯

关键要点

  • 提出了一种名为RepSGG的新型架构用于生成场景图。
  • 实体表示为查询,目标表示为键,关系通过最大注意力权重表示。
  • 实现了更细粒度和灵活的特征表达能力。
  • 在训练期间进行仿射变换以修改关系的逻辑,提高性能平衡。
  • 实验结果显示RepSGG在Visual Genome和Open Images V6数据集上具有先进或可比较的性能。
  • RepSGG具有快速推理速度,证明了方法的有效性和高效性。
➡️

继续阅读