SGTR+：使用 Transformer 进行端到端场景图生成

通过使用双分图构建方法和终到终的框架，我们提出了一种新的场景图生成方法，有效地解决了组合属性所带来的挑战。实验证明，我们的方法在三个具有挑战性的基准测试中展现出了优秀的表现和高效率的推理能力，超过了现有方法的大部分，达到了最佳性能和时间复杂度。

提出了一种名为RepSGG的新型架构，用于生成场景图。通过将实体表示为查询，目标表示为键，并使用最大注意力权重表示它们之间的关系，实现了更细粒度和灵活的特征表达。通过在训练期间进行仿射变换，对关系的逻辑进行修改，以提高性能平衡。实验结果表明，RepSGG在Visual Genome和Open Images V6数据集上具有先进或可比较的性能，并具有快速推理速度。

RepSGG transformer 场景图实体表示注意力权重目标表示