从 Transformer 中提取出图形用于场景图生成的 EGTR

提出一种轻量级的一阶场景图生成（SGG）模型，通过充分利用 DETR 解码器的多头自注意力层中学习到的各种关系，使用浅层关系抽取头有效地提取关系图，并考虑到关系抽取任务对于物体检测任务的依赖，提出了一种新颖的关系平滑技术，根据检测到的物体质量自适应地调整关系标签，同时还提出了一个辅助任务 —— 连接性预测任务来预测物体对之间是否存在关系。

本文介绍了一种名为DSGG的基于Transformer的新方法，用于场景图检测。该方法通过图感知查询直接预测图，并采用放松子图匹配和关系蒸馏策略来获取紧凑表示和解决关系语义重叠问题。实验结果显示，该模型在场景图生成任务上取得了最先进的结果。

DSGG Transformer 关系蒸馏策略图感知查询场景图检测