从 Transformer 中提取出图形用于场景图生成的 EGTR

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了一种名为DSGG的基于Transformer的新方法,用于场景图检测。该方法通过图感知查询直接预测图,并采用放松子图匹配和关系蒸馏策略来获取紧凑表示和解决关系语义重叠问题。实验结果显示,该模型在场景图生成任务上取得了最先进的结果。

🎯

关键要点

  • 介绍了一种新的基于 Transformer 的方法,称为 DSGG。

  • DSGG 将场景图检测视为基于图感知查询的直接图预测问题。

  • 采用放松子图匹配获取图节点及其关系的紧凑表示。

  • 通过关系蒸馏策略解决关系语义重叠问题。

  • 实验结果显示该模型在场景图生成任务上取得了最先进的结果。

  • 在 mR@50 和 mR@100 方面分别取得了 3.5% 和 6.7% 的显著改进。

  • 在全景场景图生成任务上取得了 8.5% 和 10.3% 的更大改进。

➡️

继续阅读