利用谓词和三元组学习进行场景图生成
原文中文,约300字,阅读约需1分钟。发表于: 。本文提出了一种双粒度关系建模(Dual-granularity Relation Modeling)网络,利用粗粒度和细粒度的三元组线索来促进关系识别,并引入了双粒度知识传递(Dual-granularity Knowledge Transfer)策略来解决长尾问题,实验证明了该方法的有效性。
本文介绍了一种新的基于Transformer的方法,称为DSGG,用于场景图检测。该方法通过图感知查询进行直接图预测,并采用放松子图匹配和关系蒸馏策略来获取紧凑表示和解决关系语义重叠问题。实验结果显示,该模型在场景图生成任务上取得了最先进的结果。