视觉关系变换器用于无偏场景图生成
原文中文,约300字,阅读约需1分钟。发表于: 。近年来,场景图生成在视觉场景理解任务中受到越来越多的关注。本文提出了一种名为 VETO 的视觉关系变换器,采用新颖的实体关系编码器以捕捉实体的局部级线索,并引入一种名为 MEET 的互斥专家学习策略以消除对头部或尾部类别的偏见,实验结果表明,VETO + MEET 的预测性能比现有技术高出 47 个百分点,并且尺寸缩小了 10 倍。
本文介绍了VETO,一种用于生成场景图的视觉关系变换器。它采用新颖的实体关系编码器和互斥专家学习策略,能够捕捉实体的局部线索并消除偏见。实验结果显示,VETO + MEET的预测性能比现有技术高出47个百分点,且尺寸缩小了10倍。