视觉关系变换器用于无偏场景图生成

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文介绍了VETO,一种用于生成场景图的视觉关系变换器。它采用新颖的实体关系编码器和互斥专家学习策略,能够捕捉实体的局部线索并消除偏见。实验结果显示,VETO + MEET的预测性能比现有技术高出47个百分点,且尺寸缩小了10倍。

🎯

关键要点

  • VETO是一种用于生成场景图的视觉关系变换器。

  • VETO采用新颖的实体关系编码器,能够捕捉实体的局部线索。

  • 引入了名为MEET的互斥专家学习策略,以消除偏见。

  • 实验结果显示,VETO + MEET的预测性能比现有技术高出47个百分点。

  • VETO的尺寸缩小了10倍。

➡️

继续阅读