小红花·文摘

本文介绍了VETO，一种用于生成场景图的视觉关系变换器。它采用新颖的实体关系编码器和互斥专家学习策略，能够捕捉实体的局部线索并消除偏见。实验结果显示，VETO + MEET的预测性能比现有技术高出47个百分点，且尺寸缩小了10倍。