视觉变换器(ViTs)在视觉关系任务中表现不佳。研究表明,ViTs在抽象视觉推理中有两个阶段:感知阶段提取局部特征,关系阶段比较对象表示。理解这些阶段有助于改进模型。
本文介绍了一种使用弱监督判别式聚类模型从仅具有图像级标签的数据中学习关系的新建模视觉关系方法,并在新引入的 UnRel 数据集上验证了该方法的有效性。实验结果表明,该模型在视觉关系数据集上取得了显著的提高。
完成下面两步后,将自动完成登录并继续当前操作。