视觉变换器(ViTs)在视觉关系任务中表现不佳。研究表明,ViTs在抽象视觉推理中有两个阶段:感知阶段提取局部特征,关系阶段比较对象表示。理解这些阶段有助于改进模型。
完成下面两步后,将自动完成登录并继续当前操作。