研究人员提出了一种基于Transformer的图像编码器模型,用于开放词汇视觉关系检测。该模型在Visual Genome和GQA基准测试中表现出最佳的关系检测性能。
完成下面两步后,将自动完成登录并继续当前操作。