小红花·文摘

研究人员提出了一种基于Transformer的图像编码器模型，用于开放词汇视觉关系检测。该模型在Visual Genome和GQA基准测试中表现出最佳的关系检测性能。