场景图 ViT:端到端开放词汇视觉关系检测
原文中文,约200字,阅读约需1分钟。发表于: 。通过引入无解码器架构和注意力机制,我们提出了一种简单高效的基于 Transformer 的图像编码器模型,用于开放词汇视觉关系检测,并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。
研究人员提出了一种基于Transformer的图像编码器模型,用于开放词汇视觉关系检测。该模型在Visual Genome和GQA基准测试中表现出最佳的关系检测性能。
通过引入无解码器架构和注意力机制,我们提出了一种简单高效的基于 Transformer 的图像编码器模型,用于开放词汇视觉关系检测,并在 Visual Genome 和大词汇 GQA 基准测试上实现了最好的关系检测性能。
研究人员提出了一种基于Transformer的图像编码器模型,用于开放词汇视觉关系检测。该模型在Visual Genome和GQA基准测试中表现出最佳的关系检测性能。