场景图 ViT:端到端开放词汇视觉关系检测

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

研究人员提出了一种基于Transformer的图像编码器模型,用于开放词汇视觉关系检测。该模型在Visual Genome和GQA基准测试中表现出最佳的关系检测性能。

🎯

关键要点

  • 研究人员提出了一种基于Transformer的图像编码器模型。
  • 该模型用于开放词汇视觉关系检测。
  • 引入了无解码器架构和注意力机制。
  • 模型在Visual Genome和GQA基准测试中表现出最佳的关系检测性能。
➡️

继续阅读