场景图 ViT:端到端开放词汇视觉关系检测
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
研究人员提出了一种基于Transformer的图像编码器模型,用于开放词汇视觉关系检测。该模型在Visual Genome和GQA基准测试中表现出最佳的关系检测性能。
🎯
关键要点
- 研究人员提出了一种基于Transformer的图像编码器模型。
- 该模型用于开放词汇视觉关系检测。
- 引入了无解码器架构和注意力机制。
- 模型在Visual Genome和GQA基准测试中表现出最佳的关系检测性能。
🏷️
标签
➡️