动态场景图生成的本地 - 全局信息交互解偏差

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种基于多任务学习的动态场景图生成模型,结合局部和全局交互信息,全面理解图像的视觉环境。使用长时人体动作监督模型生成符合约束条件且避免学习尾谓词的场景图。实验证明该框架改善了动态场景图生成,缓解了长尾问题。

🎯

关键要点

  • 提出了一种基于多任务学习的动态场景图生成模型。
  • 模型结合局部交互信息和全局人物行为交互信息。
  • 通过对象和帧特征之间的交互,全面理解图像的视觉环境。
  • 使用长时人体动作监督模型生成符合全局约束条件的场景图。
  • 避免学习尾谓词的问题。
  • 实验证明该框架改善了动态场景图生成。
  • 该框架缓解了长尾问题。
➡️

继续阅读