动态场景图生成的本地 - 全局信息交互解偏差
原文中文,约300字,阅读约需1分钟。发表于: 。提出了一种基于多任务学习的新型动态场景图生成模型,该模型结合了局部交互信息和全局人物行为交互信息,通过对象和帧特征之间的交互使模型更全面地理解单幅图像的视觉环境,并使用长时人体动作监督模型生成符合全局约束条件且避免不能学习尾谓词的多个场景图。实验证明了该框架的功效,不仅改善了动态场景图生成,还缓解了长尾问题。
本文提出了一种基于多任务学习的动态场景图生成模型,结合局部和全局交互信息,全面理解图像的视觉环境。使用长时人体动作监督模型生成符合约束条件且避免学习尾谓词的场景图。实验证明该框架改善了动态场景图生成,缓解了长尾问题。