小红花·文摘

本文提出了一种基于多任务学习的动态场景图生成模型，结合局部和全局交互信息，全面理解图像的视觉环境。使用长时人体动作监督模型生成符合约束条件且避免学习尾谓词的场景图。实验证明该框架改善了动态场景图生成，缓解了长尾问题。