本文提出了一种新的情境场景图(SSG)方法,解决了现有图基方法在视频理解中对行动组件细粒度语义特性的忽视。通过多阶段的互动与互补网络(InComNet)生成SSG,实验结果表明该方法在分类和推理任务中表现优异,推动了人中心情境理解的发展。
完成下面两步后,将自动完成登录并继续当前操作。