人类中心视频中基于知识引导的短上下文动作预测
原文中文,约300字,阅读约需1分钟。发表于: 。本文通过将符号性知识图谱融入变换网络,提高了视频段期望动作的预测准确性,从而加快了编辑工作流程,并通过提供叙事建议来促进创造力。在 Breakfast 和 50Salads 两个基准数据集上,我们的方法在使用短视频上下文进行长期动作预测方面,超过了现有最先进方法高达 9%。
AVT是一种基于注意力机制的视频建模架构,能够预测未来的动作。AVT在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性,达到了最佳性能,并在EpicKitchens-100 CVPR'21挑战赛中获得了第一名。