人类中心视频中基于知识引导的短上下文动作预测

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

AVT是一种基于注意力机制的视频建模架构,能够预测未来的动作。AVT在保持观察到的动作的时序进展的同时捕捉了长时间的依赖性,达到了最佳性能,并在EpicKitchens-100 CVPR'21挑战赛中获得了第一名。

🎯

关键要点

  • AVT是一种基于注意力机制的端到端视频建模架构。
  • AVT通过关注之前观察过的视频来预测未来的动作。
  • AVT在训练时同时预测视频序列中的下一个动作。
  • AVT能够捕捉长时间的依赖性,保持观察到的动作的时序进展。
  • AVT在四个流行的动作预测基准测试中达到了最佳性能。
  • AVT在EpicKitchens-100 CVPR'21挑战赛中获得了第一名。
➡️

继续阅读