在线行动理解的记忆与预测变换器
原文中文,约300字,阅读约需1分钟。发表于: 。该论文提出了一种基于记忆和预测的方法来建模整个时间结构,包括过去、现在和未来,并通过 Memory-and-Anticipation Transformer 在在线动作检测和预测任务中取得显著的性能优势。
AVT是一种基于注意力机制的视频建模架构,能够通过关注之前的视频来预测未来的动作。AVT能够捕捉长时间的依赖性,提高预测性能,并在多个动作预测基准测试中表现最佳。AVT在EpicKitchens-100 CVPR'21挑战赛中获得第一名。