HaltingVT: 适用于高效视频识别的自适应停止令牌变换器
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
AVT是一种基于注意力机制的视频建模架构,通过关注之前观察过的视频来预测未来的动作。AVT在多个动作预测基准测试中表现出最佳性能,并在挑战赛中获得第一名。
🎯
关键要点
- 提出了一种名为 AVT 的模型,基于注意力机制的端到端视频建模架构。
- AVT 通过关注之前观察过的视频来预测未来的动作。
- AVT 在训练时同时预测视频序列中的下一个动作。
- AVT 捕捉了长时间的依赖性,保持观察到的动作的时序进展。
- AVT 在四个流行的动作预测基准测试中达到了最佳性能。
- AVT 在 EpicKitchens-100 CVPR'21 挑战赛中获得了第一名。
➡️