CAST: Spatiotemporal Cross-Attention for Video Action Recognition

💡 原文约100字/词,阅读约需1分钟。
📝

内容提要

我们提出了一种新的双流架构,名为Cross-Attention in Space and Time (CAST),使用RGB输入实现对视频的平衡的时空理解。通过瓶颈交叉注意机制,空间和时间专家模型能够交换信息并进行协同预测,提高性能。实验证明了该方法在多个公共基准数据集上的优越性能。

🎯

关键要点

  • 提出了一种新的双流架构,称为Cross-Attention in Space and Time (CAST)。

  • 该架构使用RGB输入实现对视频的平衡的时空理解。

  • 瓶颈交叉注意机制使空间和时间专家模型能够交换信息并进行协同预测。

  • 通过实验证明该方法在多个公共基准数据集上的优越性能。

  • 在EPIC-KITCHENS-100、Something-Something-V2和Kinetics-400等数据集上表现良好。

  • 与现有方法相比,该方法在不同数据集特征下始终表现出较好的性能。

➡️

继续阅读