CAST: Spatiotemporal Cross-Attention for Video Action Recognition

我们提出了一种新的双流架构，称为 Cross-Attention in Space and Time (CAST)，它使用 RGB 输入实现了对视频的平衡的时空理解。我们的提出的瓶颈交叉注意机制使得空间和时间专家模型能够交换信息并进行协同预测，从而提高性能。我们通过对 EPIC-KITCHENS-100、Something-Something-V2 和 Kinetics-400...

我们提出了一种新的双流架构，名为Cross-Attention in Space and Time (CAST)，使用RGB输入实现对视频的平衡的时空理解。通过瓶颈交叉注意机制，空间和时间专家模型能够交换信息并进行协同预测，提高性能。实验证明了该方法在多个公共基准数据集上的优越性能。