BriefGPT - AI 论文速递
·
2023-11-30T00:00:00Z
CAST: Spatiotemporal Cross-Attention for Video Action Recognition
💡
原文约100字/词,阅读约需1分钟。
我们提出了一种新的双流架构,名为Cross-Attention in Space and Time (CAST),使用RGB输入实现对视频的平衡的时空理解。通过瓶颈交叉注意机制,空间和时间专家模型能够交换信息并进行协同预测,提高性能。实验证明了该方法在多个公共基准数据集上的优越性能。