BriefGPT - AI 论文速递 -

CAST: 视频动作识别中的时空交叉注意力

我们提出了一种新的双流架构,称为 Cross-Attention in Space and Time (CAST),它使用 RGB 输入实现了对视频的平衡的时空理解。我们的提出的瓶颈交叉注意机制使得空间和时间专家模型能够交换信息并进行协同预测,从而提高性能。我们通过对 EPIC-KITCHENS-100、Something-Something-V2 和 Kinetics-400 等公共基准数据集进行了大量实验证明了所提方法的优越性能。与现有方法相比,在不同数据集特征下,我们的方法始终表现出较好的性能。

我们提出了一种新的双流架构,名为Cross-Attention in Space and Time (CAST),使用RGB输入实现对视频的平衡的时空理解。通过瓶颈交叉注意机制,空间和时间专家模型能够交换信息并进行协同预测,提高性能。实验证明了该方法在多个公共基准数据集上的优越性能。

双流架构 性能提升 时空理解 瓶颈交叉注意机制 空间和时间专家模型

相关推荐 去reddit讨论

热榜 Top10

...
Dify.AI
...
ShowMeBug
...
eolink
...
白鲸技术栈
...
观测云
...
LigaAI
...
天勤数据

推荐或自荐