每帧都要看:利用多轴梯度检查的高效长视频理解的Video-Ma$^2$mba

📝

内容提要

本研究解决了现有变换器基础的多模态模型在处理长视频序列时遇到的内存和计算需求的快速增长问题。我们提出的Video-Ma$^2$mba架构通过引入状态空间模型,替代了注意力机制,从而使内存需求呈线性增长,并且通过多轴梯度检查方法增强内存效率。实验证明,该模型能够在单个GPU上处理数百万个标记的长视频序列,显著提高了长视频理解任务的准确性。

➡️

继续阅读