小红花·文摘

本研究提出了一种名为MCAF的无训练框架，旨在解决长视频理解的挑战。MCAF通过多模态粗到细的注意力集中策略，优先处理与理解任务相关的片段，从而显著提高准确性和整体性能，超越现有方法。