小红花·文摘

本研究提出了一种名为视频-因果交叉注意力掩码（Video-CCAM）的新型模型，解决了多模态大语言模型在处理长视频时的问题。该模型通过引入因果交叉注意力掩码，能够更好地理解时间顺序，并在多个标准视频基准测试中取得了优异成绩，展示了其在长视频理解上的潜力与应用前景。