小红花·文摘

本论文介绍了一种名为VideoLLaMA 2的视频大型语言模型，通过嵌入空间-时间卷积连接器和联合训练音频分支来增强视频和音频任务中的空间-时间建模和音频理解能力，并在多个任务上展示了竞争性结果，进一步提升了多模态理解能力，为智能视频分析系统设定了新的标准。