小红花·文摘

本文介绍了一种创新的方法，解决多模态大型语言模型中的事件级幻觉问题，重点在于视频内容的时间理解。研究提出了一种高效的长期视频理解模型，突破了上下文长度和内存限制，并在多个数据集上表现优异。通过特殊设计的记忆机制，提出了 MovieChat 和 LLoVi 框架，实现了长视频理解的最新性能，展示了在长视频问答任务中的优势。