本文介绍了一种创新的方法,解决多模态大型语言模型中的事件级幻觉问题,重点在于视频内容的时间理解。研究提出了一种高效的长期视频理解模型,突破了上下文长度和内存限制,并在多个数据集上表现优异。通过特殊设计的记忆机制,提出了 MovieChat 和 LLoVi 框架,实现了长视频理解的最新性能,展示了在长视频问答任务中的优势。
完成下面两步后,将自动完成登录并继续当前操作。