LLMs 迎接长视频:LLMs 中使用互动视觉适配器提升长视频理解
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用交互式视觉适配器 (IVA) 在大型语言模型(LLMs)内部增强与细粒度视觉元素的互动,我们提出的视频 - LLM 通过适当的长视频建模和精确的视觉交互,实现了对长视频内容的全面理解,并显著提高了长视频问答任务的性能。
该论文介绍了一种名为Audio-Visual LLM的多模态大型语言模型,通过综合视觉和听觉输入进行视频理解。模型通过模态增强训练,选择性地激活适当的视觉和听觉编码器,实现端到端的多模态视频数据联合训练。实验证明,Audio-Visual LLM在各种视频理解任务中取得了令人印象深刻的零样本结果。