小红花·文摘

本文介绍了多种新的视频-语言模型，如去耦合的空间-时间编码器、LongVLM和VideoStreaming，旨在提升长视频问答（LVQA）和视频理解的性能。通过分解视频、优化编码和利用大型语言模型（LLMs），这些模型实现了对视频内容的更好理解和回答能力。同时，指出了在处理视频时间性和鲁棒性方面的不足，并提出未来研究方向。