小红花·文摘

本文介绍了VideoLLM框架，利用LLMs的序列推理能力进行视频序列理解。通过编码器和转换器将输入转换为标记序列，然后输入LLM进行解码。实验证明LLMs在视频理解任务中具有有效的理解和推理能力。