小红花·文摘

本研究提出了VideoMind，一种新型视频语言智能体，旨在解决视频推理中的多模态不足。其创新在于角色基础的工作流程和链式LoRA策略，显著提升了视频理解能力，展示了在长时序推理中的潜力。