哈尔滨工业大学与华为联合提出了AdaReTaKe框架,解决长视频理解中的冗余问题。该框架无需训练,通过动态压缩视频信息,使多模态模型处理长度提升至2048帧,性能在多个基准测试中超越同规模模型3-5%。此研究为长视频理解设立了新标杆。
哈尔滨工业大学研究团队提出了智能体框架Optimus-1,旨在提升Minecraft中智能体执行长序列任务的能力。该框架结合结构化知识与多模态经验,显著提高了任务成功率,展示了在复杂环境中的应用潜力。
新加坡国立大学、南洋理工大学和哈工深的研究人员提出了视频思维链(VoT)框架,通过分解视频推理问题为多个子问题,实现对视频的深入理解和推理。实验结果表明,该框架在视频问答任务上性能超过传统方法。VoT框架的五个步骤包括任务定义与目标识别、目标追踪、行为分析、排名机制回答问题和答案验证。该框架提高了视频理解和推理的精确性和可靠性。
完成下面两步后,将自动完成登录并继续当前操作。