小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了一种新型视频分析系统AVA，基于视频语言模型（VLM），旨在提升开放性分析场景的适应性。AVA通过实时构建事件知识图谱和代理检索生成机制，显著改善复杂查询的表现，并在多个基准测试中超越现有系统，展示了处理超长视频内容的潜力。

Empowering Video Language Models for Agentic Video Analytics Systems

BriefGPT - AI 论文速递 ·

单卡3090帮你一口气看完《黑悟空》，港大百度打造超长视频理解引擎VideoRAG

单卡3090帮你一口气看完《黑悟空》，港大百度打造超长视频理解引擎VideoRAG

机器之心 ·

本研究提出了一种“视频深度任意物体”模型，解决了单目深度估计在视频中的时间不一致性问题。该模型在超长视频中实现了高质量的一致性深度估计，且效率未受影响，实验结果在多个基准上创下新纪录。

Video Depth Everywhere: Consistent Depth Estimation for Super-Long Videos

BriefGPT - AI 论文速递 ·

智源研究院与多所高校合作推出Video-XL模型，能够高效理解小时级超长视频。该模型仅需一块80G显卡，处理2048帧输入，准确率接近95%。Video-XL在长视频理解任务中表现优异，解决了现有模型的性能和效率问题，未来可广泛应用于电影摘要等领域。

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

量子位 ·