量子位 ·

3B模型逆袭7B巨头！Video-XL-Pro突破长视频理解极限，大海捞针准确率超98%

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

Video-XL-Pro模型由联合研究团队推出，突破了超长视频理解的瓶颈，单卡处理近万帧视频，准确率超过98%。该模型采用重构式token压缩技术，使用少量数据训练，性能超越多个7B模型，展现出卓越的长视频理解能力，已开源以促进相关研究。

🎯

关键要点

Video-XL-Pro模型由联合研究团队推出，突破了超长视频理解的瓶颈，单卡处理近万帧视频，准确率超过98%。
该模型采用重构式token压缩技术，使用少量数据训练，性能超越多个7B模型。
Video-XL-Pro的核心在于重构性token压缩技术（ReCoT），通过自监督学习生成全面且紧凑的视频token。
ReCoT包含动态token合成器（DTS）和语义引导掩码（SGM），显著提升视频理解的效率和质量。
模型引入查询选择器，增强对超长视频的理解能力，并提出视频数据集剪枝策略以提升训练效率。
在多个主流视频理解评测基准上，Video-XL-Pro展现了卓越性能，超越了同参数量和7B模型。
在视频「大海捞针」测试中，模型可以处理8192帧的输入，达到了近99%的准确率。
在时间理解评测基准V-STaR中，Video-XL-Pro取得了25.07的mIoU得分，展现了卓越的长视频时间理解能力。
该模型在多个长视频理解应用场景中具有广泛的应用价值，已开源以促进相关研究。

❓

延伸问答

Video-XL-Pro模型的主要创新点是什么？

Video-XL-Pro模型的主要创新点是采用了重构式token压缩技术（ReCoT），通过自监督学习生成紧凑的视频token，显著提升了视频理解的效率和质量。

Video-XL-Pro在长视频理解方面的表现如何？

Video-XL-Pro在多个主流长视频理解评测基准上表现优异，准确率超过98%，并在MLVU和TempCompass等评测中获得第一名。

Video-XL-Pro如何处理超长视频？

Video-XL-Pro通过引入查询选择器和重构式token压缩技术，能够处理8192帧的输入，并在相同硬件条件下实现近99%的准确率。

Video-XL-Pro与7B模型相比有什么优势？

Video-XL-Pro在仅使用3B参数的情况下，性能超越了多个7B模型，包括Meta的Apollo-7B，展现出更高的效率和准确性。

Video-XL-Pro的训练数据需求如何？

Video-XL-Pro使用的训练数据相对较少，仅为1M，低于其他7B模型的训练数据需求，显示出其高效性。

Video-XL-Pro的开源情况如何？

Video-XL-Pro的模型、代码和训练数据均已开源，以促进长视频理解领域的研究和合作。

🏷️

继续阅读

VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
开源维护者的困境
开源维护者面临困境，贡献者与维护者之间的社会契约逐渐崩溃。AI的介入虽然提供帮助，但也引发责任和审核标准的疑问。维护者的工作量激增，未处理的拉取请求不断增...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Mate Security的Asaf Wiener让每位后端工程师成为模型路由器。他这样做是正确的。
Mate Security的CEO Asaf Wiener强调AI原生公司的成本管理重要性。他通过细分AI模型的成本，确保每个后端工程师参与模型选择和评估...
Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...