量子位 ·

单卡搞定万帧视频理解！智源研究院开源轻量级超长视频理解模型Video-XL-2

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

智源研究院与上海交通大学联合推出开源视频理解模型Video-XL-2，该模型支持单卡处理万帧视频，编码2048帧仅需12秒。在长视频理解任务中表现优异，超越现有轻量级模型，具有广泛应用潜力，如影视分析和异常行为监测。

🎯

关键要点

智源研究院与上海交通大学联合推出开源视频理解模型Video-XL-2。
Video-XL-2支持单卡处理万帧视频，编码2048帧仅需12秒。
在长视频理解任务中，Video-XL-2表现优异，超越现有轻量级模型。
模型在MLVU、Video-MME、LVBench等评测基准上达到了领先水平。
Video-XL-2的模型架构由视觉编码器、动态Token合成模块和大语言模型构成。
采用四阶段渐进式训练策略，逐步提升长视频理解能力。
引入分段式预装填策略和双粒度KV解码机制，优化计算效率。
在实验中，Video-XL-2在多个基准上超越现有轻量级开源模型，达成最先进性能。
在视频长度处理上，Video-XL-2支持万帧级视频输入，显著降低资源需求。
Video-XL-2在实际应用中具有广泛潜力，如影视分析和异常行为监测。

❓

延伸问答

Video-XL-2模型的主要特点是什么？

Video-XL-2模型支持单卡处理万帧视频，编码2048帧仅需12秒，表现优异，超越现有轻量级模型。

Video-XL-2在视频理解任务中的表现如何？

Video-XL-2在MLVU、Video-MME、LVBench等评测基准上达到了领先水平，超越现有轻量级开源模型。

Video-XL-2的架构设计包含哪些核心组件？

Video-XL-2的架构由视觉编码器、动态Token合成模块和大语言模型构成。

Video-XL-2如何优化计算效率？

Video-XL-2引入分段式预装填策略和双粒度KV解码机制，显著降低计算成本与显存开销。

Video-XL-2在实际应用中有哪些潜力？

Video-XL-2可广泛应用于影视分析、异常行为监测等多个实际场景，展现重要应用价值。

Video-XL-2的训练策略是怎样的？

Video-XL-2采用四阶段渐进式训练策略，逐步提升长视频理解能力。

🏷️

继续阅读

Mozilla 发布开源 AI 客户端 Thunderbolt，聊天、搜索、调研、自动化，自托管/隐私优先
Mozilla 发布了开源 AI 客户端 Thunderbolt，支持本地部署，强调用户隐私。该客户端提供聊天、搜索、调研和任务自动化功能，能够接入企业内...
在线教程丨Qwen3.6系列首个开源模型Agent编程能力大涨，激活参数仅3B超越Gemma4-31B
Qwen3.6-35B-A3B 模型近日开源，性能优于 Qwen3.5 和 Gemma4 系列，编程基准测试显著提升，新增“思考过程留存”功能，简化开发流...
从 OpenSwiftUI 到 DanceUI：换个方式 Dive SwiftUI - 肘子的 Swift 周报 #132
自2019年发布以来，SwiftUI逐渐成为苹果开发者的重要工具，但其闭源特性使得开发者难以深入理解。为此，社区希望通过开源项目复刻SwiftUI。最近，...
天立启鸣AI研究院院长刘志毅，入选2025福布斯中国科创人物
福布斯中国发布的“2025科创人物”榜单中，刘志毅教授因在教育AI领域的贡献入选。天立启鸣AI研究院专注于教育专用AGI，致力于通过认知计算提升教育智能化...
Atlassian旗下软件(Jira/Confluence等)将从8月17日开始收集客户数据用于训练模型
知名软件公司Atlassian近期更新数据贡献政策，自2026年8月17日起将使用客户在Jira、Confluence等云产品中的数据训练AI模型。企业版...
AI抵制浪潮兴起：数据投毒与虚假信息如何反击模型训练
人们通过投喂垃圾数据和散布虚假信息来抵制AI数据抓取，旨在提高数据采集成本，迫使科技公司改变做法。Reddit社区“毒泉”鼓励用户向爬虫提供无用数据，以影...