量子位 ·

一块显卡理解一部电影，最新超长视频理解大模型出炉！“大海捞针”准确率近95%，代码已开源

💡 原文中文，约4100字，阅读约需10分钟。

📝

内容提要

智源研究院与多所高校合作推出Video-XL模型，能够高效理解小时级超长视频。该模型仅需一块80G显卡，处理2048帧输入，准确率接近95%。Video-XL在长视频理解任务中表现优异，解决了现有模型的性能和效率问题，未来可广泛应用于电影摘要等领域。

🎯

关键要点

智源研究院与多所高校合作推出Video-XL模型，能够高效理解小时级超长视频。
Video-XL仅需一块80G显卡，处理2048帧输入，准确率接近95%。
该模型在长视频理解任务中表现优异，解决了现有模型的性能和效率问题。
Video-XL的模型结构与主流的多模态大模型相似，采用统一的视觉编码机制。
模型通过优化视觉信号的压缩质量进行训练，支持不同的压缩粒度。
Video-XL在多个主流长视频理解评测基准中排名第一，超越了现有的最佳模型。
该模型在短视频理解任务中也表现出色，保持了与现有SOTA模型相当的效果。
Video-XL的代码已开源，旨在促进多模态视频理解研究的合作与技术共享。

❓

延伸问答

Video-XL模型的主要功能是什么？

Video-XL模型能够高效理解小时级超长视频，处理2048帧输入，准确率接近95%。

使用Video-XL模型需要什么样的硬件支持？

Video-XL模型仅需一块80G显卡即可运行。

Video-XL在长视频理解任务中的表现如何？

Video-XL在多个主流长视频理解评测基准中排名第一，超越了现有的最佳模型。

Video-XL模型的代码是否开源？

是的，Video-XL的代码已开源，旨在促进多模态视频理解研究的合作与技术共享。

Video-XL如何解决现有模型的性能和效率问题？

Video-XL通过优化视觉信号的压缩质量和建立统一的视觉编码机制，平衡了性能与效率。

Video-XL模型的应用场景有哪些？

Video-XL可广泛应用于电影摘要、视频异常检测、广告植入检测等领域。

🏷️

继续阅读

原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
程序员盯上了快餐店客服，因为发现它能写代码
快餐店Chipotle的客服机器人Pepper被发现能够写代码，背后是通用人工智能大模型。程序员通过逆向分析其API，创建了名为Chipotlai Max...
[折扣代码] ChatGPT商业版向8个国家用户提供买1送1优惠至少开通2个席位
OpenAI推出ChatGPT商业版促销活动，用户开通两个席位可享买一送一优惠。该服务支持八个国家，价格从18英镑到25美元不等，印度区价格最低，约134...
一千台599美元Mac mini替代H100跑大模型：便宜十倍
一千台599美元的Mac mini可以替代昂贵的H100服务器，具有低成本和低功耗的优势。Mac mini的统一内存架构提升了AI模型的运行效率，适合本地...
停止盲目信任AI生成的代码：一个React代码重构案例研究
Vibe Coding是一种软件开发实践，通过简单的英语描述需求，AI生成源代码。尽管AI工具强大，生成的代码可能存在错误和技术债务，开发者需仔细检查。文...