一块显卡理解一部电影,最新超长视频理解大模型出炉!“大海捞针”准确率近95%,代码已开源
💡
原文中文,约4100字,阅读约需10分钟。
📝
内容提要
智源研究院与多所高校合作推出Video-XL模型,能够高效理解小时级超长视频。该模型仅需一块80G显卡,处理2048帧输入,准确率接近95%。Video-XL在长视频理解任务中表现优异,解决了现有模型的性能和效率问题,未来可广泛应用于电影摘要等领域。
🎯
关键要点
- 智源研究院与多所高校合作推出Video-XL模型,能够高效理解小时级超长视频。
- Video-XL仅需一块80G显卡,处理2048帧输入,准确率接近95%。
- 该模型在长视频理解任务中表现优异,解决了现有模型的性能和效率问题。
- Video-XL的模型结构与主流的多模态大模型相似,采用统一的视觉编码机制。
- 模型通过优化视觉信号的压缩质量进行训练,支持不同的压缩粒度。
- Video-XL在多个主流长视频理解评测基准中排名第一,超越了现有的最佳模型。
- 该模型在短视频理解任务中也表现出色,保持了与现有SOTA模型相当的效果。
- Video-XL的代码已开源,旨在促进多模态视频理解研究的合作与技术共享。
➡️