小红花·文摘

Video-XL-Pro模型由联合研究团队推出，突破了超长视频理解的瓶颈，单卡处理近万帧视频，准确率超过98%。该模型采用重构式token压缩技术，使用少量数据训练，性能超越多个7B模型，展现出卓越的长视频理解能力，已开源以促进相关研究。