智源研究院与多所高校合作推出Video-XL模型,能够高效理解小时级超长视频。该模型仅需一块80G显卡,处理2048帧输入,准确率接近95%。Video-XL在长视频理解任务中表现优异,解决了现有模型的性能和效率问题,未来可广泛应用于电影摘要等领域。
完成下面两步后,将自动完成登录并继续当前操作。