小红花·文摘

智源研究院与多所高校合作推出Video-XL模型，能够高效理解小时级超长视频。该模型仅需一块80G显卡，处理2048帧输入，准确率接近95%。Video-XL在长视频理解任务中表现优异，解决了现有模型的性能和效率问题，未来可广泛应用于电影摘要等领域。