小红花·文摘

Video-XL-Pro模型由联合研究团队推出，突破了超长视频理解的瓶颈，单卡处理近万帧视频，准确率超过98%。该模型采用重构式token压缩技术，使用少量数据训练，性能超越多个7B模型，展现出卓越的长视频理解能力，已开源以促进相关研究。

量子位 ·

本文介绍了一系列新的视频处理和图像识别方法，包括元学习、动态变压器和基于可微压缩率的token压缩。这些方法在提升性能的同时，降低了计算复杂度和推理成本，展现了在视频理解和生成领域的广泛应用潜力。

BriefGPT - AI 论文速递 ·