机器之心 ·

多榜单登顶！华为 & 哈工深团队提出 AdaReTaKe，突破长视频理解极限

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

哈尔滨工业大学与华为联合提出了AdaReTaKe框架，解决长视频理解中的冗余问题。该框架无需训练，通过动态压缩视频信息，使多模态模型处理长度提升至2048帧，性能在多个基准测试中超越同规模模型3-5%。此研究为长视频理解设立了新标杆。

🎯

🔎

随着视频内容在各领域的广泛应用，长视频理解能力变得尤为重要。它不仅对智慧安防和智能体的长期记忆至关重要，还能提升多模态深度思考能力。这一研究为相关领域提供了新的技术支持，推动了长视频理解的进步。

AdaReTaKe框架通过动态压缩冗余信息，显著提升了多模态模型处理长视频的能力。与传统方法相比，它无需训练，能够在相同计算资源下处理更多帧，展现出更高的效率和准确性。这一创新为长视频理解设立了新的标杆。

未来的研究可以集中在设计原生视频压缩模块和智能分块策略上，以进一步提升长视频理解的效率。此外，结合音频和文本等多模态信号，构建综合评估指标，将有助于实现更精准的冗余评估和压缩。

❓

AdaReTaKe框架主要用于解决长视频理解中的冗余问题，通过动态压缩视频信息，使多模态模型处理长度提升至2048帧。

AdaReTaKe在多个基准测试中超越同规模模型3-5%，在VideoMME、MLVU、LongVideoBench和LVBench四个榜单中表现优异。

AdaReTaKe通过动态分配压缩率，优化视频序列的处理能力，从而减少显存开销，处理更长的视频。

AdaReTaKe的设计思路是通过动态压缩和分块处理视频序列，确保在相同计算资源下尽可能多地保留有信息量的信息。

未来研究方向包括设计原生视频压缩模块、智能分块策略和多模态联合优化，以提升长视频理解的效率。

AdaReTaKe通过动态压缩视频冗余信息，识别并保留关键信息，同时过滤冗余帧，从而提高长视频理解能力。

🏷️