TwelveLabs于2025年12月1日发布了Marengo 3.0视频基础模型,具备视频理解、物体追踪和时空推理功能,存储成本降低50%,索引速度提升2倍。该模型支持多模态查询,适用于体育、媒体和公共安全等领域,现可通过Amazon Bedrock访问。
本研究提出Mavors框架,旨在解决多模态大语言模型在长视频理解中的计算效率与细粒度时空模式保持之间的矛盾。通过多粒度视频表示方法,显著提升了复杂运动和不同分辨率视频的时空推理性能。
完成下面两步后,将自动完成登录并继续当前操作。