TwelveLabs于2025年12月1日发布了Marengo 3.0视频基础模型,具备视频理解、物体追踪和时空推理功能,存储成本降低50%,索引速度提升2倍。该模型支持多模态查询,适用于体育、媒体和公共安全等领域,现可通过Amazon Bedrock访问。
本研究提出Mavors框架,旨在解决多模态大语言模型在长视频理解中的计算效率与细粒度时空模式保持之间的矛盾。通过多粒度视频表示方法,显著提升了复杂运动和不同分辨率视频的时空推理性能。
本文研究了图像到视频的传递学习,提出了Spatio-Temporal Adapter,能够以较低成本实现动态视频内容的时空推理。该适配器在少样本动作识别中表现优越,采用双通道架构和时空注意力模块,显著提升了模型性能,适用于复杂场景。
该研究聚焦于音频-视觉问答(AVQA)任务,构建了MUSIC-AVQA v2.0数据集,并提出了新的基线模型,准确性超越现有标准。研究表明,通过多模态知识和时空推理,该方法在问题回答性能上具有显著优势。
本文研究音视频问答(AVQA)任务,提出了MUSIC-AVQA数据集及多模态知识和时空推理方法,显著提高了问题回答的准确性和效率。实验结果显示,该方法在多个数据集上优于现有技术。
完成下面两步后,将自动完成登录并继续当前操作。