Ai2发布了开源视频语言模型Molmo 2,支持多图像和视频输入,允许用户进行端到端研究,强调开源的重要性,适合企业使用,关注数据透明性和责任。
本研究提出了一种新型视频分析系统AVA,基于视频语言模型(VLM),旨在提升开放性分析场景的适应性。AVA通过实时构建事件知识图谱和代理检索生成机制,显著改善复杂查询的表现,并在多个基准测试中超越现有系统,展示了处理超长视频内容的潜力。
本研究针对视频语言模型ResNetVLLM中的多模态幻觉问题,提出了改进的Lynx模型和动态知识库策略。实验结果表明,ResNetVLLM-2的准确率从54.8%提升至65.3%,显著增强了模型的可靠性。
本研究提出了一种名为差异蒸馏的方法,旨在降低视频语言模型处理长视频的计算成本。通过差异关键帧选择和特征合并机制,开发了ViLaMP模型,能够在单个NVIDIA A100 GPU上高效处理最多10K帧的视频,并在多个视频理解基准测试中表现优异。
本研究提出了一种新的即插即用KV缓存量化方法VidKV,旨在解决视频大型语言模型在处理长视频时的内存瓶颈问题。该方法将KV缓存压缩至低于2位,并通过通道级别量化实现精度与性能的平衡。
本研究提出了一种时间标记器,解决了视频语言模型在时间定位上的不足。通过引入时间分隔符和AnyLength机制,适应不同长度的视频,评估结果显示其在视频理解中的优异表现。
本研究提出了VCBench基准,旨在评估大型视频语言模型在抽象概念下的认知能力。结果显示,先进模型在简单视频认知任务中的表现显著下降,凸显了VCBench的重要性。
我们开发了PlausiVL,一个视频语言模型,通过反事实学习和行动重复损失来研究行动序列的可行性。模型利用时态逻辑和动词-名词约束生成不可信的行动序列,以区分可行与不可行的序列。在Ego4D和EPIC-Kitchens-100数据集上的评估显示,该方法在行动预测任务中有显著提升。
VELOCITI是用于测试视频语言模型的新基准,结果显示当前最先进的模型在感知测试上表现良好,但在绑定测试上准确性接近随机,表明它们在绑定测试中失败。
完成下面两步后,将自动完成登录并继续当前操作。