小红花·文摘

SmolVLM2-2.2B是一个高效的视频理解模型，能够在普通GPU上运行，适合处理会议记录、讲座和监控视频。它提取视频帧并生成结构化的JSON摘要，提供每帧的场景描述、关键时刻和行动项，表现优异，适合开发者在本地环境中使用。

本地视频摘要管道：使用SmolVLM2-2.2B处理帧

KDnuggets ·

激励自我中心视频理解模型中的时间意识

Apple Machine Learning Research ·

AdaCodec：一种适用于 AI 生成视频的编解码器

实时互动网 ·

将DSA注意力引入多模态，快手Keye2.0开启强化推理新范式

量子位 ·

TrajTok：学习轨迹标记以提升视频理解

Apple Machine Learning Research ·

飞桨星河社区月度报告（2026年1月）

百度大脑 ·

自托管在线文件转换器，千种格式轻松转换 | 开源日报 No.852

开源服务指南 ·

TwelveLabs 在 Amazon Bedrock 上推出 Marengo 3.0 视频理解模型

实时互动网 ·

Uni-MoE-2.0-Omni：基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网 ·

在vLLM上运行NVIDIA Nemotron的多模态推理代理

vLLM Blog ·

剖析视频大语言模型基准：知识、空间感知还是真实的时间理解？

Apple Machine Learning Research ·

ICCV 2025 | 美团论文精选及多模态推理竞赛冠军方法分享

美团技术团队 ·

快手开源了多模态推理模型Keye-VL 1.5，具备128k上下文、0.1秒视频定位和跨模态推理能力。该模型在视频理解和推理方面表现优异，能够准确判断物品出现的时间并详细描述场景，在多个基准测试中取得领先成绩。

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

量子位 ·

SlowFast-LLaVA-1.5：一种高效的长视频理解视频大语言模型家族

Apple Machine Learning Research ·

文心ERNIE-4.5-VL视觉语言模型实现了多模态交互，具备强大的图文和视频理解能力，支持100多种语言。其轻量级版本在多个基准测试中表现优异，适应多种场景，能够快速响应基础任务并深度解决复杂问题。

ERNIE-4.5-VL：技术解密+应用实战，解锁多模态新场景！

百度大脑 ·

南洋理工大学研究团队提出了Video Thinking Test（Video-TT）来评估AI的视频理解能力。研究显示，GPT-4o的准确率仅为36%，远低于人类的84.3%。AI在模糊内容、场景区分和世界知识理解方面存在显著弱点，表明视频理解领域仍需提升。

大模型无法真正理解视频，GPT-4o正确率仅36%，南洋理工大团队提出新基准

量子位 ·

TwelveLabs 视频理解模型现已在 Amazon Bedrock 中推出

亚马逊AWS官方博客 ·

视觉语言模型（VLMs）正在推动多模态理解与推理的发展。智谱AI与清华大学推出的GLM-4.1V-Thinking模型在STEM问题和视频理解等任务中表现出色，尤其在长文档理解和STEM推理方面与GPT-4o相当或更优，展现了强大的多功能性，推动了智能系统的进步。

AI 论文周报 | Chai-2刷新抗体设计效率，命中率提高100倍；多篇ICML入围论文一键速览

HyperAI超神经 ·

Gemini负责人Ani Baddepudi在访谈中强调了视觉在构建通用人工智能中的重要性，介绍了Gemini多模态技术的设计理念与应用。Gemini模型从一开始就支持文本、图像和视频等多种信息处理。Gemini 2.5在视频理解方面表现优异，解决了鲁棒性问题，并整合了多项视觉能力。未来，团队将专注于提升模型的自然交互性和用户体验。

Gemini负责人爆料！多模态统一token表示，视觉至关重要

量子位 ·

Meta 发布 J-VEPA 2 AI 模型，可通过视频了解世界

实时互动网 ·