量子位 ·

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

快手推出了Keye-VL-671B-A37B多模态大语言模型，具备强大的视觉理解和视频感知能力，能够准确识别图像和视频细节并进行复杂推理，表现优于同类产品。未来将增强多轮工具调用能力，推动更深层次的视觉思考与推理。

🎯

关键要点

快手推出Keye-VL-671B-A37B多模态大语言模型，具备强大的视觉理解和视频感知能力。
Keye-VL模型在视觉感知、跨模态对齐与复杂推理方面进行了系统升级。
模型能够准确识别图像和视频细节，并进行复杂推理，表现优于同类产品。
Keye-VL在图像语义理解方面表现可靠，能够克服视觉错觉问题。
在视频理解方面，Keye-VL能够精准把握视频细节和时序信息。
Keye-VL-671B-A37B已正式开源，欢迎下载体验。
模型采用DeepSeek-V3-Terminus作为基础，具备强大的文本推理能力。
预训练涵盖三个阶段，系统化构建多模态理解与推理能力。
后训练包括监督微调、冷启动和强化学习三个步骤，涵盖多种任务。
采用GSPO算法提升强化学习训练的稳定性。
Keye-VL在多项核心benchmark中表现突出，具备强大的视觉理解与推理能力。
未来将增强多轮工具调用能力，推动更深层次的视觉思考与推理。

❓

延伸问答

Keye-VL-671B-A37B模型的主要功能是什么？

Keye-VL-671B-A37B模型具备强大的视觉理解和视频感知能力，能够准确识别图像和视频细节并进行复杂推理。

Keye-VL模型如何克服视觉错觉问题？

Keye-VL能够识别图像中的细节并进行推理，准确判断哪些是电影票，哪些是其他物品，从而克服视觉错觉。

Keye-VL在视频理解方面的表现如何？

Keye-VL在视频理解中能够精准把握视频细节和时序信息，分析镜头变化并识别视频中的元素。

Keye-VL-671B-A37B模型的训练过程是怎样的？

模型的训练过程包括预训练和后训练，涵盖监督微调、冷启动和强化学习三个步骤，系统化构建多模态理解与推理能力。

Keye-VL模型在多模态任务中的表现如何？

Keye-VL在多项核心benchmark中表现突出，具备强大的视觉理解与推理能力，适用于多种多模态任务。

未来Keye-VL模型有哪些发展方向？

未来Keye-VL将增强多轮工具调用能力，推动更深层次的视觉思考与推理，向更通用的多模态智能系统迈进。

🏷️

继续阅读

OpenAI开源发布1.5B的隐私过滤模型可以精确识别文本中包含的个人隐私信息
OpenAI 发布了隐私过滤模型 Privacy Filter，能够精准识别并清除个人隐私信息，如姓名、电话和邮箱。该模型体积小，适合在普通设备上运行，并...
平民价格用旗舰模型的窗口期结束了
2024年底至2025年初，AI编程工具价格异常低廉，吸引了许多开发者。随着市场回归正常，平台逐步提高价格，导致用户账单激增。AI行业面临成本上升与盈利压...
⚠️重要安全提醒：开源密码管理器Bitwarden CLI命令行工具遭到供应链攻击
开源密码管理器Bitwarden的CLI工具遭到供应链攻击，相关NPM包被植入恶意代码，可能窃取用户敏感信息。用户应检查CI日志并更换暴露的令牌。目前确认...
派早报：OpenAI 发布 GPT-5.5 系列模型等
OpenAI 发布了 GPT-5.5 系列模型，提升了代码编写、在线研究和文档生成能力，支持复杂任务的自动处理。新模型降低了 token 使用量，并增强了...
OpenAI表示其新模型GPT-5.5在编码方面更高效且表现更佳
OpenAI发布了新模型GPT-5.5，称其为“最智能、最直观”的版本，特别擅长编写和调试代码、在线研究及处理多工具任务。该模型具备更强的安全防护，能用更...
人工智能缩水：为何Anthropic的Claude Opus 4.7可能不如其替代模型
Anthropic发布的Claude Opus 4.7模型引发用户不满，因其在复杂推理和分析方面表现不佳，用户反映模型常常自我怀疑，导致效率低下。分析师认...