量子位 ·

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

💡 原文中文，约4200字，阅读约需10分钟。

📝

内容提要

快手推出了Keye-VL-671B-A37B多模态大语言模型，具备强大的视觉理解和视频感知能力，能够准确识别图像和视频细节并进行复杂推理，表现优于同类产品。未来将增强多轮工具调用能力，推动更深层次的视觉思考与推理。

🎯

关键要点

快手推出Keye-VL-671B-A37B多模态大语言模型，具备强大的视觉理解和视频感知能力。
Keye-VL模型在视觉感知、跨模态对齐与复杂推理方面进行了系统升级。
模型能够准确识别图像和视频细节，并进行复杂推理，表现优于同类产品。
Keye-VL在图像语义理解方面表现可靠，能够克服视觉错觉问题。
在视频理解方面，Keye-VL能够精准把握视频细节和时序信息。
Keye-VL-671B-A37B已正式开源，欢迎下载体验。
模型采用DeepSeek-V3-Terminus作为基础，具备强大的文本推理能力。
预训练涵盖三个阶段，系统化构建多模态理解与推理能力。
后训练包括监督微调、冷启动和强化学习三个步骤，涵盖多种任务。
采用GSPO算法提升强化学习训练的稳定性。
Keye-VL在多项核心benchmark中表现突出，具备强大的视觉理解与推理能力。
未来将增强多轮工具调用能力，推动更深层次的视觉思考与推理。

🏷️

继续阅读

我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
认知的远点
这篇科幻小说探讨了大型语言模型（LLM）作为工具的本质，强调人类探求“为什么知道”的重要性。在短视频时代，人类难以创造新语言，文字并非唯一的表达方式。通过...
如何使用GitHub安全实验室的开源AI驱动框架扫描安全漏洞
我们利用GitHub安全实验室的任务流代理，成功发现80多个开源项目中的高影响力安全漏洞，主要涉及授权绕过和信息泄露。新任务流提高了结果验证和报告发布的效...
Anthropic与OpenAI争夺最佳开源维护者
如果Anthropic项目招募到10,000名开发者，预计价值约1200万美元。对于刚融资300亿美元的公司而言，这笔费用不算高，但能获得维护者的支持，推...
黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异，超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的...
免费无限量的 GLM-5、Qwen3.5-398B 模型，AtomGit 限时免费
AtomGit推出限时活动，用户可免费使用GLM-5和Qwen3.5-398B模型。但OpenClaw的上下文限制为16K，可能存在设置错误。注册后可调用...

视频理解霸榜！快手Keye-VL旗舰模型重磅开源，多模态视频感知领头羊

内容提要

关键要点

标签

继续阅读