量子位 ·

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

快手开源了多模态推理模型Keye-VL 1.5，具备128k上下文、0.1秒视频定位和跨模态推理能力。该模型在视频理解和推理方面表现优异，能够准确判断物品出现的时间并详细描述场景，在多个基准测试中取得领先成绩。

🎯

关键要点

快手开源了多模态推理模型Keye-VL 1.5，具备128k上下文和0.1秒视频定位能力。
Keye-VL 1.5在视频理解和推理方面表现优异，能够准确判断物品出现的时间并详细描述场景。
该模型在多个基准测试中取得领先成绩，特别是在Video-MME短视频基准中获得73.0的高分。
Keye-VL 1.5采用Slow-Fast双路编码机制，兼顾速度与细节，支持跨模态推理。
模型架构为视觉Transformer（ViT）+MLP投影器+语言解码器，增强了视觉特征的语义对齐能力。
预训练采用四阶段渐进流水线，强化视觉理解能力并引入长上下文模态数据。
Keye团队在多个顶会上发布了多项成果，展示了其在多模态大语言模型研发方面的实力。
Keye-VL 1.5的技术正在为短视频内容审核、智能剪辑等业务场景提供底层AI能力。

🏷️

继续阅读

如何使用GitHub安全实验室的开源AI驱动框架扫描安全漏洞
我们利用GitHub安全实验室的任务流代理，成功发现80多个开源项目中的高影响力安全漏洞，主要涉及授权绕过和信息泄露。新任务流提高了结果验证和报告发布的效...
Anthropic与OpenAI争夺最佳开源维护者
如果Anthropic项目招募到10,000名开发者，预计价值约1200万美元。对于刚融资300亿美元的公司而言，这笔费用不算高，但能获得维护者的支持，推...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
[更新] Codex使用GPT-5.4支持1M上下文超过272K将按照2X计算倍率
OpenAI推出新模型GPT-5.4，支持Codex，最大上下文窗口为1M。开发者可启用快速模式，速度提升1.5倍，但配额按2倍计算。OpenAI提供双倍...
三星的APV视频编解码器将应用于vivo X300 Ultra
vivo将在2026年世界移动通信大会发布旗舰手机X300 Ultra，支持三星APV编解码器，能高效录制高质量视频并节省存储空间。该手机搭载高通骁龙8 ...
【音视频】C++ 实现视频编码与解码
在Android NDK开发中，使用C++调用MediaCodec进行视频编码和解码。编码流程包括初始化编码器、配置参数、输入YUV数据并获取H.264输...

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

内容提要

关键要点

标签

继续阅读