量子位 ·

视频理解新标杆，快手多模态推理模型开源：128k上下文+0.1秒级视频定位+跨模态推理

💡 原文中文，约4500字，阅读约需11分钟。

📝

内容提要

快手开源了多模态推理模型Keye-VL 1.5，具备128k上下文、0.1秒视频定位和跨模态推理能力。该模型在视频理解和推理方面表现优异，能够准确判断物品出现的时间并详细描述场景，在多个基准测试中取得领先成绩。

🎯

关键要点

快手开源了多模态推理模型Keye-VL 1.5，具备128k上下文和0.1秒视频定位能力。
Keye-VL 1.5在视频理解和推理方面表现优异，能够准确判断物品出现的时间并详细描述场景。
该模型在多个基准测试中取得领先成绩，特别是在Video-MME短视频基准中获得73.0的高分。
Keye-VL 1.5采用Slow-Fast双路编码机制，兼顾速度与细节，支持跨模态推理。
模型架构为视觉Transformer（ViT）+MLP投影器+语言解码器，增强了视觉特征的语义对齐能力。
预训练采用四阶段渐进流水线，强化视觉理解能力并引入长上下文模态数据。
Keye团队在多个顶会上发布了多项成果，展示了其在多模态大语言模型研发方面的实力。
Keye-VL 1.5的技术正在为短视频内容审核、智能剪辑等业务场景提供底层AI能力。

❓

延伸问答

Keye-VL 1.5模型的主要特点是什么？

Keye-VL 1.5模型具备128k上下文、0.1秒视频定位和跨模态推理能力，表现优异。

Keye-VL 1.5在视频理解方面的表现如何？

该模型能够准确判断物品出现的时间并详细描述场景，在多个基准测试中取得领先成绩。

Keye-VL 1.5是如何实现跨模态推理的？

模型采用Slow-Fast双路编码机制，结合视觉Transformer和语言解码器，增强了视觉特征的语义对齐能力。

Keye-VL 1.5在Benchmark测试中的表现如何？

在Video-MME短视频基准中，Keye-VL 1.5获得73.0的高分，并在多个基准中领跑同级模型。

Keye-VL 1.5的预训练过程是怎样的？

预训练采用四阶段渐进流水线，先进行视觉编码器预训练，再进行跨模态对齐和多任务预训练，最后进行退火训练。

Keye-VL 1.5的应用场景有哪些？

该模型正在为短视频内容审核、智能剪辑等业务场景提供底层AI能力。

🏷️

继续阅读

大语言模型推理三难问题：吞吐量、延迟与成本
本文探讨了大语言模型（LLM）推理中的成本、延迟和吞吐量之间的权衡，强调了硬件选择、模型架构和量化等因素对优化的影响。理解成本的多维特性和优化策略对于有效...
科大讯飞发布燎原N30m笔记本，重塑全栈国产AIPC新标杆
科大讯飞发布了讯飞星火·燎原N30m笔记本，专注于移动办公，具备轻薄设计、超长续航和AI原生能力。核心是耀天智能体，提供智能办公助手以提升工作效率。该产品...
香港科创标杆奖项！商汤首席科学家林达华荣获中银香港科创奖
商汤科技首席科学家林达华教授因其在人工智能领域的贡献荣获中银香港科技创新奖。他在计算机视觉和多模态智能方面取得了多项突破，推动了技术创新与产业应用。林教授...
把家里的游戏带出门：开源本地串流方案 Sunshine 上手指南
公有云游戏串流服务如GeForce NOW使得在手机和平板上玩3A大作成为可能，但对网络质量要求高。Sony PlayStation Portal和本地串...
深入了解 Facebook 的视频分发系统
本文介绍了Facebook视频内容分发的统一系统，优化了用户体验，提升了个性化和响应速度。该系统整合了Watch和Reels的功能，简化了开发流程，确保用...
【开源许可与版权工程】开源战略：什么时候开源、选哪个协议、如何构建商业壁垒
本文讨论了多个开源项目和许可证，如OpenTofu、Redis和MongoDB，强调开源许可的多样性及其对企业，特别是在云计算环境中的应用和策略选择的影响。