量子位 ·

CVPR 2026最热方向，被一家杭州团队率先跑进了端侧！

💡 原文中文，约4900字，阅读约需12分钟。

📝

内容提要

Om AI发布全球首个端侧流式多模态模型VLX，旨在实现持续感知、精准定位和行动决策。VLX包含三款模型：Flow负责实时感知，Seek进行精确定位，Go实现行动。该系统专为物理世界设计，能够在手机、无人机等设备上高效运行，满足实时响应需求。

🎯

🔎

VLX的端侧设计使其能够在手机、无人机等设备上高效运行，满足实时响应需求。这种设计不仅减少了对云端计算的依赖，还能在网络不稳定或隐私敏感的场景中保持稳定性，确保模型能够在物理世界中持续感知和快速行动。

Om AI选择从一开始就围绕端侧算力约束设计VLX，而不是将云端模型压缩到端侧。这种创新的技术路线使得VLX在处理实时视频流时，能够实现更低的延迟和更高的效率，适应动态环境的需求。

随着VLM/多模态相关研究的快速增长，VLX的发布标志着这一领域向持续感知和实时行动的转变。未来，端侧多模态模型将越来越多地应用于机器人、无人机等具身智能设备，推动AI在物理世界的实际应用。

❓

VLX模型旨在实现持续感知、精准定位和行动决策。

VLX包含Flow、Seek和Go三个子模型，Flow负责实时感知，Seek进行精确定位，Go实现行动。

VLX模型需要在端侧运行以满足物理世界中实时感知和快速响应的需求，避免延迟。

VLX-Flow采用流式处理，持续更新视觉状态，解决动态环境中的感知问题。

VLX-Seek通过生成候选区域来提高定位精度，避免了传统方法的速度慢和偏差问题。

Om AI团队是国内最早布局多模态模型的团队之一，创始人赵天成是CMU计算机博士，团队成员来自多所知名机构。

🏷️