量子位 ·

Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型

💡 原文中文，约1000字，阅读约需3分钟。

📝

内容提要

Om AI发布了全球首个面向物理世界的流式多模态模型系列VLX，包括VLX-Flow、VLX-Seek和VLX-Go，分别用于持续感知、精准定位和行动执行。该系列通过流式编码和增量推理，支持动态环境下的即时反应，提升AI在物理世界的自主工作能力。

🎯

🔎

VLX系列模型的推出标志着AI技术在物理世界应用中的一次重大突破。与传统模型不同，VLX通过流式编码实现实时感知，能够在动态环境中快速响应。这种创新不仅提升了AI的自主工作能力，也为未来的智能设备提供了更高效的操作方式。

VLX系列特别针对物理世界的三个约束进行设计：时间连续性、环境动态变化和终端算力限制。这种针对性的设计使得模型在实际应用中更具实用性，能够在复杂环境中保持高效的感知与决策能力，适应各种实时需求。

VLX系列由VLX-Flow、VLX-Seek和VLX-Go三款模型协同工作，形成完整的感知、定位和行动闭环。这种协同不仅提高了系统的整体效率，也使得AI在执行任务时能够更灵活地应对突发情况，展现出更强的适应能力。

❓

VLX系列模型包括VLX-Flow、VLX-Seek和VLX-Go，分别用于持续感知、精准定位和行动执行。

VLX-Flow通过增量编码与缓存推理机制，像人一样持续观察环境并快速响应提问。

VLX-Seek通过区域检索将坐标生成转化为选区域的方式，为端侧设备提供可靠的空间感知能力。

VLX-Go负责将视觉理解转化为机器人可执行的短时航点与运动轨迹，实现自主行动。

VLX系列模型设计时考虑了时间连续性、环境动态变化和终端算力限制，具备流式推理和轻量化等优势。

流式多模态模型以连续流的方式处理信息，而传统模型则是一次性离线处理整段视频。

🏷️