京东科技开发者 ·

【京东云】全球首个！京东全栈开源JoyAI-VL-Interaction，让大模型从“一问一答”走向“边看边说”

💡 原文中文，约2900字，阅读约需7分钟。

📝

内容提要

京东近日开源了实时视频视觉语言交互模型JoyAI-VL-Interaction，标志着AI从传统的“一问一答”模式转向“边看边说”。该模型能够持续观察视频流，自主判断并实时响应，适用于安防、翻译等场景，推动AI在物理世界的应用，助力各行业的智能化转型。

🎯

🔎

JoyAI-VL-Interaction模型的核心优势在于其主动判断和实时响应能力。这使得AI能够在关键时刻主动发出警报或提供信息，而不是等待用户提问。这种转变对于安防、翻译等场景尤为重要，因为及时的反应可以显著提高用户体验和安全性。

京东开源的JoyAI-VL-Interaction不仅提供模型权重，还包括完整的技术栈，允许开发者根据需求进行定制。这种开放框架的特性使得它可以广泛应用于不同的实时AI助手场景，如监控、翻译和辅助设备，降低了开发门槛。

JoyAI-VL-Interaction的推出标志着AI技术从数字世界向物理世界的进一步渗透。京东在零售、物流等领域的深厚积累为AI的实际应用提供了丰富的场景，这将推动各行业的智能化转型，提升生产和生活的效率。

❓

JoyAI-VL-Interaction模型能够持续观察视频流，自主判断并实时响应，适用于安防、翻译等场景。

该模型具有主动判断、实时响应和适时智能体委托的三重突破，能够在关键时刻主动回应，而不是被动等待用户提问。

该模型适用于安防监控、实时翻译、直播解说、操作指导等多种实时AI助手场景。

开发者可以基于开源的完整技术栈快速搭建应用，包括模型权重、交互数据集和训练方案。

该模型提供开放框架，支持多种视频输入和语音交互，允许开发者接入自己的语音服务和业务系统。

京东在模型基建方面取得多项进展，包括开源基础大模型JoyAI-LLM Flash和图像模型JoyAI-Image-Edit等。

🏷️