结构之法算法之道 ·

可语音流畅交互的OneTwoVLA——基于π0实现类π0.5：一个模型中完成原来双系统下的慢思考、快执行，且能自适应推理和自我纠错

💡 原文中文，约4600字，阅读约需11分钟。

📝

内容提要

OneTwoVLA是一种统一的视觉-语言-行动模型，旨在提升机器人推理与执行的协同能力。该模型能够自适应地选择推理或执行动作，支持错误检测与恢复，具备自然的人机交互能力，并能适应新任务，从而显著提升机器人在复杂环境中的表现。

🎯

关键要点

OneTwoVLA是一种统一的视觉-语言-行动模型，旨在提升机器人推理与执行的协同能力。
该模型能够自适应地选择推理或执行动作，支持错误检测与恢复，具备自然的人机交互能力。
OneTwoVLA在关键步骤触发自然语言推理，输出场景描述、任务计划等内容。
该模型通过视觉-语言联合训练显著提升推理能力和泛化能力。
OneTwoVLA的框架支持错误恢复与人机交互，能够实时检测执行错误并调整动作。
该模型设计为通用型，能够让现有的视觉-语言-动作模型以极少的修改集成。
作者提出了一种新颖的机器人数据格式，结合推理区间和执行区间来整理机器人数据。
通过合成富含具身推理的视觉-语言数据，OneTwoVLA具备更强的泛化能力，能够应对多样化场景。

❓

延伸问答

OneTwoVLA模型的主要功能是什么？

OneTwoVLA是一种统一的视觉-语言-行动模型，旨在提升机器人推理与执行的协同能力，能够自适应选择推理或执行动作。

OneTwoVLA如何处理错误检测与恢复？

OneTwoVLA能够实时检测执行错误，并推理出纠正策略，灵活执行恢复操作。

OneTwoVLA在自然人机交互方面有什么优势？

OneTwoVLA具备自然的人机交互能力，能够在人工干预时立即调整动作，并主动寻求澄清。

OneTwoVLA是如何提升推理能力和泛化能力的？

OneTwoVLA通过视觉-语言联合训练显著提升推理能力和泛化能力，能够适应新的任务指令。

OneTwoVLA的自适应推理机制是怎样的？

OneTwoVLA通过引入决策token，能够自主决定何时进行推理或直接执行动作，确保信息丰富的推理与高效的执行。

OneTwoVLA如何处理多样化场景的任务？

OneTwoVLA通过合成富含具身推理的视觉-语言数据，具备更强的泛化能力，能够应对多样化场景。

🏷️

继续阅读

SKAI Intelligence与首尔大学AI研究院开展合作研究
SKAI Intelligence与首尔大学AI研究院签署合作备忘录，联合研究机器人感知与抓取技术，重点包括物理AI核心视觉、多物体识别与位姿估计，以提升...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
一个GPT Plus会员的钱，够机器人跑一个月世界模型了
智在无界推出的Being-H-Flash隐式世界模型，月算力成本仅150元，能够在百TOPS级芯片上实现实时运行。该模型通过潜空间推理，降低了计算开销，提...
[MAF预定义ChatClient中间件-02]FunctionInvokingChatClient——实现ReAct循环和人机交互的大功臣 - Artech
FunctionInvokingChatClient是IChatClient中的关键中间件，驱动Agent执行ReAct循环。ReAct通过分析问题并调用...
NVIDIA通过代理技能推动物理AI研究的新纪元，支持自动驾驶、机器人和视觉AI
NVIDIA推出新一代物理AI代理技能，支持自动驾驶、机器人和视觉AI研究。通过NVIDIA Cosmos 3，研究人员能够加速数据生成、模拟和政策训练，...
VR 社交对音视频有什么要求？拆解 VR 社交的空间音频、范围语音、3D 音效
本文探讨了VR社交中的空间音频和范围语音技术，强调声音的方位和距离对沉浸感的重要性。通过Unity和Unreal引擎的集成，开发者可以实现3D音效和范围语...