小红花·文摘

OneTwoVLA是一种统一的视觉-语言-行动模型，旨在提升机器人推理与执行的协同能力。该模型能够自适应地选择推理或执行动作，支持错误检测与恢复，具备自然的人机交互能力，并能适应新任务，从而显著提升机器人在复杂环境中的表现。

可语音流畅交互的OneTwoVLA——基于π0实现类π0.5：一个模型中完成原来双系统下的慢思考、快执行，且能自适应推理和自我纠错

结构之法算法之道 ·

本研究提出了一种新颖的视觉-语言-行动模型FSD，旨在解决机器人操作中的泛化问题。FSD通过空间关系推理生成中间表示，显著提高了零-shot机器人操作任务的成功率。

从视觉到行动：连接推理与决策以实现机器人操作

BriefGPT - AI 论文速递 ·

谷歌DeepMind推出基于Gemini 2.0的Gemini Robotics和Gemini Robotics-ER模型，旨在提升机器人在现实世界中的应用能力。Gemini Robotics具备先进的视觉-语言-行动能力，能够适应多种环境并执行复杂任务；而Gemini Robotics-ER专注于空间理解，增强机器人控制能力。这两者的结合提升了机器人的互动性和灵活性，推动了安全性研究，助力下一代人形机器人发展。

Gemini Robotics将人工智能引入物理世界

Google DeepMind Blog ·

Yevgen Chebotar提出的机器人变换器2（RT-2）是一种新型视觉-语言-行动（VLA）模型，结合网络和机器人数据，能够生成通用的机器人控制指令。RT-2在理解新命令和执行复杂任务方面表现出色，能够进行多阶段推理，显著提高机器人在未见环境中的表现。

RT-2：新模型将视觉和语言转化为行动

Google DeepMind Blog ·