Google DeepMind Blog ·

RT-2：新模型将视觉和语言转化为行动

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

Yevgen Chebotar提出的机器人变换器2（RT-2）是一种新型视觉-语言-行动（VLA）模型，结合网络和机器人数据，能够生成通用的机器人控制指令。RT-2在理解新命令和执行复杂任务方面表现出色，能够进行多阶段推理，显著提高机器人在未见环境中的表现。

🎯

关键要点

Yevgen Chebotar提出的机器人变换器2（RT-2）是一种新型视觉-语言-行动（VLA）模型，结合网络和机器人数据，能够生成通用的机器人控制指令。
RT-2在理解新命令和执行复杂任务方面表现出色，能够进行多阶段推理，显著提高机器人在未见环境中的表现。
RT-2通过将动作表示为模型输出中的标记，解决了机器人控制的挑战，使其能够直接预测机器人执行的动作。
RT-2在处理未见对象和环境时表现出显著的泛化能力，成功率从RT-1的32%提高到62%。
通过链式思维推理，RT-2能够学习长时间规划和低级技能，结合视觉和语言命令进行更复杂的任务。
RT-2展示了视觉-语言模型（VLM）转变为强大的视觉-语言-行动（VLA）模型的潜力，能够直接控制机器人并执行多样化的任务。

❓

延伸问答

RT-2模型的主要功能是什么？

RT-2模型结合视觉和语言数据，生成通用的机器人控制指令，能够理解新命令并执行复杂任务。

RT-2在处理未见对象时的表现如何？

RT-2在处理未见对象和环境时的成功率从RT-1的32%提高到62%，显示出显著的泛化能力。

RT-2如何实现多阶段推理？

RT-2通过链式思维推理，能够进行多阶段语义推理，结合视觉和语言命令执行复杂任务。

RT-2与之前的RT-1模型相比有什么改进？

RT-2在理解新命令和执行复杂任务方面表现更好，且在未见环境中的成功率显著提高。

RT-2是如何处理机器人控制的挑战的？

RT-2通过将动作表示为模型输出中的标记，解决了机器人控制的挑战，使其能够直接预测机器人执行的动作。

RT-2在实际应用中表现如何？

RT-2在模拟环境中的成功率达到90%，在真实世界中也能有效处理未见对象，展示了良好的泛化能力。

🏷️

标签

多阶段推理机器人变换器机器人性能视觉-语言-行动通用控制指令

➡️

继续阅读

OpenAI官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台HuggingFace
#安全资讯 OpenAI 官方证实内部测试模型越狱并自主挖掘漏洞入侵开源平台 Hugging Face，这起黑客攻击事件源头竟然是 OpenAI 测试模型...
法院批准A社与作者和出版社的15亿美元和解协议初步解决A社使用盗版图书训练模型问题
#人工智能法院批准 A 社与作者和出版社的 15 亿美元和解协议，初步解决 A 社使用盗版书籍训练模型的集体诉讼案件。法庭文件显示，A 社建立拥有 70...
有传言称谷歌正在研发名为Frozen v2的芯片将AI模型部分蚀刻到芯片上提高吞吐量
#人工智能谷歌也尝试将模型权重直接蚀刻到硅晶片中，谷歌正在研发的 Frozen v2 芯片 token 吞吐量是谷歌现有 TPU 单元的 6~10 倍。...
RoboTTT——面向机器人策略的上下文扩展：将TTT集成至VLA中以推理时建立记忆信息，从而将视觉-运动上下文扩展到 8K 个时间步
摘要：本文提出RoboTTT方法，通过将测试时训练（TTT）机制整合到机器人基础模型中，实现了8K时间步的长视觉-运动上下文建模。该方法采用快速权重机制，...
维特根斯坦语言游戏：彻底击碎本质主义思维陷阱
语言游戏揭穿本质主义骗局，你还在找事物的唯一答案吗？你还在追问本质吗？维特根斯坦的哲学颠覆了传统本质主义，他通过语言游戏和家族相似性概念指出，事物没有固...
Presentation: From Copy-Paste to Composition: Building Agents Like Real Software
Jake Mannix discusses moving AI agents past chaotic "1970s BASIC" arc...