小红花·文摘

RT-2模型将预训练的视觉-语言大模型集成到机器人的低级控制中，以提高泛化能力和语义推理。RT-2具备多模态推理能力，优于基线模型。然而，由于数据集限制，RT-2无法学习新的行为。

具身智能之RT2

六虎 ·

OpenAI与Figure合作推出了人形机器人，可以与人类自然对话并完成任务。机器人通过图像和语音输入，经过OpenAI的多模态模型处理后，输出语言和行为结果。机器人的动作预测和执行分为两步，首先进行常识推理得出高级计划，然后通过大模型生成动作，由全身控制器跟踪。机器人的行为由Transformer策略驱动。

视觉语言机器人的大爆发：从RT2、VoxPoser、OK-Robot到Figure 01、清华CoPa

结构之法算法之道 ·

通过在互联网数据上训练视觉语言模型，将其融入机器人控制，提高泛化能力和语义推理。RT-2在训练中获得新能力，包括对新对象的泛化、解释不在训练数据中的命令和初步推理用户指令。RT-2还可进行多阶段的语义推理。

AutoRT: 机器人代理大规模编排的体现模型

BriefGPT - AI 论文速递 ·