RT-2模型将预训练的视觉-语言大模型集成到机器人的低级控制中,以提高泛化能力和语义推理。RT-2具备多模态推理能力,优于基线模型。然而,由于数据集限制,RT-2无法学习新的行为。
OpenAI与Figure合作推出了人形机器人,可以与人类自然对话并完成任务。机器人通过图像和语音输入,经过OpenAI的多模态模型处理后,输出语言和行为结果。机器人的动作预测和执行分为两步,首先进行常识推理得出高级计划,然后通过大模型生成动作,由全身控制器跟踪。机器人的行为由Transformer策略驱动。
通过在互联网数据上训练视觉语言模型,将其融入机器人控制,提高泛化能力和语义推理。RT-2在训练中获得新能力,包括对新对象的泛化、解释不在训练数据中的命令和初步推理用户指令。RT-2还可进行多阶段的语义推理。
完成下面两步后,将自动完成登录并继续当前操作。