本文介绍了一种名为MOO的方法,该方法通过预训练的视觉-语言模型,从自然语言命令和图像中提取目标信息,应用于机器人操作。研究表明,该方法能够在真实环境中实现零样本推广,学习多样化的操控技能,并提高机器人在复杂任务中的成功率。
完成下面两步后,将自动完成登录并继续当前操作。