小红花·文摘

本文介绍了一种名为MOO的方法，该方法通过预训练的视觉-语言模型，从自然语言命令和图像中提取目标信息，应用于机器人操作。研究表明，该方法能够在真实环境中实现零样本推广，学习多样化的操控技能，并提高机器人在复杂任务中的成功率。