ROSO: 通过合成观测改进机器人政策推断 我们提出使用生成人工智能(AI)来改变推理过程中的观察,以提高预训练策略的零样本性能,并通过稳定的扩散来预处理机器人对新对象的观察,从而在未经漫长微调的情况下提高机器人的适应能力。 本文讨论了将追逐-逃避互动中的机器人行为问题转化为监督学习问题的方法。通过使用可观测的机器人策略生成监督信号,研究发现监督信号的质量与逃避者行为的多样性和最优性的平衡以及建模假设的强度有关。实验中,他们在一台带有RGB-D相机的四足机器人上部署了这个策略,并成功应对了各种挑战。 四足机器人 机器人 机器人行为 监督信号 监督学习 观测 追逐-逃避互动