本文介绍了基于无模型视觉强化学习的变形物体操作问题,通过迭代拾取-放置空间和显式学习放置策略加速学习,使用MVP选择策略,比独立空间快一个数量级的学习,通过领域随机化将策略转移到PR2机器人上,对布料和绳索覆盖任务进行了实验验证。
完成下面两步后,将自动完成登录并继续当前操作。