本文介绍了一种解决强化学习在真实机器人上训练时数据效率和分布偏移问题的方法。该方法通过使用离线数据集在真实机器人上对世界模型进行预训练,然后使用学习模型进行在线数据集的规划和微调。该方法在模拟环境和真实机器人上的视觉-动作控制任务上进行了验证,发现即使离线数据有限,该方法也能实现对已知和未知任务的少次数微调。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: