在真实环境中微调离线世界模型
原文约300字/词,阅读约需1分钟。发表于: 。通过使用离线数据集在真实机器人上对世界模型进行预训练,然后通过使用学习模型进行在线数据集的规划和微调,本文试图解决强化学习在真实机器人上训练时的数据效率问题,以及模型在训练和推理过程中的分布偏移问题,该方法在模拟环境和真实机器人上的视觉 - 动作控制任务上进行了验证,发现即使离线数据有限,该方法也能实现对已知和未知任务的少次数微调。
本文介绍了一种解决强化学习在真实机器人上训练时数据效率和分布偏移问题的方法。该方法通过使用离线数据集在真实机器人上对世界模型进行预训练,然后使用学习模型进行在线数据集的规划和微调。该方法在模拟环境和真实机器人上的视觉-动作控制任务上进行了验证,发现即使离线数据有限,该方法也能实现对已知和未知任务的少次数微调。