机器人的精细调整简化:自主现实世界强化学习的预训练奖励和策略
原文中文,约300字,阅读约需1分钟。发表于: 。通过使用预训练和微调范式,我们引入 RoboFuME 系统,利用网络上的数据和模型,允许机器人在几乎没有人工干预的情况下学习新任务,并通过利用校准的离线强化学习技术和预训练的视觉语言模型构建健壮的奖励分类器,在线进行微调并提供奖励信号,从而达到最小化人工干预的目标。在五个真实机器人操作任务和模拟实验中,我们的方法表现出色。
RoboFuME是一种机器人学习系统,通过预训练和微调,实现几乎无需人工干预的学习新任务。该系统利用校准的离线强化学习技术和预训练的视觉语言模型构建奖励分类器,在线微调并提供奖励信号,以最小化人工干预。在五个真实机器人操作任务和模拟实验中,该方法表现出色。