视频 - 语言评论家:用于语言条件机器人的可转移奖励函数

📝

内容提要

基于视频 - 语言评论家的奖励模型,可以在现有的跨体现数据上进行训练,使用对比学习和时间排序目标,对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中,通过在 Open X-Embodiment 数据上训练奖励模型,实现了比仅稀疏奖励模型更高效的策略训练,尽管存在显著的领域差异。使用 Meta-World...

🏷️

标签

➡️

继续阅读