BriefGPT - AI 论文速递 ·

视频 - 语言评论家：用于语言条件机器人的可转移奖励函数

📝

内容提要

基于视频 - 语言评论家的奖励模型，可以在现有的跨体现数据上进行训练，使用对比学习和时间排序目标，对来自单独强化学习执行者的行为轨迹进行评分。在 Meta-World 任务中，通过在 Open X-Embodiment 数据上训练奖励模型，实现了比仅稀疏奖励模型更高效的策略训练，尽管存在显著的领域差异。使用 Meta-World...

🏷️

视频 - 语言评论家：用于语言条件机器人的可转移奖励函数

内容提要

标签

继续阅读