AIRS是一种用于强化学习的自动内在奖励方法。它通过实时估计任务返回值来选择奖励函数,激励探索并消除偏见。在Procgen游戏和DeepMind控制套件的测试中,AIRS表现优于基准方案。
AIRS是一种用于强化学习的自动内在奖励塑造方法,通过实时估计任务返回值来选择适当的奖励函数,提供可靠的探索激励并消除偏见目标问题。AIRS在Procgen游戏和DeepMind控制套件中的模拟中表现优于基准方案,且具有简单的架构和优异的性能。
完成下面两步后,将自动完成登录并继续当前操作。