小红花·文摘

AIRS是一种用于强化学习的自动内在奖励方法。它通过实时估计任务返回值来选择奖励函数，激励探索并消除偏见。在Procgen游戏和DeepMind控制套件的测试中，AIRS表现优于基准方案。

BriefGPT - AI 论文速递 ·

AIRS是一种用于强化学习的自动内在奖励塑造方法，通过实时估计任务返回值来选择适当的奖励函数，提供可靠的探索激励并消除偏见目标问题。AIRS在Procgen游戏和DeepMind控制套件中的模拟中表现优于基准方案，且具有简单的架构和优异的性能。

BriefGPT - AI 论文速递 ·