Online Intrinsic Rewards for Decision-Making Agents from Large Language Model Feedback

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了一种名为ONI的分布式架构,旨在解决从自然语言描述中自动合成密集奖励的局限性,特别是在稀疏奖励和开放式探索任务中。该方法在NetHack学习环境中的稀疏奖励任务中表现出色,展示了其有效性和潜在影响。

🎯

关键要点

  • 本研究提出了一种名为ONI的分布式架构,旨在解决从自然语言描述中自动合成密集奖励的局限性。

  • 该方法特别关注稀疏奖励问题和开放式探索任务。

  • ONI结合了算法和系统层面的贡献,能够在大规模环境样本不足的情况下,同时学习强化学习策略和内在奖励函数。

  • 研究成果在NetHack学习环境中的多项稀疏奖励任务中达到了最先进的性能,展示了该方法的有效性和潜在影响。

➡️

继续阅读