Online Intrinsic Rewards for Decision-Making Agents from Large Language Model Feedback
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种名为ONI的分布式架构,旨在解决从自然语言描述中自动合成密集奖励的局限性,特别是在稀疏奖励和开放式探索任务中。该方法在NetHack学习环境中的稀疏奖励任务中表现出色,展示了其有效性和潜在影响。
🎯
关键要点
-
本研究提出了一种名为ONI的分布式架构,旨在解决从自然语言描述中自动合成密集奖励的局限性。
-
该方法特别关注稀疏奖励问题和开放式探索任务。
-
ONI结合了算法和系统层面的贡献,能够在大规模环境样本不足的情况下,同时学习强化学习策略和内在奖励函数。
-
研究成果在NetHack学习环境中的多项稀疏奖励任务中达到了最先进的性能,展示了该方法的有效性和潜在影响。
➡️