本研究提出了一种名为ONI的分布式架构,旨在解决从自然语言描述中自动合成密集奖励的局限性,特别是在稀疏奖励和开放式探索任务中。该方法在NetHack学习环境中的稀疏奖励任务中表现出色,展示了其有效性和潜在影响。
完成下面两步后,将自动完成登录并继续当前操作。