本研究提出了分布式架构ONI,克服了自然语言描述中合成密集奖励的局限性,特别是在稀疏奖励和开放探索方面。该方法在NetHack环境中表现优异,展示了其有效性和潜力。
完成下面两步后,将自动完成登录并继续当前操作。