该文介绍了一种使用自然语言帮助强化学习泛化至未知环境技术的方法,使用编码器-解码器网络来学习自然语言行为描述与状态-动作信息之间的关联,并使用改进的策略塑造算法来指导智能体探索,从而提高其在未知环境中的学习能力。经过对经典游戏Frogger的评价,表明改进的策略塑造算法在优化学习上优于Q-Learning算法和基线策略塑造算法。
完成下面两步后,将自动完成登录并继续当前操作。