本文介绍了一种解决零样本泛化挑战的强化学习算法,通过理解和利用环境的上下文线索,将上下文表示的学习与策略学习相结合。该算法在各种模拟域中展示了改进的泛化能力,在零样本情境中优于先前的上下文学习技术。同时学习策略和上下文,实现了特定行为的上下文表示,并在实现跨不同真实世界任务的强化学习系统上取得了进展。
完成下面两步后,将自动完成登录并继续当前操作。