小红花·文摘

本文介绍了一种解决零样本泛化挑战的强化学习算法，通过理解和利用环境的上下文线索，将上下文表示的学习与策略学习相结合。该算法在各种模拟域中展示了改进的泛化能力，在零样本情境中优于先前的上下文学习技术。同时学习策略和上下文，实现了特定行为的上下文表示，并在实现跨不同真实世界任务的强化学习系统上取得了进展。