小红花·文摘

该研究提出了一种从世界模型的循环状态中学习原型表示的方法，以提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。DreamerPro 模型通过将 Dreamer 与原型组合起来，在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。