该研究提出了一种从世界模型的循环状态中学习原型表示的方法,以提高基于模型的强化学习代理在处理视觉干扰方面的鲁棒性。DreamerPro 模型通过将 Dreamer 与原型组合起来,在标准设置和存在复杂背景干扰的情况下都取得了大幅性能提高。
完成下面两步后,将自动完成登录并继续当前操作。