该论文介绍了一种名为Deep Latent Competition(DLC)的强化学习算法,通过自我博弈在想象中学习竞争性视觉控制策略,实现长期推理。DLC代理人在紧凑潜在空间中想象多智能体互动序列,减少实际采样成本,同时潜在表示启用规划随着观察维度的扩展而平滑扩展。该算法在新颖多智能体比赛基准测试中学习了有效的竞争行为。
完成下面两步后,将自动完成登录并继续当前操作。