研究者提出了MTLight方法,通过学习交通指标来增强智能体的观察,并构建多个辅助任务和监督任务来学习潜在状态。实验证明MTLight具有领先的收敛速度和渐近性能。
完成下面两步后,将自动完成登录并继续当前操作。