小红花·文摘

研究者提出了MTLight方法，通过学习交通指标来增强智能体的观察，并构建多个辅助任务和监督任务来学习潜在状态。实验证明MTLight具有领先的收敛速度和渐近性能。