本文介绍了一种可持续的多智能体深度强化学习框架,能够将训练策略从模拟环境转移到真实环境中。通过实验,展示了该框架在交叉路口问题和对抗自主赛车问题上的实验结果,并讨论了加速多智能体强化学习训练的技术。最后,使用该框架展示了从模拟环境到真实环境中训练策略的过渡。
AdaScale SGD是一种适应大批量训练学习率的算法,可加速训练并保持模型质量,适用于机器翻译、图像分类、目标检测和语音识别任务。该算法具有可忽略的计算开销和无需新的超参数,适合大规模训练。
最近出现了大量的内在动机(IM)奖励塑造方法来学习复杂和稀疏奖励的环境。我们提出了一个扩展的潜在基于奖励塑造(PBRS)方法,保留了最优策略集。同时,我们还提出了一种名为“基于潜在的内在动机”(PBIM)的方法,将IM奖励转化为基于潜在的形式,而无需改变最优策略集。在测试中,我们证明PBIM成功防止了智能体收敛到次优策略并且可以加速训练。
完成下面两步后,将自动完成登录并继续当前操作。