本文提出了对抗性强化学习方法,通过二人零和博弈自动确定环境参数范围,训练的优化代理更具鲁棒性。在网格世界和三个 MuJoCo 控制环境中验证。
根据传入的日志级别和环境参数,初始化日志的函数。根据环境参数的不同,设置不同的日志输出方式。
完成下面两步后,将自动完成登录并继续当前操作。