本文研究了深度强化学习代理人在适应训练分布之外任务时的问题,并提出了一种创新的适应策略。实验结果表明,该策略提高了训练效率并改进了基础代理人,同时融合了人类专业知识的方法。
完成下面两步后,将自动完成登录并继续当前操作。