小红花·文摘

本文研究了深度强化学习代理人在适应训练分布之外任务时的问题，并提出了一种创新的适应策略。实验结果表明，该策略提高了训练效率并改进了基础代理人，同时融合了人类专业知识的方法。