本研究提出了一种多游戏目标回报优化器(MTRO)算法,能够利用离线数据集自动确定游戏目标回报,从而简化配置过程。实验结果表明,MTRO显著提升了增强学习策略在多种游戏中的表现,促进了自主代理的发展。
完成下面两步后,将自动完成登录并继续当前操作。