本研究提出了一种将自主智能体的可修正性建模为双人游戏的框架,以引入人类信念的不确定性,并分析实现可修正性所需的人类理性信念。
本研究通过单人游戏知识转移提升双人游戏的训练效率,有效解决了环境复杂性和训练不稳定性的问题。在十种Atari 2600环境中验证,结果显示训练时间和平均总奖励显著改善,为双人游戏强化学习提供了新方法。
完成下面两步后,将自动完成登录并继续当前操作。