本文研究了离线多智体强化学习中的协调失败问题,并提出了一种基于数据的方法来缓解这个问题。实验结果表明该方法有效。作者认为基于优先选择的数据集采样是离线多智体强化学习中一个具有创新潜力的领域。
完成下面两步后,将自动完成登录并继续当前操作。