本研究提出了一种新方法——时间代理奖励再分配(TAR²),旨在解决多智能体环境中因奖励稀疏或延迟导致的学习困难。TAR²通过再分配奖励加速学习过程,提升稳定性,表现优于传统的多代理强化学习方法。
完成下面两步后,将自动完成登录并继续当前操作。