本文提出了一种新的多智能体强化学习方法,通过合作任务分解和学习奖励机器的结合来处理部分可观察环境中奖励的非马尔可夫性质,并提高了学习策略的可解释性。该方法在具有大状态空间和多个智能体的复杂环境中具有潜力。
完成下面两步后,将自动完成登录并继续当前操作。