本文介绍了一种新的多智能体强化学习方法,结合了合作任务分解和学习奖励机制,以编码子任务的结构。该方法能够处理部分可观察环境中奖励的非马尔可夫性质,并提高了学习策略的可解释性。研究结果表明,该方法在具有大状态空间和多个智能体的复杂环境中具有前景。
完成下面两步后,将自动完成登录并继续当前操作。