本文研究多智能体强化学习在仿真与现实差距中的脆弱性,提出稳健马克夫博弈(RMG)来解决多智能体诅咒。开发了样本高效算法,提升了在状态不确定性下的鲁棒性,并在多模态环境中实现了先进水平。研究还优化了样本复杂度,确保策略在环境不确定性下的鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。