本研究提出了一种多智能体边际Q学习(MAMQL)框架,旨在解决多智能体场景中的奖励函数误指定问题。MAMQL通过边际化其他智能体的策略,显著提高了平均收益和样本效率,效果优于现有方法2-5倍。
完成下面两步后,将自动完成登录并继续当前操作。