小红花·文摘

本研究提出了一种多智能体边际Q学习（MAMQL）框架，旨在解决多智能体场景中的奖励函数误指定问题。MAMQL通过边际化其他智能体的策略，显著提高了平均收益和样本效率，效果优于现有方法2-5倍。