本研究探讨了自主智能体在混合动机场景中因部分对齐和冲突导致的合作失败问题。通过定义马尔可夫承诺游戏(MCGs),提出了一种可学习的承诺协议,利用激励相容学习加速收敛到更优均衡。实验结果表明,该方法在复杂任务中具有更快的收敛速度和更高的收益。
完成下面两步后,将自动完成登录并继续当前操作。