小红花·文摘

本文探讨了多智能体强化学习中的合作与沟通机制，提出了基于结果的策略和利他动机模型。研究表明，代理的行为受合作伙伴影响，采用对等激励机制可提高博弈模型的均衡概率。此外，KindMARL方法通过反事实推理提升代理的意图理解，增强奖励获取。最后，提出的利他梯度调整方法促进了个体与集体目标的对齐。