离线多智能体强化学习(MARL)旨在从预先收集的数据中学习最佳策略,但面临分布偏移和协调行为的挑战。中山大学与美团合作提出了样本内顺序策略优化(InSPO)算法,通过顺序更新策略,避免选择分布外动作,增强智能体的协调性。实验结果表明,InSPO在多个任务中表现优异,具有广泛的应用潜力。
完成下面两步后,将自动完成登录并继续当前操作。