小红花·文摘

本文提出了多种强化学习算法，包括基于预测的OPE方法、CoPPO算法和乐观策略优化（OPPO），旨在优化多智能体环境中的策略，解决奖励稀缺和高方差问题。研究表明这些方法在合作博弈和复杂任务中优于现有基线，提升了学习效果和决策的鲁棒性。