高性能、内存高效且可扩展的多智能体强化学习

本研究针对多智能体强化学习(MARL)在大规模复杂环境中性能、内存效率和可扩展性之间的矛盾，提出了一种新算法Sable。Sable通过采用Retentive Networks的保持机制，能够在大规模部分可观测环境中实现计算高效的扩展，并显著优于现有最先进方法，处理超过千个智能体的环境时内存使用呈线性增长。该算法在多个环境中的评估结果显示了其卓越的性能及效率。

离线多智能体强化学习领域存在评估不一致的问题，影响研究进展。本文指出现有方法在算法性能测量上的缺陷，并通过简单基准方法在大多数任务中达到或超越现有最佳结果。研究表明，简单方法常优于复杂算法。本文引入易行的评估标准和可靠的基准结果，为未来研究提供参考。

内存基准方法多智能体强化学习离线MARL 算法性能评估标准