Hokoff:来自《王者荣耀》的真实游戏数据集及其离线强化学习基准
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
离线多智能体强化学习(MARL)研究评估存在不一致性问题,通过比较前人工作发现基准方法在大多数任务中能达到最优结果。提出了简便易行的评估标准方法,纠正了前人工作中的缺陷,提高了离线MARL的实证科学水平。
🎯
关键要点
- 离线多智能体强化学习(MARL)是一个新兴领域,但存在基准和评估协议的不一致性问题。
- 当前的评估方法在测量新算法性能上存在显著缺陷。
- 通过与前人工作的比较,提出了简单且有效的基准方法,能够在多种任务中达到最优结果。
- 在47个数据集中的35个(约75%)中,新的基准方法达到了或超越了现有的最优结果。
- 新的基准方法通常优于更复杂的算法。
- 引入的评估标准方法纠正了前人工作的缺陷,为未来的比较研究提供了参考。
- 提议的方法结合可靠的基准和对比结果,可能会提高离线MARL的实证科学水平。
➡️