离线多智能体强化学习领域存在评估不一致的问题,影响研究进展。本文指出现有方法在算法性能测量上的缺陷,并通过简单基准方法在大多数任务中达到或超越现有最佳结果。研究表明,简单方法常优于复杂算法。本文引入易行的评估标准和可靠的基准结果,为未来研究提供参考。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: