ABC 轻松统一玻尔兹曼 Q 学习与反事实遗憾最小化
原文中文,约500字,阅读约需2分钟。发表于: 。提出了 ABCs(Adaptive Branching through Child stationarity)算法,通过结合 Boltzmann Q-learning(BQL)和 counterfactual regret minimization(CFR)两种算法,实现了在单一智能体和多智能体领域的自适应分支,该算法通过测量环境的奖励和转移动力学的稳定性,在马尔可夫决策过程中,ABCs...
ABCs算法结合了BQL和CFR算法,实现了在单一智能体和多智能体领域的自适应分支。该算法通过测量环境奖励和转移动力学的稳定性,在马尔可夫决策过程中收敛到最佳策略。ABCs在两人零和游戏中保证收敛到纳什均衡,且在OpenSpiel游戏库和OpenAI Gym中表现出强大性能。