本文研究了含对手的强化学习中的马尔科夫决策过程,提出了乐观策略优化算法POWERS,能够近似最小化最优遗憾。研究还探讨了多批次更新机制、偏差受限最优策略的计算方法及在线学习的应用,提出新算法以提高对抗环境下的决策效率,具有重要的理论和实践意义。
该研究提出了一种基于乐观策略优化的方法(OPPO),针对奖励稀少的领域,考虑了总收益的不确定性并在此基础上对策略进行乐观评估,优化自主代理的学习效果,在表格任务上取得了优于现有方法的结果。
完成下面两步后,将自动完成登录并继续当前操作。