该研究评估了一种用于找到凸凹函数鞍点的随机一阶方法的性能,并提出了一种简单有效的正则化技术。研究者还将算法应用于强化学习中的特定问题,并在无偏扩展的平均奖励 MDP 中找到接近最优策略的性能保证。
完成下面两步后,将自动完成登录并继续当前操作。