小红花·文摘

该研究评估了一种用于找到凸凹函数鞍点的随机一阶方法的性能，并提出了一种简单有效的正则化技术。研究者还将算法应用于强化学习中的特定问题，并在无偏扩展的平均奖励 MDP 中找到接近最优策略的性能保证。