本文提出了一种单循环方差减少的随机一阶方法,解决了确定性约束随机优化问题中的核心问题。该方法能够确保约束几乎被确定性满足,并在样本复杂度和一阶操作复杂度上达到了显著提升。具有重要的实际应用潜力。
该研究评估了一种用于找到凸凹函数鞍点的随机一阶方法的性能,并提出了一种简单有效的正则化技术。研究者还将算法应用于强化学习中的特定问题,并在无偏扩展的平均奖励 MDP 中找到接近最优策略的性能保证。
完成下面两步后,将自动完成登录并继续当前操作。