本文提出了一种新的策略梯度算法,使用非统计方法提供了非渐进收敛保证,并专注于受softmax参数化限制的比例调节,重点是折扣的马尔可夫决策过程。实验证明,该算法在逼近正则化MDP的最优价值函数时,收敛速度为线性或二次,并适应广泛的学习速率,熵正则化在实现快速收敛方面发挥了作用。
本文介绍了一种新的平滑 PEP 方法,通过应用 Nesterov 平滑到 LASSO-type L1 惩罚上,可以更快、更高效地最小化与优化问题相关的目标函数。同时,使用奇异值分解的已建立结果可以计算更高级的特征向量。实证研究表明,这种平滑 PEP 方法可以提高数值稳定性并获得有意义的特征向量,比传统 PCA 更有效。
Adam是一种用于基于梯度的随机目标函数优化的算法,具有易于实现、计算效率高、占用内存少等优点。它适用于数据和参数较大、非平稳目标、存在噪声和稀疏梯度的问题。实证结果表明Adam在实践中效果良好,并且与其他随机优化方法相比具有优势。此外,还讨论了一种基于无穷范数的Adam变体AdaMax,并分析了该算法的理论收敛性质。
本文介绍了使用Nesterov的平滑技术和Legendre-Fenchel变换将贝尔曼方程重新构成一个新的原始对偶优化问题,并开发了一个名为平滑贝尔曼误差嵌入的新算法来解决这个优化问题。该算法在几个基准控制问题中表现出色。
完成下面两步后,将自动完成登录并继续当前操作。