PD-PPO是一种新型强化学习方法,适用于随机变量环境。它结合双重评论网络与PPO架构,能更有效应对不确定性,尤其在高随机性环境中优于传统方法。
本研究提出了一种新方法PDPPO,旨在解决传统强化学习在高维随机环境中价值函数估计不准确的问题。通过引入决策后状态和双重评论器,PDPPO显著提高了估计精度,并在测试中展现出更快、更一致的学习能力。
完成下面两步后,将自动完成登录并继续当前操作。