本研究提出了一种新方法PDPPO,旨在解决传统强化学习在高维随机环境中价值函数估计不准确的问题。通过引入决策后状态和双重评论器,PDPPO显著提高了估计精度,并在测试中展现出更快、更一致的学习能力。
完成下面两步后,将自动完成登录并继续当前操作。