小红花·文摘

本研究提出了一种扩展显式策略条件值函数（EPVF）的方法，以提高其在高维控制任务中的性能。通过大规模并行化等技术，EPVF能够有效探索策略参数空间，并在复杂任务中与先进的深度强化学习基线竞争。