本研究提出了一种扩展显式策略条件值函数(EPVF)的方法,以提高其在高维控制任务中的性能。通过大规模并行化等技术,EPVF能够有效探索策略参数空间,并在复杂任务中与先进的深度强化学习基线竞争。
完成下面两步后,将自动完成登录并继续当前操作。