小红花·文摘

本文探讨了深度强化学习中的多种方法，包括基于参数的价值函数和演员-评论家框架。研究提出了一种新的状态-值函数逼近方法，解决了高维动作表示问题，并在稀疏奖励任务中表现出色。此外，介绍了VA-learning和CSVE等新算法，提升了样本效率和策略优化效果，具有实际应用价值。